1 Aufgaben

Um mit verschiedenen Daten umgehen zu können, müssen Sie auch verschiedene Daten/Datenstrukturen gesehen haben, daher betrachten wir immer unterschiedliche Datensätze.

In den folgenden Aufgaben wollen wir weiterhin den Datensatz flights betrachten, da dieser aufgrund seiner Größe etwas komplexer ist:

library(tidyverse)
flights

Machen Sie sich mit dem Datensatz und den einzelnen Variablen vertraut. Falls Sie Hilfe benötigen, verwenden Sie erneut ?flights.

1.1 Übungsaufgaben

  1. Wo liegt der Fehler?
irgendeine_variable <- 10
irgendeine_varıable
  1. Schreiben Sie die fehlenden Befehle um, sodass diese sinngemäß laufen:
lirbrary(tidyverse)

ggplot(dota = iris) +
    geom_point(mapping = aes(x = Sepal.Length, y = Sepal.Width))

filter(mpg, cyl = 7)
filter(diamond, carat != 3)
  1. Filtern Sie die Flüge des flights Datensatzes anhand der folgenden Bedingungen:
    1. Flüge mit einer Ankunftsverspätung arr_delay von über 10 Stunden

    2. Flüge nach Seattle oder Kansas City (SEA und MCI)

    3. Flüge der Airlines United (UA), American (AA) oder Delta (DL)

    4. Flüge im Winter (December, Januar, Februar)

    5. Flüge mit einer Verspätung arr_delay von mehr als 3 Stunden, wobei der Abflug nicht verspätet war (dep_delay)

    6. Flüge mit einer Abflugverspätung dep_delay von mehr als einer Stunde, die mehr als die Hälfte des Delays durch den Flug wettmachen konnten

    7. Flüge am späten Abend zwischen 22 Uhr und 24 Uhr

  2. Betrachten Sie die Funktion ?between() und ihre Funktionalität. Würde diese Ihnen bei den vorherigen Aufgaben helfen?
  3. Bei wie vielen Flügen fehlt die Ankunftszeit dep_time? Was fällt Ihnen auf und wie können Sie sich diese Einträge erklären?
  4. Sortieren Sie die Flüge:
    1. Finden Sie die Flüge mit der kleinsten und größten Abflugverspätung dep_delay

    2. Finden Sie den kürzesten und längsten Flug (bezogen auf die Distanz distance)

    3. Finden Sie den schnellsten Flug (bezogen auf die Geschwindigkeit)

1.2 Lösungen

1.2.1 Wo liegt der Fehler?

irgendeine_variable <- 10
irgendeine_variable
[1] 10

Der Fehler zeigt, dass ein Objekt nicht gefunden wurde. Dies liegt daran, dass der Variablenname zuvor falsch geschrieben wurde (das i war das griechische Iota: ι).

1.2.2 Schreiben Sie die fehlenden Befehle um, sodass diese sinngemäß laufen:

library(tidyverse) # Funktion falsch geschrieben

ggplot(data = iris) + # Parameter falsch geschrieben
    geom_point(mapping = aes(x = Sepal.Length, y = Sepal.Width))


filter(mpg, cyl == 7) # Für Vergleiche wird das "==" verwendet
filter(diamonds, carat != 3) # Der Dataframe heißt diamonds

1.2.3 Filtern Sie die Flüge des flights Datensatzes anhand der folgenden Bedingungen:

1.2.3.1 Flüge mit einer Ankunftsverspätung arr_delay von über 10 Stunden

Achten Sie darauf, dass die meisten Zeiten in Minuten angegeben sind:

filter(flights, arr_delay >= 600) # = 10 Stunden

1.2.3.2 Flüge nach Seattle oder Kansas City (SEA und MCI)

Es gibt zwei Alternativen. Entweder verwenden Sie den Vergleichsoperator für das ODER |:

filter(flights, dest == "SEA" | dest == "MCI")

Die zweite Alternative ist die Verwendung von %in%:

filter(flights, dest %in% c("SEA", "MCI"))

1.2.3.3 Flüge der Airlines United (UA), American (AA) oder Delta (DL)

filter(flights, carrier %in% c("UA", "AA", "DL"))

1.2.3.4 Flüge im ersten Quartal (Januar, Februar, März)

filter(flights, month %in% c(1, 2, 3))

1.2.3.5 Flüge mit einer Verspätung arr_delay von mehr als 3 Stunden, wobei der Abflug nicht verspätet war (dep_delay)

filter(flights, arr_delay > 180, dep_delay <= 0)

1.2.3.6 Flüge mit einer Abflugverspätung dep_delay von mehr als einer Stunde, die mehr als die Hälfte des Delays durch den Flug wettmachen konnten

filter(flights, dep_delay > 60, arr_delay < dep_delay / 2)

1.2.3.7 Flüge am späten Abend zwischen 22 Uhr und 24 Uhr

filter(flights, hour >= 22, hour <= 24)

1.2.4 Betrachten Sie die Funktion ?between() und ihre Funktionalität. Würde Ihnen diese bei den vorherigen Aufgaben helfen?

Die between() Funktion ermöglicht den Vergleich von einem Wert mit einer Unter- und Obergrenze. Das kann als Ersatz für x >= y & x <= z verwendet werden. Umgangssprachlich: “Liegt der Wert x zwischen y und z?

Verwenden können wir diese Funktion in zwei vorherigen Fällen:

filter(flights, between(month, 1, 3)) # Umgangssprachlich: "Wähle den Monat zwischen dem 1. und 3. (beides inklusive) aus"
filter(flights, between(hour, 22, 24)) # Flüge zwischen 22 und 24 Uhr

1.2.5 Bei wie vielen Flügen fehlt die Ankunftszeit dep_time? Was fällt Ihnen auf und wie können Sie sich diese Einträge erklären?

NAs können wir mit Hilfe der is.na() Funktion filtern:

filter(flights, is.na(dep_time))

Wir sehen, dass eine fehlende Ankunftszeit ebenfalls mit NAs in arr_time, dep_delay, arr_delay und air_time einhergehen:

  • Die Flüge scheinen ausgefallen zu sein

1.2.6 Sortieren Sie die Flüge:

1.2.6.1 Finden Sie die Flüge mit der kleinsten und größten Abflugverspätung dep_delay

# Aufsteigend sortiert:
arrange(flights, dep_delay)
# Absteigend sortiert:
arrange(flights, desc(dep_delay)) # desc() = descending (absteigend), um die Sortierung zu ändern

1.2.6.2 Finden Sie den kürzesten und längsten Flug (bezogen auf die Distanz distance)

arrange(flights, distance)
arrange(flights, desc(distance))

1.2.6.3 Finden Sie den schnellsten Flug (bezogen auf die Geschwindigkeit)

Um die Geschwindigkeit zu erhalten, müssen wir die Distanz distance durch die Zeit air_time teilen und danach sortieren:

arrange(flights, desc(distance / air_time))
