Aufgaben
Um mit verschiedenen Daten umgehen zu können, müssen Sie auch
verschiedene Daten/Datenstrukturen gesehen haben, daher betrachten wir
immer unterschiedliche Datensätze.
In den folgenden Aufgaben wollen wir weiterhin den Datensatz
flights betrachten, da dieser aufgrund seiner Größe etwas
komplexer ist:
library(tidyverse)
flights
Machen Sie sich mit dem Datensatz und den einzelnen Variablen
vertraut. Falls Sie Hilfe benötigen, verwenden Sie erneut
?flights.
Übungsaufgaben
- Wo liegt der Fehler?
irgendeine_variable <- 10
irgendeine_varıable
- Schreiben Sie die fehlenden Befehle um, sodass diese sinngemäß
laufen:
lirbrary(tidyverse)
ggplot(dota = iris) +
geom_point(mapping = aes(x = Sepal.Length, y = Sepal.Width))
filter(mpg, cyl = 7)
filter(diamond, carat != 3)
- Filtern Sie die Flüge des
flights Datensatzes anhand
der folgenden Bedingungen:
Flüge mit einer Ankunftsverspätung arr_delay von
über 10 Stunden
Flüge nach Seattle oder Kansas City (SEA und
MCI)
Flüge der Airlines United (UA), American
(AA) oder Delta (DL)
Flüge im Winter (December, Januar, Februar)
Flüge mit einer Verspätung arr_delay von mehr als 3
Stunden, wobei der Abflug nicht verspätet war
(dep_delay)
Flüge mit einer Abflugverspätung dep_delay von mehr
als einer Stunde, die mehr als die Hälfte des Delays durch den Flug
wettmachen konnten
Flüge am späten Abend zwischen 22 Uhr und 24 Uhr
- Betrachten Sie die Funktion
?between() und ihre
Funktionalität. Würde diese Ihnen bei den vorherigen Aufgaben
helfen?
- Bei wie vielen Flügen fehlt die Ankunftszeit
dep_time?
Was fällt Ihnen auf und wie können Sie sich diese Einträge
erklären?
- Sortieren Sie die Flüge:
Finden Sie die Flüge mit der kleinsten und größten
Abflugverspätung dep_delay
Finden Sie den kürzesten und längsten Flug (bezogen auf die
Distanz distance)
Finden Sie den schnellsten Flug (bezogen auf die
Geschwindigkeit)
Lösungen
Wo liegt der
Fehler?
irgendeine_variable <- 10
irgendeine_variable
[1] 10
Der Fehler zeigt, dass ein Objekt nicht gefunden wurde. Dies liegt
daran, dass der Variablenname zuvor falsch geschrieben wurde (das i war
das griechische Iota:
ι).
Schreiben Sie die
fehlenden Befehle um, sodass diese sinngemäß laufen:
library(tidyverse) # Funktion falsch geschrieben
ggplot(data = iris) + # Parameter falsch geschrieben
geom_point(mapping = aes(x = Sepal.Length, y = Sepal.Width))

filter(mpg, cyl == 7) # Für Vergleiche wird das "==" verwendet
filter(diamonds, carat != 3) # Der Dataframe heißt diamonds
Filtern Sie die
Flüge des flights Datensatzes anhand der folgenden
Bedingungen:
Flüge mit einer
Ankunftsverspätung arr_delay von über 10 Stunden
Achten Sie darauf, dass die meisten Zeiten in Minuten angegeben
sind:
filter(flights, arr_delay >= 600) # = 10 Stunden
Flüge nach
Seattle oder Kansas City (SEA und MCI)
Es gibt zwei Alternativen. Entweder verwenden Sie den
Vergleichsoperator für das ODER |:
filter(flights, dest == "SEA" | dest == "MCI")
Die zweite Alternative ist die Verwendung von %in%:
filter(flights, dest %in% c("SEA", "MCI"))
Flüge der
Airlines United (UA), American (AA) oder Delta
(DL)
filter(flights, carrier %in% c("UA", "AA", "DL"))
Flüge im ersten
Quartal (Januar, Februar, März)
filter(flights, month %in% c(1, 2, 3))
Flüge mit einer
Verspätung arr_delay von mehr als 3 Stunden, wobei der
Abflug nicht verspätet war (dep_delay)
filter(flights, arr_delay > 180, dep_delay <= 0)
Flüge mit einer
Abflugverspätung dep_delay von mehr als einer Stunde, die
mehr als die Hälfte des Delays durch den Flug wettmachen konnten
filter(flights, dep_delay > 60, arr_delay < dep_delay / 2)
Flüge am späten
Abend zwischen 22 Uhr und 24 Uhr
filter(flights, hour >= 22, hour <= 24)
Betrachten Sie die
Funktion ?between() und ihre Funktionalität. Würde Ihnen
diese bei den vorherigen Aufgaben helfen?
Die between() Funktion ermöglicht den Vergleich von
einem Wert mit einer Unter- und Obergrenze. Das kann als Ersatz für
x >= y & x <= z verwendet werden.
Umgangssprachlich: “Liegt der Wert x zwischen
y und z?
Verwenden können wir diese Funktion in zwei vorherigen Fällen:
filter(flights, between(month, 1, 3)) # Umgangssprachlich: "Wähle den Monat zwischen dem 1. und 3. (beides inklusive) aus"
filter(flights, between(hour, 22, 24)) # Flüge zwischen 22 und 24 Uhr
Bei wie vielen
Flügen fehlt die Ankunftszeit dep_time? Was fällt Ihnen auf
und wie können Sie sich diese Einträge erklären?
NAs können wir mit Hilfe der is.na()
Funktion filtern:
filter(flights, is.na(dep_time))
Wir sehen, dass eine fehlende Ankunftszeit ebenfalls mit
NAs in arr_time, dep_delay,
arr_delay und air_time einhergehen:
- Die Flüge scheinen ausgefallen zu sein
Sortieren Sie die
Flüge:
Finden Sie die
Flüge mit der kleinsten und größten Abflugverspätung
dep_delay
# Aufsteigend sortiert:
arrange(flights, dep_delay)
# Absteigend sortiert:
arrange(flights, desc(dep_delay)) # desc() = descending (absteigend), um die Sortierung zu ändern
Finden Sie den
kürzesten und längsten Flug (bezogen auf die Distanz
distance)
arrange(flights, distance)
arrange(flights, desc(distance))
Finden Sie den
schnellsten Flug (bezogen auf die Geschwindigkeit)
Um die Geschwindigkeit zu erhalten, müssen wir die Distanz
distance durch die Zeit air_time teilen und
danach sortieren:
arrange(flights, desc(distance / air_time))
