Aufgaben
Um mit verschiedenen Daten umgehen zu können, müssen Sie auch
verschiedene Daten/Datenstrukturen gesehen haben, daher betrachten wir
immer unterschiedliche Datensätze.
In den folgenden Aufgaben wollen wir weiterhin den Datensatz
flights betrachten, da dieser aufgrund seiner Größe etwas
komplexer ist:
library(tidyverse)
flights
Machen Sie sich mit dem Datensatz und den einzelnen Variablen
vertraut. Falls Sie Hilfe benötigen, verwenden Sie erneut
?flights.
Übungsaufgaben
- Wo liegt der Fehler?
irgendeine_variable <- 10
irgendeine_varıable
- Schreiben Sie die fehlenden Befehle um, sodass diese sinngemäß
laufen:
lirbrary(tidyverse)
ggplot(dota = iris) +
geom_point(mapping = aes(x = Sepal.Length, y = Sepal.Width))
filter(mpg, cyl = 7)
filter(diamond, carat != 3)
- Filtern Sie die Flüge des
flights Datensatzes anhand
der folgenden Bedingungen:
Flüge mit einer Ankunftsverspätung arr_delay von
über 10 Stunden
Flüge nach Seattle oder Kansas City (SEA und
MCI)
Flüge der Airlines United (UA), American
(AA) oder Delta (DL)
Flüge im Winter (December, Januar, Februar)
Flüge mit einer Verspätung arr_delay von mehr als 3
Stunden, wobei der Abflug nicht verspätet war
(dep_delay)
Flüge mit einer Abflugverspätung dep_delay von mehr
als einer Stunde, die mehr als die Hälfte des Delays durch den Flug
wettmachen konnten
Flüge am späten Abend zwischen 22 Uhr und 24 Uhr
- Betrachten Sie die Funktion
?between() und ihre
Funktionalität. Würde diese Ihnen bei den vorherigen Aufgaben
helfen?
- Bei wie vielen Flügen fehlt die Ankunftszeit
dep_time?
Was fällt Ihnen auf und wie können Sie sich diese Einträge
erklären?
- Sortieren Sie die Flüge:
Finden Sie die Flüge mit der kleinsten und größten
Abflugverspätung dep_delay
Finden Sie den kürzesten und längsten Flug (bezogen auf die
Distanz distance)
Finden Sie den schnellsten Flug (bezogen auf die
Geschwindigkeit)
Lösungen
Wo liegt der
Fehler?
irgendeine_variable <- 10
irgendeine_variable
[1] 10
Der Fehler zeigt, dass ein Objekt nicht gefunden wurde. Dies liegt
daran, dass der Variablenname zuvor falsch geschrieben wurde (das i war
das griechische Iota:
ι).
Schreiben Sie die
fehlenden Befehle um, sodass diese sinngemäß laufen:
library(tidyverse) # Funktion falsch geschrieben
ggplot(data = iris) + # Parameter falsch geschrieben
geom_point(mapping = aes(x = Sepal.Length, y = Sepal.Width))

filter(mpg, cyl == 7) # Für Vergleiche wird das "==" verwendet
filter(diamonds, carat != 3) # Der Dataframe heißt diamonds
Filtern Sie die
Flüge des flights Datensatzes anhand der folgenden
Bedingungen:
Flüge mit einer
Ankunftsverspätung arr_delay von über 10 Stunden
Achten Sie darauf, dass die meisten Zeiten in Minuten angegeben
sind:
filter(flights, arr_delay >= 600) # = 10 Stunden
Flüge nach
Seattle oder Kansas City (SEA und MCI)
Es gibt zwei Alternativen. Entweder verwenden Sie den
Vergleichsoperator für das ODER |:
filter(flights, dest == "SEA" | dest == "MCI")
Die zweite Alternative ist die Verwendung von %in%:
filter(flights, dest %in% c("SEA", "MCI"))
Flüge der
Airlines United (UA), American (AA) oder Delta
(DL)
filter(flights, carrier %in% c("UA", "AA", "DL"))
Flüge im ersten
Quartal (Januar, Februar, März)
filter(flights, month %in% c(1, 2, 3))
Flüge mit einer
Verspätung arr_delay von mehr als 3 Stunden, wobei der
Abflug nicht verspätet war (dep_delay)
filter(flights, arr_delay > 180, dep_delay <= 0)
Flüge mit einer
Abflugverspätung dep_delay von mehr als einer Stunde, die
mehr als die Hälfte des Delays durch den Flug wettmachen konnten
filter(flights, dep_delay > 60, arr_delay < dep_delay / 2)
Flüge am späten
Abend zwischen 22 Uhr und 24 Uhr
filter(flights, hour >= 22, hour <= 24)
Betrachten Sie die
Funktion ?between() und ihre Funktionalität. Würde Ihnen
diese bei den vorherigen Aufgaben helfen?
Die between() Funktion ermöglicht den Vergleich von
einem Wert mit einer Unter- und Obergrenze. Das kann als Ersatz für
x >= y & x <= z verwendet werden.
Umgangssprachlich: “Liegt der Wert x zwischen
y und z?
Verwenden können wir diese Funktion in zwei vorherigen Fällen:
filter(flights, between(month, 1, 3)) # Umgangssprachlich: "Wähle den Monat zwischen dem 1. und 3. (beides inklusive) aus"
filter(flights, between(hour, 22, 24)) # Flüge zwischen 22 und 24 Uhr
Bei wie vielen
Flügen fehlt die Ankunftszeit dep_time? Was fällt Ihnen auf
und wie können Sie sich diese Einträge erklären?
NAs können wir mit Hilfe der is.na()
Funktion filtern:
filter(flights, is.na(dep_time))
Wir sehen, dass eine fehlende Ankunftszeit ebenfalls mit
NAs in arr_time, dep_delay,
arr_delay und air_time einhergehen:
- Die Flüge scheinen ausgefallen zu sein
Sortieren Sie die
Flüge:
Finden Sie die
Flüge mit der kleinsten und größten Abflugverspätung
dep_delay
# Aufsteigend sortiert:
arrange(flights, dep_delay)
# Absteigend sortiert:
arrange(flights, desc(dep_delay)) # desc() = descending (absteigend), um die Sortierung zu ändern
Finden Sie den
kürzesten und längsten Flug (bezogen auf die Distanz
distance)
arrange(flights, distance)
arrange(flights, desc(distance))
Finden Sie den
schnellsten Flug (bezogen auf die Geschwindigkeit)
Um die Geschwindigkeit zu erhalten, müssen wir die Distanz
distance durch die Zeit air_time teilen und
danach sortieren:
arrange(flights, desc(distance / air_time))
---
title: "Übungszettel 3"
output: 
  html_notebook: 
    highlight: tango
    number_sections: yes
---

# Aufgaben

Um mit verschiedenen Daten umgehen zu können, müssen Sie auch
verschiedene Daten/Datenstrukturen gesehen haben, daher betrachten wir
immer unterschiedliche Datensätze.

In den folgenden Aufgaben wollen wir weiterhin den Datensatz `flights`
betrachten, da dieser aufgrund seiner Größe etwas komplexer ist:

```{r}
library(tidyverse)
flights
```

Machen Sie sich mit dem Datensatz und den einzelnen Variablen vertraut.
Falls Sie Hilfe benötigen, verwenden Sie erneut `?flights`.

## Übungsaufgaben

1.  Wo liegt der Fehler?

```{r, eval = FALSE}
irgendeine_variable <- 10
irgendeine_varıable
```

2.  Schreiben Sie die fehlenden Befehle um, sodass diese sinngemäß
    laufen:

```{r, eval = FALSE}
lirbrary(tidyverse)

ggplot(dota = iris) +
	geom_point(mapping = aes(x = Sepal.Length, y = Sepal.Width))

filter(mpg, cyl = 7)
filter(diamond, carat != 3)
```

3.  Filtern Sie die Flüge des `flights` Datensatzes anhand der folgenden
    Bedingungen:
    1.  Flüge mit einer Ankunftsverspätung `arr_delay` von über 10
        Stunden

    2.  Flüge nach Seattle oder Kansas City (`SEA` und `MCI`)

    3.  Flüge der Airlines United (`UA`), American (`AA`) oder Delta
        (`DL`)

    4.  Flüge im Winter (December, Januar, Februar)

    5.  Flüge mit einer Verspätung `arr_delay` von mehr als 3 Stunden,
        wobei der Abflug nicht verspätet war (`dep_delay`)

    6.  Flüge mit einer Abflugverspätung `dep_delay` von mehr als einer
        Stunde, die mehr als die Hälfte des Delays durch den Flug
        wettmachen konnten

    7.  Flüge am späten Abend zwischen 22 Uhr und 24 Uhr
4.  Betrachten Sie die Funktion `?between()` und ihre Funktionalität.
    Würde diese Ihnen bei den vorherigen Aufgaben helfen?
5.  Bei wie vielen Flügen fehlt die Ankunftszeit `dep_time`? Was fällt
    Ihnen auf und wie können Sie sich diese Einträge erklären?
6.  Sortieren Sie die Flüge:
    1.  Finden Sie die Flüge mit der kleinsten und größten
        Abflugverspätung `dep_delay`

    2.  Finden Sie den kürzesten und längsten Flug (bezogen auf die
        Distanz `distance`)

    3.  Finden Sie den schnellsten Flug (bezogen auf die
        Geschwindigkeit)

## Lösungen

### Wo liegt der Fehler?

```{r}
irgendeine_variable <- 10
irgendeine_variable
```

Der Fehler zeigt, dass ein Objekt nicht gefunden wurde. Dies liegt
daran, dass der Variablenname zuvor falsch geschrieben wurde (das i war
das griechische [Iota](https://de.wikipedia.org/wiki/Iota): ι).

### Schreiben Sie die fehlenden Befehle um, sodass diese sinngemäß laufen:

```{r}
library(tidyverse) # Funktion falsch geschrieben

ggplot(data = iris) + # Parameter falsch geschrieben
	geom_point(mapping = aes(x = Sepal.Length, y = Sepal.Width))

filter(mpg, cyl == 7) # Für Vergleiche wird das "==" verwendet
filter(diamonds, carat != 3) # Der Dataframe heißt diamonds
```

### Filtern Sie die Flüge des `flights` Datensatzes anhand der folgenden Bedingungen:

#### Flüge mit einer Ankunftsverspätung `arr_delay` von über 10 Stunden

Achten Sie darauf, dass die meisten Zeiten in Minuten angegeben sind:

```{r}
filter(flights, arr_delay >= 600) # = 10 Stunden
```

#### Flüge nach Seattle oder Kansas City (`SEA` und `MCI`)

Es gibt zwei Alternativen. Entweder verwenden Sie den Vergleichsoperator
für das ODER `|`:

```{r}
filter(flights, dest == "SEA" | dest == "MCI")
```

Die zweite Alternative ist die Verwendung von `%in%`:

```{r}
filter(flights, dest %in% c("SEA", "MCI"))
```

#### Flüge der Airlines United (`UA`), American (`AA`) oder Delta (`DL`)

```{r}
filter(flights, carrier %in% c("UA", "AA", "DL"))
```

#### Flüge im ersten Quartal (Januar, Februar, März)

```{r}
filter(flights, month %in% c(1, 2, 3))
```

#### Flüge mit einer Verspätung `arr_delay` von mehr als 3 Stunden, wobei der Abflug nicht verspätet war (`dep_delay`)

```{r}
filter(flights, arr_delay > 180, dep_delay <= 0)
```

#### Flüge mit einer Abflugverspätung `dep_delay` von mehr als einer Stunde, die mehr als die Hälfte des Delays durch den Flug wettmachen konnten

```{r}
filter(flights, dep_delay > 60, arr_delay < dep_delay / 2)
```

#### Flüge am späten Abend zwischen 22 Uhr und 24 Uhr

```{r}
filter(flights, hour >= 22, hour <= 24)
```

### Betrachten Sie die Funktion `?between()` und ihre Funktionalität. Würde Ihnen diese bei den vorherigen Aufgaben helfen?

Die `between()` Funktion ermöglicht den Vergleich von einem Wert mit
einer Unter- und Obergrenze. Das kann als Ersatz für `x >= y & x <= z`
verwendet werden. Umgangssprachlich: "Liegt der Wert `x` zwischen `y`
und `z`?

Verwenden können wir diese Funktion in zwei vorherigen Fällen:

```{r}
filter(flights, between(month, 1, 3)) # Umgangssprachlich: "Wähle den Monat zwischen dem 1. und 3. (beides inklusive) aus"
```

```{r}
filter(flights, between(hour, 22, 24)) # Flüge zwischen 22 und 24 Uhr
```

### Bei wie vielen Flügen fehlt die Ankunftszeit `dep_time`? Was fällt Ihnen auf und wie können Sie sich diese Einträge erklären?

`NAs` können wir mit Hilfe der `is.na()` Funktion filtern:

```{r}
filter(flights, is.na(dep_time))
```

Wir sehen, dass eine fehlende Ankunftszeit ebenfalls mit `NAs` in
`arr_time`, `dep_delay`, `arr_delay` und `air_time` einhergehen:

-   Die Flüge scheinen ausgefallen zu sein

### Sortieren Sie die Flüge:

#### Finden Sie die Flüge mit der kleinsten und größten Abflugverspätung `dep_delay`

```{r}
# Aufsteigend sortiert:
arrange(flights, dep_delay)
# Absteigend sortiert:
arrange(flights, desc(dep_delay)) # desc() = descending (absteigend), um die Sortierung zu ändern
```

#### Finden Sie den kürzesten und längsten Flug (bezogen auf die Distanz `distance`)

```{r}
arrange(flights, distance)
arrange(flights, desc(distance))
```

#### Finden Sie den schnellsten Flug (bezogen auf die Geschwindigkeit)

Um die Geschwindigkeit zu erhalten, müssen wir die Distanz `distance`
durch die Zeit `air_time` teilen und danach sortieren:

```{r}
arrange(flights, desc(distance / air_time))
```
