1 Aufgaben

Für die Übungsaufgaben gehen wir zu dem diamonds Datensatz über. Der Datensatz befasst sich mit Preis, Qualität und weiteren Eigenschaften von knapp 54.000 Diamanten.

Zuerst geben wir wieder die folgenden Befehle ein, um die Bibliothek tidyverse zu laden und den Datensatz einzusehen:

library(tidyverse)
diamonds

Um mehr über den Datensatz zu erfahren, geben Sie wieder den Hilfsbefehl ?diamonds ein.

1.1 Übungsaufgaben

  1. Erstellen Sie eine Grafik von den Variablen carat und price des diamonds Datensatzes, wobei Sie die Datenpunkte nach der Kategorie clarity färben.

  2. Erstellen Sie eine weitere Grafik von den Variablen carat und price des diamonds Datensatzes, wobei Sie ein facet für die Kategorie clarity hinzufügen. Worin liegen die Vor- und Nachteile der Farb-Aesthetics und der Nutzung von facets?

  3. Verwenden Sie nun als facet eine kontinuierliche Variable wie z. B. table. Was passiert hier?

  4. Verwenden Sie nun ein facet mit zwei Variablen cut und clarity, um die Variablen carat und price zu vergleichen. Was können Sie dieser Grafik entnehmen?

  5. Erstellen Sie eine passende Grafik, um die Verteilungen von cut und price darzustellen. Denken Sie auch an passende Gruppierungen, Farben und Positionen!

  6. Erstellen Sie die folgenden Grafiken:

Verschiedene Grafiken

  1. Erstellen Sie ein Balkendiagramm von der Variable cut und fügen Sie ein facet mit der Variable clarity ein.
    Ändern Sie zusätzlich den Titel und die Achsenbeschriftungen mit labs() und verschieben Sie die Legende nach unten mit theme().

1.2 Lösungen

1.2.1 Erstellen Sie eine Grafik von den Variablen carat und price des diamonds Datensatzes, wobei Sie die Datenpunkte nach der Kategorie clarity färben.

ggplot(data = diamonds) +
  geom_point(mapping = aes(x = carat, y = price, color = clarity))

1.2.2 Erstellen Sie eine weitere Grafik von den Variablen carat und price des diamonds Datensatzes, wobei Sie ein facet für die Kategorie clarity hinzufügen. Worin liegen die Vor- und Nachteile der Farb-Aesthetics und der Nutzung von facets?

ggplot(data = diamonds) +
  geom_point(mapping = aes(x = carat, y = price, color = clarity)) +
  facet_wrap(facets = ~ clarity)

Durch die Gitter werden die Zusammenhänge und Trends der einzelnen Kategorien (hier clarity) deutlicher und können auch direkt zwischen den Kategorien verglichen werden.

Die gemeinsame Grafik, wo lediglich die Datenpunkte nach der clarity eingefärbt werden, wirkt wesentlich unübersichtlicher, um die Kategorien unter sich zu vergleichen, obgleich der gemeinsame Trend sichtbar ist.

Insbesondere für größere Datensätze mit mehreren Kategorien bieten sich die Gitter an.

1.2.3 Verwenden Sie nun als facet eine kontinuierliche Variable wie z. B. table. Was passiert hier?

ggplot(data = diamonds) +
  geom_point(mapping = aes(x = carat, y = price, color = clarity)) +
  facet_wrap(facets = ~ table)

Sie sehen, dass ein Gitter für jeden Wert von table erstellt wird. Das ist möglich und zeigt beispielsweise, dass es für eine Werte von table sehr viele Diamanten gibt (z. B. bei 56) und bei anderen sehr wenige (z. B. 43). Interessanterweise liegen viele hochwertige Diamanten (mit hohem clarity Wert) meist bei den Werten 54, 55, 56, 57, 58, 59, 60, 61 und 63 für table.

Die Variable table bezieht sich hierbei auf das Verhältnis der Breite der obersten Stelle und der weitesten Stelle eines Diamanten.

Bei Kontinuierlichen Werten entstehen jedoch meistens eine große Anzahl an Gitter, was für die Übersichtlichkeit nicht unbedingt von Vorteil ist.

1.2.4 Verwenden Sie nun ein facet mit zwei Variablen cut und clarity, um die Variablen carat und price zu vergleichen. Was können Sie dieser Grafik entnehmen?

Bei der Nutzung von facet_grid() muss darauf geachtet werden, dass eine Variable vor der Tilde ~ und eine danach steht (in diesem Zusammenhang die y-und x-Achse). Testen Sie, was passiert, wenn Sie die Variable tauschen!

ggplot(data = diamonds) +
  geom_point(mapping = aes(x = carat, y = price, color = clarity), shape = 11) +
  facet_grid(facets = cut ~ clarity)

Wenn eine der Variablen in facet_grid() ausgelassen oder durch einen Punkt . ersetzt werden würde, würde ebenfalls ein Gitter für nur eine Variable gezeichnet werden. Hierbei würde sich der Einfachheit facet_wrap anbieten.

Allgemein ist in der Grafik der Zusammenhang von Preis und Karat von Diamanten dargestellt.

Die Grafik sieht zwar zunächst etwas überwältigend aus, zeigt jedoch lediglich die Aufteilung von Preis price und Karat karat anhand der Kategorien für Klarheit clarity (y-Achse) und Qualität cut (x-Achse).

Wir sehen beispielsweise (von oben nach unten), dass die Verteilung für die verschiedenen Qualitätsstufen relativ ähnlich aussehen.

Eine Ausnahme fällt auf: Die Diamanten mit einer hohen Klarheit (VVS1 und IF) und einer geringen Qualität (fair) scheinen weniger häufig und weniger weit verteilt zu sein, d. h. sie weisen scheinbar wenig Karat und einen geringen Preis auf.

Ebenfalls scheinen häufiger höhere Preise durch eine höhere Qualität erzielt zu werden.

Bei dem Vergleich der Klarheit sehen wir, dass die einzelnen Stufen sich ähnlich verteilen (von links nach rechts), jedoch die Diamenten mit geringer Klarheit I1 häufiger einen höheren Karatwert aufweisen.

1.2.5 Erstellen Sie eine passende Grafik, um die Verteilungen von cut und price darzustellen. Denken Sie auch an passende Gruppierungen, Farben und Positionen!

Zuerst müssen wir uns überlegen, um was für Daten es sich handelt. Bei cut handelt es sich um qualtitative Daten und bei price um quanitative Daten, sodass sich für cut beispielsweise ein Balkendiagramm anbieten würde und für price ein Boxplot oder ein Histogramm.

ggplot(data = diamonds, aes(x = cut, fill = clarity)) +
  geom_bar(position = "dodge")

ggplot(data = diamonds, aes(x = cut, fill = clarity)) +
  geom_bar() +
  coord_flip()

ggplot(data = diamonds, aes(x = cut, fill = clarity)) +
  geom_bar() +
  coord_polar()

ggplot(data = diamonds, aes(x = price, fill = cut)) +
  geom_histogram(bins = 30)

ggplot(data = diamonds, aes(x = cut, y = price, fill = cut)) +
  geom_boxplot()

1.2.6 Erstellen Sie die folgenden Grafiken.

ggplot(diamonds, mapping = aes(x = carat, y = price)) + 
  geom_point() +
  geom_smooth()

ggplot(diamonds, mapping = aes(x = carat, y = price)) + 
  geom_point() +
  geom_smooth(mapping = aes(group = cut), se = FALSE)

ggplot(diamonds, mapping = aes(x = carat, y = price, color = cut)) + 
  geom_point() +
  geom_smooth(se = FALSE)

ggplot(diamonds, mapping = aes(x = carat, y = price)) + 
  geom_point(mapping = aes(color = cut)) +
  geom_smooth(se = FALSE)

ggplot(diamonds, mapping = aes(x = carat, y = price)) + 
  geom_point(mapping = aes(color = cut)) +
  geom_smooth(se = FALSE)

ggplot(diamonds, mapping = aes(x = carat, y = price)) + 
  geom_point(mapping = aes(color = cut))

1.2.7 Erstellen Sie ein Balkendiagramm von der Variable cut und fügen Sie ein facet mit der Variable clarity ein. Ändern Sie zusätzlich den Titel und die Achsenbeschriftungen mit labs() und verschieben Sie die Legende nach unten mit theme().

ggplot(data = diamonds, aes(x = cut, fill = clarity)) +
  geom_bar() +
  facet_wrap(facets = ~ clarity) +
  labs(x = "Qualität", y = "Absolute Häufigkeit",
       title = "Qualität von Diamanten unter Betrachtung der Klarheit") +
  theme(legend.position = "bottom")

---
title: "Übungszettel 2"
output: 
  html_notebook: 
    highlight: tango
    number_sections: yes
---

# Aufgaben

Für die Übungsaufgaben gehen wir zu dem `diamonds` Datensatz über. Der
Datensatz befasst sich mit Preis, Qualität und weiteren Eigenschaften
von knapp 54.000 Diamanten.

Zuerst geben wir wieder die folgenden Befehle ein, um die Bibliothek
`tidyverse` zu laden und den Datensatz einzusehen:

```{r}
library(tidyverse)
diamonds
```

Um mehr über den Datensatz zu erfahren, geben Sie wieder den Hilfsbefehl
`?diamonds` ein.

## Übungsaufgaben

1.  Erstellen Sie eine Grafik von den Variablen `carat` und `price` des
    `diamonds` Datensatzes, wobei Sie die Datenpunkte nach der Kategorie
    `clarity` färben.

2.  Erstellen Sie eine weitere Grafik von den Variablen `carat` und
    `price` des `diamonds` Datensatzes, wobei Sie ein `facet` für die
    Kategorie `clarity` hinzufügen. Worin liegen die Vor- und Nachteile
    der Farb-Aesthetics und der Nutzung von `facets`?

3.  Verwenden Sie nun als `facet` eine kontinuierliche Variable
    wie z. B. `table`. Was passiert hier?

4.  Verwenden Sie nun ein `facet` mit zwei Variablen `cut` und
    `clarity`, um die Variablen `carat` und `price` zu vergleichen. Was
    können Sie dieser Grafik entnehmen?

5.  Erstellen Sie eine passende Grafik, um die Verteilungen von `cut`
    und `price` darzustellen. Denken Sie auch an passende Gruppierungen,
    Farben und Positionen!

6.  Erstellen Sie die folgenden Grafiken:

![Verschiedene Grafiken](../resources/graph_grid.png)

7.  Erstellen Sie ein Balkendiagramm von der Variable `cut` und fügen
    Sie ein `facet` mit der Variable `clarity` ein.\
    Ändern Sie zusätzlich den Titel und die Achsenbeschriftungen mit
    `labs()` und verschieben Sie die Legende nach unten mit `theme()`.

## Lösungen

### Erstellen Sie eine Grafik von den Variablen `carat` und `price` des `diamonds` Datensatzes, wobei Sie die Datenpunkte nach der Kategorie `clarity` färben.

```{r}
ggplot(data = diamonds) +
  geom_point(mapping = aes(x = carat, y = price, color = clarity))
```

### Erstellen Sie eine weitere Grafik von den Variablen `carat` und `price` des `diamonds` Datensatzes, wobei Sie ein `facet` für die Kategorie `clarity` hinzufügen. Worin liegen die Vor- und Nachteile der Farb-Aesthetics und der Nutzung von `facets`?

```{r}
ggplot(data = diamonds) +
  geom_point(mapping = aes(x = carat, y = price, color = clarity)) +
  facet_wrap(facets = ~ clarity)
```

Durch die Gitter werden die Zusammenhänge und Trends der einzelnen
Kategorien (hier `clarity`) deutlicher und können auch direkt zwischen
den Kategorien verglichen werden.

Die gemeinsame Grafik, wo lediglich die Datenpunkte nach der `clarity`
eingefärbt werden, wirkt wesentlich unübersichtlicher, um die Kategorien
unter sich zu vergleichen, obgleich der gemeinsame Trend sichtbar ist.

Insbesondere für größere Datensätze mit mehreren Kategorien bieten sich
die Gitter an.

### Verwenden Sie nun als `facet` eine kontinuierliche Variable wie z. B. `table`. Was passiert hier?

```{r}
ggplot(data = diamonds) +
  geom_point(mapping = aes(x = carat, y = price, color = clarity)) +
  facet_wrap(facets = ~ table)
```

Sie sehen, dass ein Gitter für jeden Wert von `table` erstellt wird. Das
ist möglich und zeigt beispielsweise, dass es für eine Werte von `table`
sehr viele Diamanten gibt (z. B. bei 56) und bei anderen sehr wenige (z.
B. 43). Interessanterweise liegen viele hochwertige Diamanten (mit hohem
`clarity` Wert) meist bei den Werten 54, 55, 56, 57, 58, 59, 60, 61 und
63 für `table`.

Die Variable `table` bezieht sich hierbei auf das Verhältnis der Breite
der obersten Stelle und der weitesten Stelle eines Diamanten.

Bei Kontinuierlichen Werten entstehen jedoch meistens eine große Anzahl
an Gitter, was für die Übersichtlichkeit nicht unbedingt von Vorteil
ist.

### Verwenden Sie nun ein `facet` mit zwei Variablen `cut` und `clarity`, um die Variablen `carat` und `price` zu vergleichen. Was können Sie dieser Grafik entnehmen?

Bei der Nutzung von `facet_grid()` muss darauf geachtet werden, dass
eine Variable vor der Tilde `~` und eine danach steht (in diesem
Zusammenhang die y-und x-Achse). Testen Sie, was passiert, wenn Sie die
Variable tauschen!

```{r}
ggplot(data = diamonds) +
  geom_point(mapping = aes(x = carat, y = price, color = clarity), shape = 11) +
  facet_grid(facets = cut ~ clarity)
```

Wenn eine der Variablen in `facet_grid()` ausgelassen oder durch einen
Punkt `.` ersetzt werden würde, würde ebenfalls ein Gitter für nur eine
Variable gezeichnet werden. Hierbei würde sich der Einfachheit
`facet_wrap` anbieten.

Allgemein ist in der Grafik der Zusammenhang von Preis und Karat von
Diamanten dargestellt.

Die Grafik sieht zwar zunächst etwas überwältigend aus, zeigt jedoch
lediglich die Aufteilung von Preis `price` und Karat `karat` anhand der
Kategorien für Klarheit `clarity` (y-Achse) und Qualität `cut`
(x-Achse).

Wir sehen beispielsweise (von oben nach unten), dass die Verteilung für
die verschiedenen Qualitätsstufen relativ ähnlich aussehen.

Eine Ausnahme fällt auf: Die Diamanten mit einer hohen Klarheit (`VVS1`
und `IF`) und einer geringen Qualität (`fair`) scheinen weniger häufig
und weniger weit verteilt zu sein, d. h. sie weisen scheinbar wenig
Karat und einen geringen Preis auf.

Ebenfalls scheinen häufiger höhere Preise durch eine höhere Qualität
erzielt zu werden.

Bei dem Vergleich der Klarheit sehen wir, dass die einzelnen Stufen sich
ähnlich verteilen (von links nach rechts), jedoch die Diamenten mit
geringer Klarheit `I1` häufiger einen höheren Karatwert aufweisen.

### Erstellen Sie eine passende Grafik, um die Verteilungen von `cut` und `price` darzustellen. Denken Sie auch an passende Gruppierungen, Farben und Positionen!

Zuerst müssen wir uns überlegen, um was für Daten es sich handelt. Bei
`cut` handelt es sich um qualtitative Daten und bei `price` um
quanitative Daten, sodass sich für `cut` beispielsweise ein
Balkendiagramm anbieten würde und für `price` ein Boxplot oder ein
Histogramm.

```{r}
ggplot(data = diamonds, aes(x = cut, fill = clarity)) +
  geom_bar(position = "dodge")
ggplot(data = diamonds, aes(x = cut, fill = clarity)) +
  geom_bar() +
  coord_flip()
ggplot(data = diamonds, aes(x = cut, fill = clarity)) +
  geom_bar() +
  coord_polar()
ggplot(data = diamonds, aes(x = price, fill = cut)) +
  geom_histogram(bins = 30)
ggplot(data = diamonds, aes(x = cut, y = price, fill = cut)) +
  geom_boxplot()
```

### Erstellen Sie die folgenden Grafiken.

```{r}
ggplot(diamonds, mapping = aes(x = carat, y = price)) + 
  geom_point() +
  geom_smooth()
ggplot(diamonds, mapping = aes(x = carat, y = price)) + 
  geom_point() +
  geom_smooth(mapping = aes(group = cut), se = FALSE)
ggplot(diamonds, mapping = aes(x = carat, y = price, color = cut)) + 
  geom_point() +
  geom_smooth(se = FALSE)
ggplot(diamonds, mapping = aes(x = carat, y = price)) + 
  geom_point(mapping = aes(color = cut)) +
  geom_smooth(se = FALSE)
ggplot(diamonds, mapping = aes(x = carat, y = price)) + 
  geom_point(mapping = aes(color = cut)) +
  geom_smooth(se = FALSE)
ggplot(diamonds, mapping = aes(x = carat, y = price)) + 
  geom_point(mapping = aes(color = cut))
```

### Erstellen Sie ein Balkendiagramm von der Variable `cut` und fügen Sie ein `facet` mit der Variable `clarity` ein. Ändern Sie zusätzlich den Titel und die Achsenbeschriftungen mit `labs()` und verschieben Sie die Legende nach unten mit `theme()`.

```{r}
ggplot(data = diamonds, aes(x = cut, fill = clarity)) +
  geom_bar() +
  facet_wrap(facets = ~ clarity) +
  labs(x = "Qualität", y = "Absolute Häufigkeit",
       title = "Qualität von Diamanten unter Betrachtung der Klarheit") +
  theme(legend.position = "bottom")
```
