1 Einschub Streudiagramme

Zuerst müssen wir erneut tidyverse laden, da wir eine neue Session angefangen haben:

library(tidyverse)
Registered S3 methods overwritten by 'dbplyr':
  method         from
  print.tbl_lazy     
  print.tbl_sql      
── Attaching packages ────────────────────────────────────────────────────────────────────────────────────────────────────────────────── tidyverse 1.3.2 ──✔ ggplot2 3.3.6      ✔ purrr   0.3.4 
✔ tibble  3.1.8      ✔ dplyr   1.0.10
✔ tidyr   1.2.1      ✔ stringr 1.4.1 
✔ readr   2.1.3      ✔ forcats 0.5.2 ── Conflicts ───────────────────────────────────────────────────────────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()

Sie haben bereits Streudiagramme kennengelernt:

ggplot(data = mpg) +
    geom_point(mapping = aes(x = displ, y = hwy))

Hier sehen wir beispielsweise den Zusammenhang von Hubraum und dem Kraftstoffverbrauch von einigen Autos.

Die Fragestellung ist hierbei immer, wie die eine Variable von der anderen Variable abhängt.

In der Statistik gibt es ebenfalls eine Maßzahl, die uns diesen Zusammenhang angibt: der Korrelationskoeffizient.

cor(mpg$displ, mpg$hwy)
[1] -0.76602

Wir halten fest:

2 Vertiefung von ggplot

2.1 Facets

Es lassen sich bereits durch Aesthetics Daten auf Grund von Kategorien visuell unterscheiden. So können wir in dem mpg Datensatz die unterschiedlichen Autotypen hervorheben:

ggplot(data = mpg) +
  geom_point(mapping = aes(x = hwy, y = displ, color = class))

Falls die einzelnen Kategorien getrennt betrachtet werden sollen, werden facets (Facetten/Gitter) verwendet.

Hierbei wird die Grafik für jede Kategorie in einem Gitter angezeigt. Falls eine einzelne Kategorie betrachtet werden soll, wird ein weiterer Layer mit der Funktion facet_wrap() hinzugefügt.

Als erstes Argument wird eine formula (ein spezielle Datenstruktur) erwartet, bei der das Tilde-Symbol ~ gefolgt von einem Variablennamen (unabhängige Variable/Kategorie) eingegeben wird.

ggplot(data = mpg) +
  geom_point(mapping = aes(x = hwy, y = displ)) +
  facet_wrap(facets = ~ class, nrow = 2)

Falls mehrere Kategorien gleichzeitig betrachtet werden sollen, dann wird ein Layer mit facet_grid() benötigt.

Es lässt sich mit facet_grid() ebenfalls eine Kategorie betrachten, jedoch sieht dies meist weniger kompakt aus als facet_wrap():

ggplot(data = mpg) +
  geom_point(mapping = aes(x = hwy, y = displ)) +
  facet_grid(facets = ~ class)

Um mehrere Kategorien gleichzeitig zu betrachten, wird bei facet_grid() ebenfalls eine formula angegeben.

In diesem Fall besteht die formula aus zwei Variablen; eine Variable vor der Tilde und eine Variable nach der Tilde.

Falls die Kraftstoffeffizienz (hwy) bezüglich des Hubraums betrachtet werden soll, wobei für jeden Autotypen und jeden Antriebstypen (Frontrad, Hinterrad, Vierrad) eine Grafik erstellt werden soll, so muss in der formula in facet_grid drv ~ class spezifiert werden:

ggplot(data = mpg) +
  geom_point(mapping = aes(x = hwy, y = displ)) +
  facet_grid(facets = drv ~ class)

2.2 Geometrische Objekte

2.2.1 ggplot Objekte

Es ist ebenfalls möglich die Grafiken von ggplot weiterzuverwenden, indem sie als Objekte gespeichert werden.

Jede Funktion von ggplot liefert ein geometrisches (geom) Objekt zurück, mit dem weitergearbeitet werden kann. Da es sich um geometrische Objekte handelt, entsprechen die Namen der Funktionen von ggplot dieser Namensgebung (z. B. geom_point für Streudiagramme oder geom_bar für Balkendiagramme/Barplots).

Statt die gesamte Grafik in einem Schritt durch die Verkettung von + und das Hinzufügen von Layern zu erstellen, können die Objekte/Grafiken auch zwischengespeichert werden:

graph1 <- ggplot(data = mpg)
graph1

graph2 <- graph1 + geom_point(mapping = aes(x = displ, y = hwy))
graph2

graph3 <- graph1 + geom_point(mapping = aes(x = displ, y = hwy, color = class))
graph3

graph2 + geom_smooth(mapping = aes(x = displ, y = hwy), method = "loess", formula = y ~ x)

Da sich in ggplot die Layer Schritt für Schritt hinzufügen lassen, können Sie so Ihren Code nach Bedarf besser strukturieren oder wiederverwenden.

Abhängig von dem visuellen/geometrischen Objekt, welches verwendet wird, ändert sich die Darstellung, auch wenn dieselben Variablen verwendet werden:

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy))


ggplot(data = mpg) +
  geom_smooth(mapping = aes(x = displ, y = hwy))

Auf der einen Seite erhalten wir ein Streudiagramm von hwy und displ und auf der anderen eine Modell-Linie, die sich denselben Datenpunkten annähert.

Alle geom Funktionen benötigen einen mapping Parameter, allerdings unterscheiden sich die Aesthetics für jede Funktion.

So lässt sich beispielsweise nicht die Punktform der Linie von geom_smooth mit shape verändern:

ggplot(data = mpg) +
  geom_smooth(mapping = aes(x = displ, y = hwy, shape = drv))
Warnung: Ignoring unknown aesthetics: shape

Die Linien werden für die Kategorien (Front, Hinter, Vierrad) gruppiert, allerdings ändern sich die Linien nicht.

Um die Aesthetic der Linien zu ändern, kann beispielsweise der Linientyp mit linetype verändert werden:

ggplot(data = mpg) +
  geom_smooth(mapping = aes(x = displ, y = hwy, linetype = drv))

Nun sehen wir für jeden Antriebstypen eine andere Linienart.

Um mehr über die Aesthetics einer geom Funktion zu erfahren, kann immer die Hilfsfunktion ?geom_smooth (oder eine Suchmaschine) zu Rat gezogen werden.

Selbstverständlich lassen sich die unterschiedlichen Layer der geoms auch übereinanderlegen. So können ebenfalls Datenpunkte und Linien zugleich betrachtet werden:

ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
  geom_point(mapping = aes(color = drv)) +
  geom_smooth(mapping = aes(linetype = drv, color = drv))

Sie sehen, dass die Linien die Datenpunkte für den entsprechenden Antriebstyp drv annähern.

Achten Sie vor allem auch auf die unterschiedlichen Aesthetics. In der ggplot Funktion werden die grundsätzliche Aesthetics für die x-und y-Achse definiert (displ und hwy). Diese Werte werden (global) übernommen und müssen in den weiteren geom Funktionen nicht geändert werden. Auf diese Art muss nicht in jeder geom Funktion die Aesthetics neu definiert werden, sofern Sie keine anderen Variablen betrachten wollen.

In geom_point werden zusätzlich die Farben auf den Antriebstyp drv angepasst. Auch in geom_smooth werden Farben und Linientyp auf den Antriebstyp drv angepasst.

Ein gleichwertiger, aber wesentlich umständlicher Aufruf sähe wie folgt aus:

ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
    geom_point(mapping = aes(x = displ, y = hwy, color = drv)) +
    geom_smooth(mapping = aes(x = displ, y = hwy, linetype = drv, color = drv))

Für weitere Beispiele, was mit ggplot möglich ist, schauen Sie in die tidyverse Gallerie.

Für einen Spickzettel zu den geom Funktionalitäten, schauen Sie auf die offiziellen Cheat-Sheets.

2.2.2 Gruppierung

Standardmäßig wird mit ggplot nur ein Objekt gezeichnet. Um mehrere Objekte zeichnen zu lassen, muss die group Aesthetic auf eine kategorische Variable gesetzt werden. In den meisten Fällen wird das automatisch von ggplot übernommen, z. B. wenn die Farbe bezogen auf eine Kategorie geändert wird:

# Eine Linie
ggplot(data = mpg) +
  geom_smooth(mapping = aes(x = displ, y = hwy))


# Mehrere Linien gruppiert nach Antriebstyp
ggplot(data = mpg) +
  geom_smooth(mapping = aes(x = displ, y = hwy, group = drv))


# Automatische Gruppierung nach Antriebstyp durch color Aesthetic
ggplot(data = mpg) +
geom_smooth(mapping = aes(x = displ, y = hwy, color = drv), show.legend = FALSE)

Durch die Aesthetics in mapping jeder geom Funktion lassen sich die globalen Aesthetics für den entsprechenden Layer überschreiben oder erweitern:

ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) + # Globale Aesthetics
  geom_point(mapping = aes(color = class)) + # Lokale Aesthetics für das Streudiagramm
  geom_smooth(fill = "red") # Lokale Aesthetics für die Linien

Sie sehen, dass die Farb-Aesthetics von geom_point in dem Layer von geom_smooth nicht übernommen werden. Ebenfalls sehen Sie, dass die fill Aesthetic in geom_smooth eine andere Bedeutung hat als in geom_point. Mit fill wird hierbei die Farbe der Wolke (Konfidenzintervall) um die Linie verändert.

Somit können Sie jeden Layer beliebig gestalten.

Tatsächlich lassen sich auch in jedem Layer andere Datenpunkte darstellen oder hervorheben (z. B. durch Filterung).

ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
  geom_point() +
  geom_point(data = filter(mpg, hwy > 30), color = "red") +
  geom_smooth(se = FALSE) # ohne Konfidenzintervall

In diesem Beispiel wurden in einem geom_point Layer die Datenpunkte rot markiert, die einen Wert über 30 bei der hwy Variable aufweisen. Später wird die filter Funktion weitergehend erläutert.

2.3 Statistische Transformation

Eine weitere Graphenart ist das Balkendiagramm, welches die absoluten Häufigkeiten von Kategorien darstellt.

Das Balkendiagramm zeigt beispielsweise, dass die meisten erfassten Autos SUVs waren und nur wenige Zweisitzer oder Minivans:

ggplot(data = mpg, mapping = aes(x = class)) +
  geom_bar()

Ein weiterer Aspekt fällt auf. Die y-Achse count gibt die Häufigkeiten an, obwohl dieses nicht als Variable in den Aesthetics überliefert wurde.

Mit Hilfe statistischer Transformationen werden hier neue Daten “erzeugt”.

Weitere solche Grafiken umfassen:

  • Balkendiagramme und Histogramme

  • Vorhersagemodelle von geom_smooth

  • Boxplots

Die zugrundeliegende Mathematik/Statistik wird hierbei von ggplot übernommen und muss meistens nicht weiter berücksichtigt werden.

In Einzelfällen ist dies notwendig (z. B. zum Darstellen von relativen Häufigkeiten bei Balkendiagrammen) und wird durch Spezifikation der stat Funktionen von ggplot übernommen. Details hierzu lassen wir an dieser Stelle aus.

2.4 Positionsanpassung

2.4.1 Balkendiagramme

Die Aesthetics fill und color haben beziehen sich auch bei Balkendiagrammen auf die Füll- und Randfarben:

ggplot(data = mpg) +
  geom_bar(mapping = aes(x = class, color = class))

ggplot(data = mpg) +
  geom_bar(mapping = aes(x = class, fill = class))

Die Häufigkeit von einer kategorischen Variable lässt sich auch anhand einer anderen kategorischen Variable aufteilen und übereinanderlegen, sofern Aesthetics entsprechend verwendet werden. So können wir auch die gemeinsamen Häufigkeiten der Autotypen und Antriebstypen betrachten.

ggplot(data = mpg) +
  geom_bar(mapping = aes(x = class, fill = drv))

Das position Argument von geom_bar erlaubt auch andere Arten, die Balken zu ordnen:

  • position = "identity" überlappt die Balken (ohne Stapeln). Hierbei sind Überlappungen ohne Transparenz nicht einsehbar:
ggplot(data = mpg) +
  geom_bar(mapping = aes(x = class, fill = drv), position = "identity")

ggplot(data = mpg) +
  geom_bar(mapping = aes(x = class, fill = drv), position = "identity", alpha = 0.2)

ggplot(data = mpg) +
  geom_bar(mapping = aes(x = class, color = drv), position = "identity", fill = NA)

Lediglich wenn die Transparenz mit der Aesthetic alpha angepasst wird oder die Füllfarbe fill entfernt wird, werden die einzelnen Balken sichtbar.

  • position = "fill" stapelt die einzelnen Balken, jedoch werden die Balkenhöhen auf 1 skaliert. Somit lassen sich die einzelnen Kategorien besser vergleichen:
ggplot(data = mpg) +
  geom_bar(mapping = aes(x = class, fill = drv), position = "fill")

  • position = "dodge" platziert die Balken der einzelnen Kategorien nebeneinander. Somit lassen sich die Gruppierungen einer Kategorie einfacher untereinander vergleichen:
ggplot(data = mpg) +
  geom_bar(mapping = aes(x = class, fill = drv), position = "dodge")

2.4.2 Streudiagramme

Auch bei Streudiagramme gibt es in geom_point den Parameter position.

Dieser ist besonders dann nützlich, wenn beispielsweise nicht alle Datenpunkte in einer Grafik erkennbar sind.

In dem folgenden Streudiagramm sind nur ungefähr die Hälfte aller Datenpunkte sichtbar, da die andere Hälfte von ihnen überdeckt wird:

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy))

Durch zufälliges “Ruckeln” dieser Datenpunkte lassen sich die verdeckten Datenpunkte sichtbar machen. Hierzu wird das Argument position = "jitter" in geom_point gesetzt:

ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy), position = "jitter")

Durch diese Transformation der Positionen der Datenpunkte wird die Grafik ungenauer, allerdings können so mehrere Datenpunkte aufgedeckt und der gesamte Trend besser betrachtet werden.

Alternativ lässt sich auch statt geom_point(position = "jitter") direkt geom_jitter() verwenden.

Weitere Information zu den Positionsanpassungen finden sich unter ?position_dodge, ?position_fill, ?position_identity, ?position_jitter und ?position_stack.

2.5 Koordinatensystem

Auch das Koordinatensystem lässt sich durch ggplot ändern:

  • coord_flip(): Wechsel der x- und y-Achse. Inbesondere nützlich für lange Label oder längere Grafiken:
ggplot(data = mpg, mapping = aes(x = class, y = hwy)) + 
  geom_boxplot()

ggplot(data = mpg, mapping = aes(x = class, y = hwy)) + 
  geom_boxplot() +
  coord_flip()

ggplot(data = mpg, mapping = aes(x = displ)) +
  geom_histogram(bins = 20)

ggplot(data = mpg, mapping = aes(x = displ)) + 
  geom_histogram(bins = 20) +
  coord_flip()

  • coord_quickmap(): Darstellung von Karten.
nz <- map_data("nz")
ggplot(nz, aes(long, lat, group = group)) +
  geom_polygon(fill = "white", colour = "black")

bar <- ggplot(data = mpg) + 
geom_bar(mapping = aes(x = class, fill = class), width = 1) +
  labs(x = NULL, y = NULL)

bar + coord_flip()

bar + coord_polar()

Anhand dieses Beispieles sehen Sie auch bereits, dass es weitere Layer für die Anpassung der Label (labs) gibt.

2.6 Layer

2.6.1 Erweitertes Kochrezept

Sie haben bereits gesehen, dass sich in ggplot aus sieben Parametern alle grundlegenden Grafiken erstellen lassen.

Dazu zählt der Datensatz in ggplot(), ein geom mit einem mapping, einer Transformation stat, einer Position position sowie einem Koordinatenystem und einem Schema für die Facetten/Gitter.

Somit kann sich das Kochrezept erweitern auf:

ggplot(data = <DATA>) + 
  <GEOM_FUNCTION>(
     mapping = aes(<MAPPINGS>),
     stat = <STAT>, 
     position = <POSITION>
  ) +
  <COORDINATE_FUNCTION> +
  <FACET_FUNCTION>

So lässt sich das Erstellen von Grafiken auf folgende Schritte beschränken:

  1. Datensatz auswählen

  2. geom auswählen (ggf. mit statistischer Transformation stat)

  3. Optional: Aesthetics definieren

  4. Optional: Koordinatensystem auswählen

  5. Optional: facet auswählen

Desweiteren lassen sich Skalierungen, Legenden, Label, usw. ebenfalls durch weitere Funktionen/Layer anpassen.

2.6.2 Weitere Anpassungsmöglichkeiten

Neben den geoms können auch weitere Layer hinzugefügt werden, um beispielsweise die Legende, Label oder Überschrift zu bearbeiten. Prinzipiell lassen sich alle Elemente der ggplot Grafiken manuell anpassen, sofern dies notwendig ist.

Weitere Layer lassen sich nach Bedarf aus dem Spickzettel entnehmen:

  • labs(): Ändere Label der Grafik:
ggplot(data = mpg) +
  geom_point(mapping = aes(x = hwy, y = displ, color = class)) +
  labs(x = "Kraftstoffersparnis (Autobahnmeilen pro Gallone)", y = "Hubraum (in Liter)",
       title = "Kraftstoffeffizienz von Autos der EPA")

  • annotate(): Text/Elemente an einer bestimmten Position einfügen:
ggplot(data = mpg) +
  geom_point(mapping = aes(x = hwy, y = displ, color = class)) +
  annotate(geom = "text", x = 30, y = 5, label = "Text einfügen")

  • theme(): Position der Legende:
ggplot(data = mpg) +
  geom_point(mapping = aes(x = hwy, y = displ, color = class)) +
  theme(legend.position = "top") # oder "bottom", "left", "right"

  • xlim() und ylim(): Grafik auf einen Bereich der x- oder y-Achse beschränken:
ggplot(data = mpg) +
  geom_point(mapping = aes(x = hwy, y = displ, color = class)) +
  xlim(15, 25) +
  ylim(3, 6)

Je nach Fragestellung oder Vorlieben lassen sich alle Elemente der Grafik anpassen. Der Aufbau der Grafik bleibt gleich und es können einfach weitere Layer hinzugefügt werden. Hierzu kann bei speziellen Anforderungen auf den Spickzettel geschaut werden oder bei einer Suchmaschine nachgeschlagen werden.

3 Aufgaben

Für die Übungsaufgaben gehen wir zu dem diamonds Datensatz über. Der Datensatz befasst sich mit Preis, Qualität und weiteren Eigenschaften von knapp 54.000 Diamanten.

Zuerst geben wir wieder die folgenden Befehle ein, um die Bibliothek tidyverse zu laden und den Datensatz einzusehen:

library(tidyverse)
diamonds

Um mehr über den Datensatz zu erfahren, geben Sie wieder den Hilfsbefehl ?diamonds ein.

3.1 Übungsaufgaben

  1. Erstellen Sie eine Grafik von den Variablen carat und price des diamonds Datensatzes, wobei Sie die Datenpunkte nach der Kategorie clarity färben.

  2. Erstellen Sie eine weitere Grafik von den Variablen carat und price des diamonds Datensatzes, wobei Sie ein facet für die Kategorie clarity hinzufügen. Worin liegen die Vor- und Nachteile der Farb-Aesthetics und der Nutzung von facets?

  3. Verwenden Sie nun als facet eine kontinuierliche Variable wie z. B. table. Was passiert hier?

  4. Verwenden Sie nun ein facet mit zwei Variablen cut und clarity, um die Variablen carat und price zu vergleichen. Was können Sie dieser Grafik entnehmen?

  5. Erstellen Sie eine passende Grafik, um die Verteilungen von cut und price darzustellen. Denken Sie auch an passende Gruppierungen, Farben und Positionen!

  6. Erstellen Sie die folgenden Grafiken:

Verschiedene Grafiken

  1. Erstellen Sie ein Balkendiagramm von der Variable cut und fügen Sie ein facet mit der Variable clarity ein.
    Ändern Sie zusätzlich den Titel und die Achsenbeschriftungen mit labs() und verschieben Sie die Legende nach unten mit theme().
---
title: "Statistik und Data Science - Vertiefung von ggplot"
output: 
  html_notebook: 
    highlight: tango
    number_sections: yes
---

# Einschub Streudiagramme

Zuerst müssen wir erneut `tidyverse` laden, da wir eine neue Session
angefangen haben:

```{r}
library(tidyverse)
```

Sie haben bereits Streudiagramme kennengelernt:

```{r}
ggplot(data = mpg) +
	geom_point(mapping = aes(x = displ, y = hwy))
```

Hier sehen wir beispielsweise den Zusammenhang von Hubraum und dem
Kraftstoffverbrauch von einigen Autos.

Die Fragestellung ist hierbei immer, wie die eine Variable von der
anderen Variable abhängt.

In der Statistik gibt es ebenfalls eine Maßzahl, die uns diesen
Zusammenhang angibt: der Korrelationskoeffizient.

-   Der Koeffizient liegt zwischen -1 (negative Korrelation) und +1
    (positive Korrelation):

```{r}
cor(mpg$displ, mpg$hwy)
```

Wir halten fest:

-   Das Streudiagramm zeigt einen absteigenden Trend. Wenn die
    Motorgröße (Hubraum) steigt, dann sinkt die Kraftstoffeffizienz
    tendenziell ebenfalls

-   Der Korrelationskoeffizient ist negativ und bestätigt unsere
    Beobachtung

# Vertiefung von `ggplot`

## Facets

Es lassen sich bereits durch Aesthetics Daten auf Grund von Kategorien
visuell unterscheiden. So können wir in dem `mpg` Datensatz die
unterschiedlichen Autotypen hervorheben:

```{r}
ggplot(data = mpg) +
  geom_point(mapping = aes(x = hwy, y = displ, color = class))
```

Falls die einzelnen Kategorien getrennt betrachtet werden sollen, werden
`facets` (Facetten/Gitter) verwendet.

Hierbei wird die Grafik für jede Kategorie in einem Gitter angezeigt.
Falls eine einzelne Kategorie betrachtet werden soll, wird ein weiterer
Layer mit der Funktion `facet_wrap()` hinzugefügt.

Als erstes Argument wird eine `formula` (ein spezielle Datenstruktur)
erwartet, bei der das Tilde-Symbol `~` gefolgt von einem Variablennamen
(unabhängige Variable/Kategorie) eingegeben wird.

```{r}
ggplot(data = mpg) +
  geom_point(mapping = aes(x = hwy, y = displ)) +
  facet_wrap(facets = ~ class, nrow = 2)
```

Falls mehrere Kategorien gleichzeitig betrachtet werden sollen, dann
wird ein Layer mit `facet_grid()` benötigt.

Es lässt sich mit `facet_grid()` ebenfalls eine Kategorie betrachten,
jedoch sieht dies meist weniger kompakt aus als `facet_wrap()`:

```{r}
ggplot(data = mpg) +
  geom_point(mapping = aes(x = hwy, y = displ)) +
  facet_grid(facets = ~ class)
```

Um mehrere Kategorien gleichzeitig zu betrachten, wird bei
`facet_grid()` ebenfalls eine `formula` angegeben.

In diesem Fall besteht die `formula` aus zwei Variablen; eine Variable
vor der Tilde und eine Variable nach der Tilde.

Falls die Kraftstoffeffizienz (`hwy`) bezüglich des Hubraums betrachtet
werden soll, wobei für jeden Autotypen und jeden Antriebstypen
(Frontrad, Hinterrad, Vierrad) eine Grafik erstellt werden soll, so muss
in der `formula` in `facet_grid` `drv ~ class` spezifiert werden:

```{r}
ggplot(data = mpg) +
  geom_point(mapping = aes(x = hwy, y = displ)) +
  facet_grid(facets = drv ~ class)
```

## Geometrische Objekte

### `ggplot` Objekte

Es ist ebenfalls möglich die Grafiken von `ggplot` weiterzuverwenden,
indem sie als Objekte gespeichert werden.

Jede Funktion von `ggplot` liefert ein geometrisches (`geom`) Objekt
zurück, mit dem weitergearbeitet werden kann. Da es sich um geometrische
Objekte handelt, entsprechen die Namen der Funktionen von `ggplot`
dieser Namensgebung (z. B. `geom_point` für Streudiagramme oder
`geom_bar` für Balkendiagramme/Barplots).

Statt die gesamte Grafik in einem Schritt durch die Verkettung von `+`
und das Hinzufügen von Layern zu erstellen, können die Objekte/Grafiken
auch zwischengespeichert werden:

```{r}
graph1 <- ggplot(data = mpg)
graph1
graph2 <- graph1 + geom_point(mapping = aes(x = displ, y = hwy))
graph2
graph3 <- graph1 + geom_point(mapping = aes(x = displ, y = hwy, color = class))
graph3
graph2 + geom_smooth(mapping = aes(x = displ, y = hwy), method = "loess", formula = y ~ x)
```

Da sich in `ggplot` die Layer Schritt für Schritt hinzufügen lassen,
können Sie so Ihren Code nach Bedarf besser strukturieren oder
wiederverwenden.

Abhängig von dem visuellen/geometrischen Objekt, welches verwendet wird,
ändert sich die Darstellung, auch wenn dieselben Variablen verwendet
werden:

```{r}
ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy))

ggplot(data = mpg) +
  geom_smooth(mapping = aes(x = displ, y = hwy))
```

Auf der einen Seite erhalten wir ein Streudiagramm von `hwy` und `displ`
und auf der anderen eine Modell-Linie, die sich denselben Datenpunkten
annähert.

Alle `geom` Funktionen benötigen einen `mapping` Parameter, allerdings
unterscheiden sich die Aesthetics für jede Funktion.

So lässt sich beispielsweise nicht die Punktform der Linie von
`geom_smooth` mit `shape` verändern:

```{r}
ggplot(data = mpg) +
  geom_smooth(mapping = aes(x = displ, y = hwy, shape = drv))
```

Die Linien werden für die Kategorien (Front, Hinter, Vierrad) gruppiert,
allerdings ändern sich die Linien nicht.

Um die Aesthetic der Linien zu ändern, kann beispielsweise der Linientyp
mit `linetype` verändert werden:

```{r}
ggplot(data = mpg) +
  geom_smooth(mapping = aes(x = displ, y = hwy, linetype = drv))
```

Nun sehen wir für jeden Antriebstypen eine andere Linienart.

Um mehr über die Aesthetics einer `geom` Funktion zu erfahren, kann
immer die Hilfsfunktion `?geom_smooth` (oder eine Suchmaschine) zu Rat
gezogen werden.

Selbstverständlich lassen sich die unterschiedlichen Layer der `geoms`
auch übereinanderlegen. So können ebenfalls Datenpunkte und Linien
zugleich betrachtet werden:

```{r}
ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
  geom_point(mapping = aes(color = drv)) +
  geom_smooth(mapping = aes(linetype = drv, color = drv))
```

Sie sehen, dass die Linien die Datenpunkte für den entsprechenden
Antriebstyp `drv` annähern.

Achten Sie vor allem auch auf die unterschiedlichen Aesthetics. In der
`ggplot` Funktion werden die grundsätzliche Aesthetics für die x-und
y-Achse definiert (`displ` und `hwy`). Diese Werte werden (global)
übernommen und müssen in den weiteren `geom` Funktionen nicht geändert
werden. Auf diese Art muss nicht in jeder `geom` Funktion die Aesthetics
neu definiert werden, sofern Sie keine anderen Variablen betrachten
wollen.

In `geom_point` werden zusätzlich die Farben auf den Antriebstyp `drv`
angepasst. Auch in `geom_smooth` werden Farben und Linientyp auf den
Antriebstyp `drv` angepasst.

Ein gleichwertiger, aber wesentlich umständlicher Aufruf sähe wie folgt
aus:

```{r}
ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
    geom_point(mapping = aes(x = displ, y = hwy, color = drv)) +
    geom_smooth(mapping = aes(x = displ, y = hwy, linetype = drv, color = drv))
```

Für weitere Beispiele, was mit `ggplot` möglich ist, schauen Sie in die
[tidyverse Gallerie](https://exts.ggplot2.tidyverse.org/gallery/).

Für einen Spickzettel zu den `geom` Funktionalitäten, schauen Sie auf
die [offiziellen
Cheat-Sheets](https://www.rstudio.com/resources/cheatsheets/).

### Gruppierung

Standardmäßig wird mit `ggplot` nur ein Objekt gezeichnet. Um mehrere
Objekte zeichnen zu lassen, muss die `group` Aesthetic auf eine
kategorische Variable gesetzt werden. In den meisten Fällen wird das
automatisch von `ggplot` übernommen, z. B. wenn die Farbe bezogen auf
eine Kategorie geändert wird:

```{r}
# Eine Linie
ggplot(data = mpg) +
  geom_smooth(mapping = aes(x = displ, y = hwy))

# Mehrere Linien gruppiert nach Antriebstyp
ggplot(data = mpg) +
  geom_smooth(mapping = aes(x = displ, y = hwy, group = drv))

# Automatische Gruppierung nach Antriebstyp durch color Aesthetic
ggplot(data = mpg) +
geom_smooth(mapping = aes(x = displ, y = hwy, color = drv), show.legend = FALSE)
```

Durch die Aesthetics in `mapping` jeder `geom` Funktion lassen sich die
globalen Aesthetics für den entsprechenden Layer überschreiben oder
erweitern:

```{r}
ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) + # Globale Aesthetics
  geom_point(mapping = aes(color = class)) + # Lokale Aesthetics für das Streudiagramm
  geom_smooth(fill = "red") # Lokale Aesthetics für die Linien
```

Sie sehen, dass die Farb-Aesthetics von `geom_point` in dem Layer von
`geom_smooth` nicht übernommen werden. Ebenfalls sehen Sie, dass die
`fill` Aesthetic in `geom_smooth` eine andere Bedeutung hat als in
`geom_point`. Mit `fill` wird hierbei die Farbe der Wolke
(Konfidenzintervall) um die Linie verändert.

Somit können Sie jeden Layer beliebig gestalten.

Tatsächlich lassen sich auch in jedem Layer andere Datenpunkte
darstellen oder hervorheben (z. B. durch Filterung).

```{r}
ggplot(data = mpg, mapping = aes(x = displ, y = hwy)) +
  geom_point() +
  geom_point(data = filter(mpg, hwy > 30), color = "red") +
  geom_smooth(se = FALSE) # ohne Konfidenzintervall
```

In diesem Beispiel wurden in einem `geom_point` Layer die Datenpunkte
rot markiert, die einen Wert über 30 bei der `hwy` Variable aufweisen.
Später wird die `filter` Funktion weitergehend erläutert.

## Statistische Transformation

Eine weitere Graphenart ist das Balkendiagramm, welches die absoluten
Häufigkeiten von Kategorien darstellt.

Das Balkendiagramm zeigt beispielsweise, dass die meisten erfassten
Autos SUVs waren und nur wenige Zweisitzer oder Minivans:

```{r}
ggplot(data = mpg, mapping = aes(x = class)) +
  geom_bar()
```

Ein weiterer Aspekt fällt auf. Die y-Achse `count` gibt die Häufigkeiten
an, obwohl dieses nicht als Variable in den Aesthetics überliefert
wurde.

Mit Hilfe statistischer Transformationen werden hier neue Daten
"erzeugt".

Weitere solche Grafiken umfassen:

-   Balkendiagramme und Histogramme

-   Vorhersagemodelle von `geom_smooth`

-   Boxplots

Die zugrundeliegende Mathematik/Statistik wird hierbei von `ggplot`
übernommen und muss meistens nicht weiter berücksichtigt werden.

In Einzelfällen ist dies notwendig (z. B. zum Darstellen von relativen
Häufigkeiten bei Balkendiagrammen) und wird durch Spezifikation der
`stat` Funktionen von `ggplot` übernommen. Details hierzu lassen wir an
dieser Stelle aus.

## Positionsanpassung

### Balkendiagramme

Die Aesthetics `fill` und `color` haben beziehen sich auch bei
Balkendiagrammen auf die Füll- und Randfarben:

```{r}
ggplot(data = mpg) +
  geom_bar(mapping = aes(x = class, color = class))
ggplot(data = mpg) +
  geom_bar(mapping = aes(x = class, fill = class))
```

Die Häufigkeit von einer kategorischen Variable lässt sich auch anhand
einer anderen kategorischen Variable aufteilen und übereinanderlegen,
sofern Aesthetics entsprechend verwendet werden. So können wir auch die
gemeinsamen Häufigkeiten der Autotypen und Antriebstypen betrachten.

```{r}
ggplot(data = mpg) +
  geom_bar(mapping = aes(x = class, fill = drv))
```

Das `position` Argument von `geom_bar` erlaubt auch andere Arten, die
Balken zu ordnen:

-   `position = "identity"` überlappt die Balken (ohne Stapeln). Hierbei
    sind Überlappungen ohne Transparenz nicht einsehbar:

```{r}
ggplot(data = mpg) +
  geom_bar(mapping = aes(x = class, fill = drv), position = "identity")
ggplot(data = mpg) +
  geom_bar(mapping = aes(x = class, fill = drv), position = "identity", alpha = 0.2)
ggplot(data = mpg) +
  geom_bar(mapping = aes(x = class, color = drv), position = "identity", fill = NA)
```

Lediglich wenn die Transparenz mit der Aesthetic `alpha` angepasst wird
oder die Füllfarbe `fill` entfernt wird, werden die einzelnen Balken
sichtbar.

-   `position = "fill"` stapelt die einzelnen Balken, jedoch werden die
    Balkenhöhen auf 1 skaliert. Somit lassen sich die einzelnen
    Kategorien besser vergleichen:

```{r}
ggplot(data = mpg) +
  geom_bar(mapping = aes(x = class, fill = drv), position = "fill")
```

-   `position = "dodge"` platziert die Balken der einzelnen Kategorien
    nebeneinander. Somit lassen sich die Gruppierungen einer Kategorie
    einfacher untereinander vergleichen:

```{r}
ggplot(data = mpg) +
  geom_bar(mapping = aes(x = class, fill = drv), position = "dodge")
```

### Streudiagramme

Auch bei Streudiagramme gibt es in `geom_point` den Parameter
`position`.

Dieser ist besonders dann nützlich, wenn beispielsweise nicht alle
Datenpunkte in einer Grafik erkennbar sind.

In dem folgenden Streudiagramm sind nur ungefähr die Hälfte aller
Datenpunkte sichtbar, da die andere Hälfte von ihnen überdeckt wird:

```{r}
ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy))
```

Durch zufälliges "Ruckeln" dieser Datenpunkte lassen sich die verdeckten
Datenpunkte sichtbar machen. Hierzu wird das Argument
`position = "jitter"` in `geom_point` gesetzt:

```{r}
ggplot(data = mpg) +
  geom_point(mapping = aes(x = displ, y = hwy), position = "jitter")
```

Durch diese Transformation der Positionen der Datenpunkte wird die
Grafik ungenauer, allerdings können so mehrere Datenpunkte aufgedeckt
und der gesamte Trend besser betrachtet werden.

Alternativ lässt sich auch statt `geom_point(position = "jitter")`
direkt `geom_jitter()` verwenden.

Weitere Information zu den Positionsanpassungen finden sich unter
`?position_dodge`, `?position_fill`, `?position_identity`,
`?position_jitter` und `?position_stack`.

## Koordinatensystem

Auch das Koordinatensystem lässt sich durch `ggplot` ändern:

-   `coord_flip()`: Wechsel der x- und y-Achse. Inbesondere nützlich für
    lange Label oder längere Grafiken:

```{r}
ggplot(data = mpg, mapping = aes(x = class, y = hwy)) + 
  geom_boxplot()
ggplot(data = mpg, mapping = aes(x = class, y = hwy)) + 
  geom_boxplot() +
  coord_flip()
```

```{r}
ggplot(data = mpg, mapping = aes(x = displ)) +
  geom_histogram(bins = 20)
ggplot(data = mpg, mapping = aes(x = displ)) + 
  geom_histogram(bins = 20) +
  coord_flip()
```

-   `coord_quickmap()`: Darstellung von Karten.

```{r}
nz <- map_data("nz")
ggplot(nz, aes(long, lat, group = group)) +
  geom_polygon(fill = "white", colour = "black")
```

-   `coord_polar()`: Verwendung von
    [Polarkoordinaten](https://de.wikipedia.org/wiki/Polarkoordinaten).

```{r}
bar <- ggplot(data = mpg) + 
geom_bar(mapping = aes(x = class, fill = class), width = 1) +
  labs(x = NULL, y = NULL)

bar + coord_flip()
bar + coord_polar()
```

Anhand dieses Beispieles sehen Sie auch bereits, dass es weitere Layer
für die Anpassung der Label (`labs`) gibt.

## Layer

### Erweitertes Kochrezept

Sie haben bereits gesehen, dass sich in `ggplot` aus sieben Parametern
alle grundlegenden Grafiken erstellen lassen.

Dazu zählt der Datensatz in `ggplot()`, ein `geom` mit einem `mapping`,
einer Transformation `stat`, einer Position `position` sowie einem
Koordinatenystem und einem Schema für die Facetten/Gitter.

Somit kann sich das Kochrezept erweitern auf:

```{r, eval = FALSE}
ggplot(data = <DATA>) + 
  <GEOM_FUNCTION>(
     mapping = aes(<MAPPINGS>),
     stat = <STAT>, 
     position = <POSITION>
  ) +
  <COORDINATE_FUNCTION> +
  <FACET_FUNCTION>
```

So lässt sich das Erstellen von Grafiken auf folgende Schritte
beschränken:

1.  Datensatz auswählen

2.  `geom` auswählen (ggf. mit statistischer Transformation `stat`)

3.  Optional: Aesthetics definieren

4.  Optional: Koordinatensystem auswählen

5.  Optional: `facet` auswählen

Desweiteren lassen sich Skalierungen, Legenden, Label, usw. ebenfalls
durch weitere Funktionen/Layer anpassen.

### Weitere Anpassungsmöglichkeiten

Neben den `geoms` können auch weitere Layer hinzugefügt werden, um
beispielsweise die Legende, Label oder Überschrift zu bearbeiten.
Prinzipiell lassen sich alle Elemente der `ggplot` Grafiken manuell
anpassen, sofern dies notwendig ist.

Weitere Layer lassen sich nach Bedarf aus dem
[Spickzettel](https://raw.githubusercontent.com/rstudio/cheatsheets/main/data-visualization.pdf)
entnehmen:

-   `labs()`: Ändere Label der Grafik:

```{r}
ggplot(data = mpg) +
  geom_point(mapping = aes(x = hwy, y = displ, color = class)) +
  labs(x = "Kraftstoffersparnis (Autobahnmeilen pro Gallone)", y = "Hubraum (in Liter)",
       title = "Kraftstoffeffizienz von Autos der EPA")
```

-   `annotate()`: Text/Elemente an einer bestimmten Position einfügen:

```{r}
ggplot(data = mpg) +
  geom_point(mapping = aes(x = hwy, y = displ, color = class)) +
  annotate(geom = "text", x = 30, y = 5, label = "Text einfügen")
```

-   `theme()`: Position der Legende:

```{r}
ggplot(data = mpg) +
  geom_point(mapping = aes(x = hwy, y = displ, color = class)) +
  theme(legend.position = "top") # oder "bottom", "left", "right"
```

-   `xlim()` und `ylim()`: Grafik auf einen Bereich der x- oder y-Achse
    beschränken:

```{r}
ggplot(data = mpg) +
  geom_point(mapping = aes(x = hwy, y = displ, color = class)) +
  xlim(15, 25) +
  ylim(3, 6)
```

Je nach Fragestellung oder Vorlieben lassen sich alle Elemente der
Grafik anpassen. Der Aufbau der Grafik bleibt gleich und es können
einfach weitere Layer hinzugefügt werden. Hierzu kann bei speziellen
Anforderungen auf den Spickzettel geschaut werden oder bei einer
Suchmaschine nachgeschlagen werden.

# Aufgaben

Für die Übungsaufgaben gehen wir zu dem `diamonds` Datensatz über. Der
Datensatz befasst sich mit Preis, Qualität und weiteren Eigenschaften
von knapp 54.000 Diamanten.

Zuerst geben wir wieder die folgenden Befehle ein, um die Bibliothek
`tidyverse` zu laden und den Datensatz einzusehen:

```{r}
library(tidyverse)
diamonds
```

Um mehr über den Datensatz zu erfahren, geben Sie wieder den Hilfsbefehl
`?diamonds` ein.

## Übungsaufgaben

1.  Erstellen Sie eine Grafik von den Variablen `carat` und `price` des
    `diamonds` Datensatzes, wobei Sie die Datenpunkte nach der Kategorie
    `clarity` färben.

2.  Erstellen Sie eine weitere Grafik von den Variablen `carat` und
    `price` des `diamonds` Datensatzes, wobei Sie ein `facet` für die
    Kategorie `clarity` hinzufügen. Worin liegen die Vor- und Nachteile
    der Farb-Aesthetics und der Nutzung von `facets`?

3.  Verwenden Sie nun als `facet` eine kontinuierliche Variable
    wie z. B. `table`. Was passiert hier?

4.  Verwenden Sie nun ein `facet` mit zwei Variablen `cut` und
    `clarity`, um die Variablen `carat` und `price` zu vergleichen. Was
    können Sie dieser Grafik entnehmen?

5.  Erstellen Sie eine passende Grafik, um die Verteilungen von `cut`
    und `price` darzustellen. Denken Sie auch an passende Gruppierungen,
    Farben und Positionen!

6.  Erstellen Sie die folgenden Grafiken:

![Verschiedene Grafiken](images/graph_grid.png)

7.  Erstellen Sie ein Balkendiagramm von der Variable `cut` und fügen
    Sie ein `facet` mit der Variable `clarity` ein.\
    Ändern Sie zusätzlich den Titel und die Achsenbeschriftungen mit
    `labs()` und verschieben Sie die Legende nach unten mit `theme()`.
