1 Aufgaben

In diesen Aufgaben sollen Sie den Datensatz iris betrachten.

Geben Sie zunächst den folgenden Befehl ein, um sich einen Übersicht über die Daten zu schaffen:

library(tidyverse)
iris <- as_tibble(iris)
iris

Um mehr über den Datensatz zu erfahren, geben Sie den folgenden Befehl ein:

?iris

Um Hilfe zu den Aesthetics und dem Streudiagramm zu erhalten, geben Sie den folgenden Befehl ein:

?geom_point

1.1 Übungsaufgaben

  1. Wie viele Reihen und Spalten hat der Dataframe iris?

  2. Welche Variablen aus iris sind qualitativ? Welche sind quantitativ?

  3. Was bedeutet die Spalte Petal.Width?

  4. Erstellen Sie ein Streudiagramm mit Petal.Length und Petal.Width.

  5. Erstellen Sie ein Streudiagramm mit Species und Petal.Length. Ist diese Grafik sinnvoll?

  6. Erstellen Sie ein Streudiagramm mit Sepal.Length und Sepal.Width.

    1. Färben Sie zunächst alle Punkte grün ein und ändern Sie die Form.

    2. Nutzen Sie nun Aesthetics, um die Farbe und Form der Punkte gemäß der Spezies (Variable Species) zu ändern.
      Ändern Sie zusätzlich die Größe aller Punkte.

    3. Ändern Sie ebenfalls die Aesthetics alpha, fill und stroke.

    4. Was passiert, wenn Sie einer Aesthetic eine quantitative Variable zuordnen? Testen Sie beispielsweise aes(color = Sepal.Length) oder aes(size = Sepal.Length).

    5. Was passiert, wenn Sie zusätzlich in den Aesthetics aes(color = Sepal.Length < 6) angeben?
      Hierbei handelt es sich nicht direkt um die Zuordnung einer Variablen zu einer Aesthetic.

1.2 Lösung

1.2.1 Wie viele Reihen und Spalten hat der Dataframe iris?

Es gibt viele Möglichkeiten, das zu prüfen:

  • In die Environment oben rechts in RStudio schauen

  • Den Dataframe in der Konsole anzeigen lassen

  • Die Dimension durch dim(iris) oder nrow(iris) und ncol(iris) anzeigen lassen

dim(iris)
[1] 150   5

Es liegen 150 Beobachtungen (Reihen) und 5 Variablen (Spalten) vor.

1.2.2 Welche Variablen aus iris sind qualitativ? Welche sind quantitativ?

Diese Information lässt sich aus den Spalten entnehmen. Kontinuierliche Spalten sind quantitative Variablen, Kategorien (Faktoren) sind qualitative Variablen.

Demnach sind Sepal.Length, Sepal.Width, Petal.Length und Petal.Width quantitativ und Species qualitativ.

In R gibt es hierzu auch den str (structure) Befehl:

str(iris)
tibble [150 × 5] (S3: tbl_df/tbl/data.frame)
 $ Sepal.Length: num [1:150] 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num [1:150] 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num [1:150] 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num [1:150] 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

1.2.3 Was bedeutet die Spalte Petal.Width?

Hier könnte eine Suchmaschine nützlich sein. Laut Wikipedia handelt es sich um die Breite des Kronblatts (3).

Schematische Darstellung einer Blüte mit oberständigem Fruchtknoten und perigyner Blütenhülle (= „mittelständiger” Fruchtknoten): 1. Blütenboden (Receptaculum) 2. Kelchblätter (Sepalen) 3. Kronblätter (Petalen) 4. Staubblätter (Stamina) 5. Stempel (Pistill)

1.2.4 Erstellen Sie ein Streudiagramm mit Petal.Length und Petal.Width.

Zuerst müssen wir ggplot mit dem Datensatz aufrufen und dann die geom_point Funktion hinzufügen mit den entsprechenden Aesthetics für die x- und y-Achse, um ein Streudiagramm zu erstellen:

ggplot(data = iris) +
  geom_point(mapping = aes(x = Petal.Length, y = Petal.Width))

1.2.5 Erstellen Sie ein Streudiagramm mit Species und Petal.Length. Ist diese Grafik sinnvoll?

Wie zuvor müssen wir lediglich die Aesthetics an die Variablen anpassen:

ggplot(data = iris) +
  geom_point(mapping = aes(x = Species, y = Petal.Length))

Die Grafik ermöglicht das Vergleichen der einzelnen Datenpunkte zwischen den unterschiedlichen Spezies der Iris-Pflanze, allerdings ist die Grafik nicht sehr ansehnlich.

Besser wäre hier beispielsweise ein Boxplot, um die Verteilungen zu vergleichen.

1.2.6 Erstellen Sie ein Streudiagramm mit Sepal.Length und Sepal.Width.

1.2.6.1 Färben Sie zunächst alle Punkte grün ein und ändern Sie die Form.

Achtung: Die Aesthetics müssen außerhalb der aes() Funktion definiert werden, damit sie unabhängig von Variablen für alle Datenpunkte gelten:

ggplot(data = iris) +
  geom_point(mapping = aes(x = Sepal.Length, y = Sepal.Width), color = "green", shape = 17)

1.2.6.2 Nutzen Sie nun Aesthetics, um die Farbe und Form der Punkte gemäß der Spezies (Variable Species) zu ändern. Ändern Sie zusätzlich die Größe aller Punkte.

Um die Farbe color und Form shape bezüglich der Spezies (Variable Species) anzupassen, müssen diese innerhalb der aes() Funktion definiert werden. Damit zusätzlich die Größe size aller Datenpukte verändert werden kann, muss dies außerhalb der aes() Funktion definiert werden:

ggplot(data = iris) +
  geom_point(mapping = aes(x = Sepal.Length, y = Sepal.Width, color = Species, shape = Species), size = 3)

1.2.6.3 Ändern Sie ebenfalls die Aesthetics alpha, fill und stroke.

Achtung: fill ändert nur die Füllfarbe, sofern die definierte Form von shape das erlaubt.

Spielen Sie mit den Aesthetics herum und testen Sie selbst, was sich ändert, wenn diese innerhalb oder außerhalb der aes() Funktion stehen.

ggplot(data = iris) +
  geom_point(mapping = aes(x = Sepal.Length, y = Sepal.Width, color = Species), shape = 21, fill = "black", size = 2, stroke = 3, alpha = 0.6)

1.2.6.4 Was passiert, wenn Sie einer Aesthetic eine quantitative Variable zuordnen? Testen Sie beispielsweise aes(color = Sepal.Length) oder aes(size = Sepal.Length).

ggplot(data = iris) +
  geom_point(mapping = aes(x = Sepal.Length, y = Sepal.Width, color = Sepal.Length))

ggplot(data = iris) +
  geom_point(mapping = aes(x = Sepal.Length, y = Sepal.Width, size = Sepal.Length))

Die Farbe geht entsprechend der kontinuierlichen Variable Sepal.Length von dunkelblau zu hellblau über.

Ähnlich verhält sich die Größe, welche entsprechend der Variable Sepal.Length angepasst wird.

Je nach Fragestellung können Sie so beispielsweise Ihre Daten ebenfalls hervorheben.

1.2.6.5 Was passiert, wenn Sie zusätzlich in den Aesthetics aes(color = Sepal.Length < 6) angeben? Hierbei handelt es sich nicht direkt um die Zuordnung einer Variablen zu einer Aesthetic.

ggplot(data = iris) +
  geom_point(mapping = aes(x = Sepal.Length, y = Sepal.Width, color = Sepal.Length < 6))

Sie sehen, dass die Datenpunkte (Pflanzen) mit einer Sepal.Length von über und unter 6cm automatisch unterschiedlich dargestellt werden und eine Legende hinzugefügt wurde.

Somit können Sie anhand von Bedingungen (nicht nur einzelne Variablen) Ihre Datenpunkte durch Aesthetics hervorheben.

