1 Aufgaben

In diesem Abschnitt soll erneut der diamonds Datensatz betrachtet werden:

library(tidyverse)
Registered S3 methods overwritten by 'dbplyr':
  method         from
  print.tbl_lazy     
  print.tbl_sql      
── Attaching packages ─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── tidyverse 1.3.2 ──✔ ggplot2 3.3.6      ✔ purrr   0.3.4 
✔ tibble  3.1.8      ✔ dplyr   1.0.10
✔ tidyr   1.2.1      ✔ stringr 1.4.1 
✔ readr   2.1.3      ✔ forcats 0.5.2 ── Conflicts ────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()
diamonds

1.1 Übungsaufgaben

  1. Überlegen Sie zunächst, nach welchen Variablen sich der Datensatz diamonds gruppieren lässt. Denken Sie hierbei besonders an die unterschiedlichen Datentypen.

  2. Welche Farbe der Diamanten hat den geringsten Wert?

    1. Wie erklären Sie sich das Ergebnis?

    2. Erstellen und betrachten Sie hierzu auch ein Streudiagramm mit dem Zusammenhang von carat und price bezüglich der Farben.

  3. Gruppieren Sie die Diamanten nach der Variable cut und berechnen Sie die Mittelwerte für carat, price und depth.

    1. Erkennen Sie hierbei Zusammenhänge?

    2. Stellen Sie die durchschnittlichen Preise durch Balkendiagramme für alle Kategorien von cut dar.

    3. Erstellen Sie einen Boxplot mit den Preisen für jede Kategorie cut. Vergleichen Sie das Ergebnis mit dem Balkendiagramm.

  4. Gruppieren Sie die Diamanten nach carat und berechnen Sie Minimum, Maximum und Mittelwert von price.

    1. Erstellen Sie auf Grundlage der Mittelwerte und der Variable carat ein Streudiagramm.

    2. Erstellen Sie ein Streudiagramm für alle Einträge mit carat und price. Fügen Sie zusätzlich die bestimmten Mittelwerte in die Grafik mit geom_line() ein. Setzen Sie hierzu stat = "smooth".

    3. Entfernen Sie zuletzt alle Einträge, die seltener als 20 mal auftreten.

  5. Finden Sie für jede Kategorie von color die Tiefen (depth), bei denen mehr als 25%, 50% und 75% der Diamanten einen geringen Wert aufweisen.

  6. Finden Sie für jeden cut den teuersten und den günstigsten Diamanten. Entspricht das Ergebnis Ihren Erwartungen? Woran kann dieser Zusammenhang liegen?

  7. Betrachten Sie neben dem cut auch die Klarheit clarity und geben Sie den Anteil und die Anzahl von Diamanten mit einem Preis von über 10000 aus.

    1. Wählen Sie im Anschluss die ersten fünf aller Ergebnisse aus. Stoßen Sie hierbei auf ein Problem?

    2. Erstellen Sie eine Grafik mit Histogrammen der Preise für alle Kategorien von cut und clarity (durch facet_grid()).

    3. Markieren Sie in der Grafik die Bereiche rot, bei denen der Preis über 10000 liegt. Vergleichen Sie die Grafik mit den Anteilen, die Sie zuvor berechnet haben.

1.2 Lösungen

1.2.1 Überlegen Sie zunächst, nach welchen Variablen sich der Datensatz diamonds sinnvoll gruppieren lässt. Denken Sie hierbei besonders an die unterschiedlichen Datentypen.

Betrachten Sie hierzu den Dataframe diamonds und schauen Sie direkt unter die Variablen. Variablen mit dem Anhängsel <chr> oder <ord> sind kategorisch/qualitativ, d. h. nach ihnen lässt sich gruppieren.

Andere Variablen wie z. B. <int> oder <dbl> sind quantitative Variablen.

Es kann vorkommen, dass Kategorien durch ganze Zahlen (1, 2, 3, …) dargestellt werden, obwohl sie eine ursprüngliche Bedeutung haben. In dem Fall handelt es sich trotzdem um qualitative Daten, auch wenn die Variable als <int> markiert ist. Achten Sie darauf, dass Ihre selbst erhobenen Daten aussagekräftig sind, damit das nicht vorkommt.

Demnach handelt es sich bei cut, color und clarity augenscheinlich um qualitative Daten und bei dem Rest um quantitative Daten.

Theoretisch lassen sich alle Variablen zum Gruppieren verwenden. In der Praxis mag es unter wenigen Ausnahmen keinen Sinn ergeben, Gruppen für numerische Werte zu erstellen, da die Anzahl der Gruppen sehr hoch sein wird.

1.2.2 Welche Farbe der Diamanten hat den geringsten Wert?

Der naive Ansatz sucht direkt nach dem Diamanten mit dem gerinsten Wert:

diamonds %>%
    slice_min(price)

Um den Wert von Diamanten einer Farbe zu betrachten, kann es jedoch Sinn ergeben, den Durchschnittspreis für jede Farbe zu berechnen:

diamonds %>%
    group_by(color) %>%
    summarise(durchschnittspreis = mean(price)) %>%
    arrange(durchschnittspreis)

Interessanterweise haben die Diamanten mit einer guten Farbe (D/E) einen geringeren Durchschnittswert als die Diamanten mit einer schlechteren Farbe (I/J).

1.2.2.1 Wie erklären Sie sich das Ergebnis?

Es muss neben der Farbe noch andere Faktoren geben, die einen größeren Einfluss auf den Preis haben. Eine Variable, die einem direkt in den Sinn kommt, ist der Karatwert der Diamanten.

1.2.2.2 Erstellen und betrachten Sie hierzu auch ein Streudiagramm mit dem Zusammenhang von carat und price bezüglich der Farben.

Diese Grafik hatten wir bereits zuvor erstellt (eine Gitteransicht mit facet könnte auch angebracht sein):

ggplot(diamonds) +
    geom_point(aes(carat, price, color = color))

Es fällt auf, dass die Diamanten mit einer schlechteren Farbe tendenziell einen höheren Karatwert aufweisen. Die Unterschiede scheinen deutlich zu sein, aber um sicherzugehen, könnten wir beispielsweise zusätzlich den Durchschnittskaratwert berechnen:

diamonds %>%
    group_by(color) %>%
    summarise(durchschnittspreis = mean(price),
                        durchschnittskarat = mean(carat)) %>%
    arrange(durchschnittspreis)

Tatsächlich weisen die Diamanten mit schlechten Farben durchschnittlich einen höheren Karatwert auf. Das ist zwar noch kein statistischer Nachweis, allerdings ein gutes Indiz.

Es zeigt sich jedoch auch, dass Diamanten mit einer guten Farbe auch mit geringeren Karatwerten schneller einen hohen Preis erzielen.

1.3 Gruppieren Sie die Diamanten nach der Variable cut und berechnen Sie die Mittelwerte für carat, price und depth.

schnitt <- diamonds %>%
    group_by(cut) %>%
    summarise(ds_karat = mean(carat),
                        ds_preis = mean(price),
                        ds_tiefe = mean(depth))
schnitt

1.3.0.1 Erkennen Sie hierbei Zusammenhänge?

Diamanten mit einem schlechten Schnitt (Fair) erhalten durchschnittlich einen ähnlichen Preis wie Diamanten mit einem guten Schnitt. Das mag an einem durchschnittlich höheren Karatwert liegen.

Auch die Tiefe der Diamanten mit einem schlechten Schnitt ist höher als die anderen Kategorien.

Ideal schneidet bei dem Preis am schlechtesten ab.

1.3.0.2 Stellen Sie die durchschnittlichen Preise durch Balkendiagramme für alle Kategorien von cut dar.

ggplot(schnitt) +
    geom_bar(aes(cut, ds_preis, fill = cut), stat = "identity")

1.3.0.3 Erstellen Sie einen Boxplot mit den Preisen für jede Kategorie cut. Vergleichen Sie das Ergebnis mit dem Balkendiagramm.

ggplot(diamonds) +
    geom_boxplot(aes(x = cut, y = price, fill = cut))

Die Mediane scheinen etwas unter dem arithmetischen Mittel zu liegen. Es bleibt dennoch ersichtlich, dass die Diamanten mit einem idealen Schnitt etwas weniger wert sind und die Diamanten mit schlechtem Schnitt etwas mehr wert sind.

Vorsicht ist auch hier geboten, denn auch Diamanten mit einer sehr guten Qualität erreichen bereits bei kleineren Karatwerten einen hohen Preis:

ggplot(diamonds) +
    geom_point(aes(carat, price, color = cut)) +
    geom_smooth(aes(carat, price, color = cut), se = FALSE)

1.3.1 Gruppieren Sie die Diamanten nach carat und berechnen Sie Minimum, Maximum und Mittelwert von price.

karat <- diamonds %>%
    group_by(carat) %>%
    summarise(min_preis = min(price),
                        max_preis = max(price),
                        ds_preis = mean(price),
                        anzahl = n())
karat

1.3.1.1 Erstellen Sie auf Grundlage der Mittelwerte und der Variable carat ein Streudiagramm.

ggplot(karat) +
    geom_point(aes(carat, ds_preis, alpha = anzahl))

1.3.1.2 Erstellen Sie ein Streudiagramm für alle Einträge mit carat und price. Fügen Sie zusätzlich die bestimmten Mittelwerte in die Grafik mit geom_line() ein. Setzen Sie hierzu stat = "smooth".

ggplot(diamonds) +
    geom_point(aes(carat, price)) +
    geom_line(data = karat, aes(carat, ds_preis), color = "red", stat = "smooth")

Das ganze erinnert ein wenig an geom_smooth():

ggplot(diamonds, aes(carat, price)) +
    geom_point() +
    geom_smooth(se = F, color = "red")

1.3.1.3 Entfernen Sie zuletzt alle Einträge, die seltener als 20 mal auftreten.

1.3.2 Finden Sie für jede Kategorie von color die Tiefen (depth), bei denen mehr als 25%, 50% und 75% der Diamanten einen geringen Wert aufweisen.

diamonds %>%
    group_by(color) %>%
    summarise(quantile = quantile(depth, c(0.25, 0.5, 0.75)))
`summarise()` has grouped output by 'color'. You can override using the `.groups` argument.
# oder getrennt:
diamonds %>%
    group_by(color) %>%
    summarise(erstes_quartil = quantile(depth, 0.25),
                        zweites_quartil = quantile(depth, 0.5),
                        drittes_quartil = quantile(depth, 0.65))

1.3.3 Finden Sie für jeden cut den teuersten und den günstigsten Diamanten. Entspricht das Ergebnis Ihren Erwartungen? Woran kann dieser Zusammenhang liegen?

diamonds %>%
    group_by(cut) %>%
    summarise(guenstigster = min(price),
                        teuerster = max(price))

Es scheinen für jede Kategorie von cut ähnlich günstige oder teuere Diamanten vorzuliegen.

Den vorherigen Grafiken ist zu entnehmen, dass das erneut wohl an den unterschiedlichen Karatwerten liegt.

1.3.4 Betrachten Sie neben dem cut auch die Klarheit clarity und geben Sie den Anteil und die Anzahl von Diamanten mit einem Preis von über 10000 aus.

teuere_diamanten <- diamonds %>%
    group_by(cut, clarity) %>%
    summarise(anteil_teuer = mean(price > 10000),
                        anzahl_teuer = sum(price > 10000))
`summarise()` has grouped output by 'cut'. You can override using the `.groups` argument.
teuere_diamanten

1.3.4.1 Wählen Sie im Anschluss die ersten fünf aller Ergebnisse aus. Stoßen Sie hierbei auf ein Problem?

Wenn man nach der Gruppierung direkt eine Operation durchführt, gilt diese für beide Kategorien cut und clarity kombiniert:

teuere_diamanten %>%
    slice_min(desc(anzahl_teuer), n = 5)

Es muss also zuerst die Gruppierung entfernt werden:

teuere_diamanten %>%
    ungroup() %>%
    slice_min(desc(anzahl_teuer), n = 5)

1.3.4.2 Erstellen Sie eine Grafik mit Histogrammen der Preise für alle Kategorien von cut und clarity (durch facet_grid()).

histogramm <- ggplot(diamonds, aes(price)) +
    geom_histogram(aes(fill = cut)) +
    facet_grid(cut ~ clarity)
histogramm

1.3.4.3 Markieren Sie in der Grafik die Bereiche rot, bei denen der Preis über 10000 liegt. Vergleichen Sie die Grafik mit den Anteilen, die Sie zuvor berechnet haben.

histogramm +
    geom_histogram(data = filter(diamonds, price > 10000), aes(price), fill = "red")

