1 Aufgaben

In diesem Abschnitt soll erneut der diamonds Datensatz betrachtet werden:

library(tidyverse)
Registered S3 methods overwritten by 'dbplyr':
  method         from
  print.tbl_lazy     
  print.tbl_sql      
── Attaching packages ─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── tidyverse 1.3.2 ──✔ ggplot2 3.3.6      ✔ purrr   0.3.4 
✔ tibble  3.1.8      ✔ dplyr   1.0.10
✔ tidyr   1.2.1      ✔ stringr 1.4.1 
✔ readr   2.1.3      ✔ forcats 0.5.2 ── Conflicts ────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()
diamonds

1.1 Übungsaufgaben

  1. Überlegen Sie zunächst, nach welchen Variablen sich der Datensatz diamonds gruppieren lässt. Denken Sie hierbei besonders an die unterschiedlichen Datentypen.

  2. Welche Farbe der Diamanten hat den geringsten Wert?

    1. Wie erklären Sie sich das Ergebnis?

    2. Erstellen und betrachten Sie hierzu auch ein Streudiagramm mit dem Zusammenhang von carat und price bezüglich der Farben.

  3. Gruppieren Sie die Diamanten nach der Variable cut und berechnen Sie die Mittelwerte für carat, price und depth.

    1. Erkennen Sie hierbei Zusammenhänge?

    2. Stellen Sie die durchschnittlichen Preise durch Balkendiagramme für alle Kategorien von cut dar.

    3. Erstellen Sie einen Boxplot mit den Preisen für jede Kategorie cut. Vergleichen Sie das Ergebnis mit dem Balkendiagramm.

  4. Gruppieren Sie die Diamanten nach carat und berechnen Sie Minimum, Maximum und Mittelwert von price.

    1. Erstellen Sie auf Grundlage der Mittelwerte und der Variable carat ein Streudiagramm.

    2. Erstellen Sie ein Streudiagramm für alle Einträge mit carat und price. Fügen Sie zusätzlich die bestimmten Mittelwerte in die Grafik mit geom_line() ein. Setzen Sie hierzu stat = "smooth".

    3. Entfernen Sie zuletzt alle Einträge, die seltener als 20 mal auftreten.

  5. Finden Sie für jede Kategorie von color die Tiefen (depth), bei denen mehr als 25%, 50% und 75% der Diamanten einen geringen Wert aufweisen.

  6. Finden Sie für jeden cut den teuersten und den günstigsten Diamanten. Entspricht das Ergebnis Ihren Erwartungen? Woran kann dieser Zusammenhang liegen?

  7. Betrachten Sie neben dem cut auch die Klarheit clarity und geben Sie den Anteil und die Anzahl von Diamanten mit einem Preis von über 10000 aus.

    1. Wählen Sie im Anschluss die ersten fünf aller Ergebnisse aus. Stoßen Sie hierbei auf ein Problem?

    2. Erstellen Sie eine Grafik mit Histogrammen der Preise für alle Kategorien von cut und clarity (durch facet_grid()).

    3. Markieren Sie in der Grafik die Bereiche rot, bei denen der Preis über 10000 liegt. Vergleichen Sie die Grafik mit den Anteilen, die Sie zuvor berechnet haben.

1.2 Lösungen

1.2.1 Überlegen Sie zunächst, nach welchen Variablen sich der Datensatz diamonds sinnvoll gruppieren lässt. Denken Sie hierbei besonders an die unterschiedlichen Datentypen.

Betrachten Sie hierzu den Dataframe diamonds und schauen Sie direkt unter die Variablen. Variablen mit dem Anhängsel <chr> oder <ord> sind kategorisch/qualitativ, d. h. nach ihnen lässt sich gruppieren.

Andere Variablen wie z. B. <int> oder <dbl> sind quantitative Variablen.

Es kann vorkommen, dass Kategorien durch ganze Zahlen (1, 2, 3, …) dargestellt werden, obwohl sie eine ursprüngliche Bedeutung haben. In dem Fall handelt es sich trotzdem um qualitative Daten, auch wenn die Variable als <int> markiert ist. Achten Sie darauf, dass Ihre selbst erhobenen Daten aussagekräftig sind, damit das nicht vorkommt.

Demnach handelt es sich bei cut, color und clarity augenscheinlich um qualitative Daten und bei dem Rest um quantitative Daten.

Theoretisch lassen sich alle Variablen zum Gruppieren verwenden. In der Praxis mag es unter wenigen Ausnahmen keinen Sinn ergeben, Gruppen für numerische Werte zu erstellen, da die Anzahl der Gruppen sehr hoch sein wird.

1.2.2 Welche Farbe der Diamanten hat den geringsten Wert?

Der naive Ansatz sucht direkt nach dem Diamanten mit dem gerinsten Wert:

diamonds %>%
    slice_min(price)

Um den Wert von Diamanten einer Farbe zu betrachten, kann es jedoch Sinn ergeben, den Durchschnittspreis für jede Farbe zu berechnen:

diamonds %>%
    group_by(color) %>%
    summarise(durchschnittspreis = mean(price)) %>%
    arrange(durchschnittspreis)

Interessanterweise haben die Diamanten mit einer guten Farbe (D/E) einen geringeren Durchschnittswert als die Diamanten mit einer schlechteren Farbe (I/J).

1.2.2.1 Wie erklären Sie sich das Ergebnis?

Es muss neben der Farbe noch andere Faktoren geben, die einen größeren Einfluss auf den Preis haben. Eine Variable, die einem direkt in den Sinn kommt, ist der Karatwert der Diamanten.

1.2.2.2 Erstellen und betrachten Sie hierzu auch ein Streudiagramm mit dem Zusammenhang von carat und price bezüglich der Farben.

Diese Grafik hatten wir bereits zuvor erstellt (eine Gitteransicht mit facet könnte auch angebracht sein):

ggplot(diamonds) +
    geom_point(aes(carat, price, color = color))

Es fällt auf, dass die Diamanten mit einer schlechteren Farbe tendenziell einen höheren Karatwert aufweisen. Die Unterschiede scheinen deutlich zu sein, aber um sicherzugehen, könnten wir beispielsweise zusätzlich den Durchschnittskaratwert berechnen:

diamonds %>%
    group_by(color) %>%
    summarise(durchschnittspreis = mean(price),
                        durchschnittskarat = mean(carat)) %>%
    arrange(durchschnittspreis)

Tatsächlich weisen die Diamanten mit schlechten Farben durchschnittlich einen höheren Karatwert auf. Das ist zwar noch kein statistischer Nachweis, allerdings ein gutes Indiz.

Es zeigt sich jedoch auch, dass Diamanten mit einer guten Farbe auch mit geringeren Karatwerten schneller einen hohen Preis erzielen.

1.3 Gruppieren Sie die Diamanten nach der Variable cut und berechnen Sie die Mittelwerte für carat, price und depth.

schnitt <- diamonds %>%
    group_by(cut) %>%
    summarise(ds_karat = mean(carat),
                        ds_preis = mean(price),
                        ds_tiefe = mean(depth))
schnitt

1.3.0.1 Erkennen Sie hierbei Zusammenhänge?

Diamanten mit einem schlechten Schnitt (Fair) erhalten durchschnittlich einen ähnlichen Preis wie Diamanten mit einem guten Schnitt. Das mag an einem durchschnittlich höheren Karatwert liegen.

Auch die Tiefe der Diamanten mit einem schlechten Schnitt ist höher als die anderen Kategorien.

Ideal schneidet bei dem Preis am schlechtesten ab.

1.3.0.2 Stellen Sie die durchschnittlichen Preise durch Balkendiagramme für alle Kategorien von cut dar.

ggplot(schnitt) +
    geom_bar(aes(cut, ds_preis, fill = cut), stat = "identity")

1.3.0.3 Erstellen Sie einen Boxplot mit den Preisen für jede Kategorie cut. Vergleichen Sie das Ergebnis mit dem Balkendiagramm.

ggplot(diamonds) +
    geom_boxplot(aes(x = cut, y = price, fill = cut))

Die Mediane scheinen etwas unter dem arithmetischen Mittel zu liegen. Es bleibt dennoch ersichtlich, dass die Diamanten mit einem idealen Schnitt etwas weniger wert sind und die Diamanten mit schlechtem Schnitt etwas mehr wert sind.

Vorsicht ist auch hier geboten, denn auch Diamanten mit einer sehr guten Qualität erreichen bereits bei kleineren Karatwerten einen hohen Preis:

ggplot(diamonds) +
    geom_point(aes(carat, price, color = cut)) +
    geom_smooth(aes(carat, price, color = cut), se = FALSE)

1.3.1 Gruppieren Sie die Diamanten nach carat und berechnen Sie Minimum, Maximum und Mittelwert von price.

karat <- diamonds %>%
    group_by(carat) %>%
    summarise(min_preis = min(price),
                        max_preis = max(price),
                        ds_preis = mean(price),
                        anzahl = n())
karat

1.3.1.1 Erstellen Sie auf Grundlage der Mittelwerte und der Variable carat ein Streudiagramm.

ggplot(karat) +
    geom_point(aes(carat, ds_preis, alpha = anzahl))

1.3.1.2 Erstellen Sie ein Streudiagramm für alle Einträge mit carat und price. Fügen Sie zusätzlich die bestimmten Mittelwerte in die Grafik mit geom_line() ein. Setzen Sie hierzu stat = "smooth".

ggplot(diamonds) +
    geom_point(aes(carat, price)) +
    geom_line(data = karat, aes(carat, ds_preis), color = "red", stat = "smooth")

Das ganze erinnert ein wenig an geom_smooth():

ggplot(diamonds, aes(carat, price)) +
    geom_point() +
    geom_smooth(se = F, color = "red")

1.3.1.3 Entfernen Sie zuletzt alle Einträge, die seltener als 20 mal auftreten.

1.3.2 Finden Sie für jede Kategorie von color die Tiefen (depth), bei denen mehr als 25%, 50% und 75% der Diamanten einen geringen Wert aufweisen.

diamonds %>%
    group_by(color) %>%
    summarise(quantile = quantile(depth, c(0.25, 0.5, 0.75)))
`summarise()` has grouped output by 'color'. You can override using the `.groups` argument.
# oder getrennt:
diamonds %>%
    group_by(color) %>%
    summarise(erstes_quartil = quantile(depth, 0.25),
                        zweites_quartil = quantile(depth, 0.5),
                        drittes_quartil = quantile(depth, 0.65))

1.3.3 Finden Sie für jeden cut den teuersten und den günstigsten Diamanten. Entspricht das Ergebnis Ihren Erwartungen? Woran kann dieser Zusammenhang liegen?

diamonds %>%
    group_by(cut) %>%
    summarise(guenstigster = min(price),
                        teuerster = max(price))

Es scheinen für jede Kategorie von cut ähnlich günstige oder teuere Diamanten vorzuliegen.

Den vorherigen Grafiken ist zu entnehmen, dass das erneut wohl an den unterschiedlichen Karatwerten liegt.

1.3.4 Betrachten Sie neben dem cut auch die Klarheit clarity und geben Sie den Anteil und die Anzahl von Diamanten mit einem Preis von über 10000 aus.

teuere_diamanten <- diamonds %>%
    group_by(cut, clarity) %>%
    summarise(anteil_teuer = mean(price > 10000),
                        anzahl_teuer = sum(price > 10000))
`summarise()` has grouped output by 'cut'. You can override using the `.groups` argument.
teuere_diamanten

1.3.4.1 Wählen Sie im Anschluss die ersten fünf aller Ergebnisse aus. Stoßen Sie hierbei auf ein Problem?

Wenn man nach der Gruppierung direkt eine Operation durchführt, gilt diese für beide Kategorien cut und clarity kombiniert:

teuere_diamanten %>%
    slice_min(desc(anzahl_teuer), n = 5)

Es muss also zuerst die Gruppierung entfernt werden:

teuere_diamanten %>%
    ungroup() %>%
    slice_min(desc(anzahl_teuer), n = 5)

1.3.4.2 Erstellen Sie eine Grafik mit Histogrammen der Preise für alle Kategorien von cut und clarity (durch facet_grid()).

histogramm <- ggplot(diamonds, aes(price)) +
    geom_histogram(aes(fill = cut)) +
    facet_grid(cut ~ clarity)
histogramm

1.3.4.3 Markieren Sie in der Grafik die Bereiche rot, bei denen der Preis über 10000 liegt. Vergleichen Sie die Grafik mit den Anteilen, die Sie zuvor berechnet haben.

histogramm +
    geom_histogram(data = filter(diamonds, price > 10000), aes(price), fill = "red")

---
title: "Übungszettel 5"
output: 
  html_notebook: 
    highlight: tango
    number_sections: yes
---

# Aufgaben

In diesem Abschnitt soll erneut der `diamonds` Datensatz betrachtet
werden:

```{r}
library(tidyverse)
diamonds
```

## Übungsaufgaben

1.  Überlegen Sie zunächst, nach welchen Variablen sich der Datensatz
    `diamonds` gruppieren lässt. Denken Sie hierbei besonders an die
    unterschiedlichen Datentypen.

2.  Welche Farbe der Diamanten hat den geringsten Wert?

    1.  Wie erklären Sie sich das Ergebnis?

    2.  Erstellen und betrachten Sie hierzu auch ein Streudiagramm mit
        dem Zusammenhang von `carat` und `price` bezüglich der Farben.

3.  Gruppieren Sie die Diamanten nach der Variable `cut` und berechnen
    Sie die Mittelwerte für `carat`, `price` und `depth`.

    1.  Erkennen Sie hierbei Zusammenhänge?

    2.  Stellen Sie die durchschnittlichen Preise durch Balkendiagramme
        für alle Kategorien von `cut` dar.

    3.  Erstellen Sie einen Boxplot mit den Preisen für jede Kategorie
        `cut`. Vergleichen Sie das Ergebnis mit dem Balkendiagramm.

4.  Gruppieren Sie die Diamanten nach `carat` und berechnen Sie Minimum,
    Maximum und Mittelwert von `price`.

    1.  Erstellen Sie auf Grundlage der Mittelwerte und der Variable
        `carat` ein Streudiagramm.

    2.  Erstellen Sie ein Streudiagramm für alle Einträge mit `carat`
        und `price`. Fügen Sie zusätzlich die bestimmten Mittelwerte in
        die Grafik mit `geom_line()` ein. Setzen Sie hierzu
        `stat = "smooth"`.

    3.  Entfernen Sie zuletzt alle Einträge, die seltener als 20 mal
        auftreten.

5.  Finden Sie für jede Kategorie von `color` die Tiefen (`depth`), bei
    denen mehr als 25%, 50% und 75% der Diamanten einen geringen Wert
    aufweisen.

6.  Finden Sie für jeden `cut` den teuersten und den günstigsten
    Diamanten. Entspricht das Ergebnis Ihren Erwartungen? Woran kann
    dieser Zusammenhang liegen?

7.  Betrachten Sie neben dem `cut` auch die Klarheit `clarity` und geben
    Sie den Anteil und die Anzahl von Diamanten mit einem Preis von über
    10000 aus.

    1.  Wählen Sie im Anschluss die ersten fünf aller Ergebnisse aus.
        Stoßen Sie hierbei auf ein Problem?

    2.  Erstellen Sie eine Grafik mit Histogrammen der Preise für alle
        Kategorien von `cut` und `clarity` (durch `facet_grid()`).

    3.  Markieren Sie in der Grafik die Bereiche rot, bei denen der
        Preis über 10000 liegt. Vergleichen Sie die Grafik mit den
        Anteilen, die Sie zuvor berechnet haben.

## Lösungen

### Überlegen Sie zunächst, nach welchen Variablen sich der Datensatz `diamonds` sinnvoll gruppieren lässt. Denken Sie hierbei besonders an die unterschiedlichen Datentypen.

Betrachten Sie hierzu den Dataframe `diamonds` und schauen Sie direkt
unter die Variablen. Variablen mit dem Anhängsel `<chr>` oder `<ord>`
sind kategorisch/qualitativ, d. h. nach ihnen lässt sich gruppieren.

Andere Variablen wie z. B. `<int>` oder `<dbl>` sind quantitative
Variablen.

Es kann vorkommen, dass Kategorien durch ganze Zahlen (1, 2, 3, ...)
dargestellt werden, obwohl sie eine ursprüngliche Bedeutung haben. In
dem Fall handelt es sich trotzdem um qualitative Daten, auch wenn die
Variable als `<int>` markiert ist. Achten Sie darauf, dass Ihre selbst
erhobenen Daten aussagekräftig sind, damit das nicht vorkommt.

Demnach handelt es sich bei `cut`, `color` und `clarity` augenscheinlich
um qualitative Daten und bei dem Rest um quantitative Daten.

Theoretisch lassen sich alle Variablen zum Gruppieren verwenden. In der
Praxis mag es unter wenigen Ausnahmen keinen Sinn ergeben, Gruppen für
numerische Werte zu erstellen, da die Anzahl der Gruppen sehr hoch sein
wird.

### Welche Farbe der Diamanten hat den geringsten Wert?

Der naive Ansatz sucht direkt nach dem Diamanten mit dem gerinsten Wert:

```{r}
diamonds %>%
	slice_min(price)
```

Um den Wert von Diamanten einer Farbe zu betrachten, kann es jedoch Sinn
ergeben, den Durchschnittspreis für jede Farbe zu berechnen:

```{r}
diamonds %>%
	group_by(color) %>%
	summarise(durchschnittspreis = mean(price)) %>%
	arrange(durchschnittspreis)
```

Interessanterweise haben die Diamanten mit einer guten Farbe (D/E) einen
geringeren Durchschnittswert als die Diamanten mit einer schlechteren
Farbe (I/J).

#### Wie erklären Sie sich das Ergebnis?

Es muss neben der Farbe noch andere Faktoren geben, die einen größeren
Einfluss auf den Preis haben. Eine Variable, die einem direkt in den
Sinn kommt, ist der Karatwert der Diamanten.

#### Erstellen und betrachten Sie hierzu auch ein Streudiagramm mit dem Zusammenhang von `carat` und `price` bezüglich der Farben.

Diese Grafik hatten wir bereits zuvor erstellt (eine Gitteransicht mit
`facet` könnte auch angebracht sein):

```{r}
ggplot(diamonds) +
	geom_point(aes(carat, price, color = color))
```

Es fällt auf, dass die Diamanten mit einer schlechteren Farbe
tendenziell einen höheren Karatwert aufweisen. Die Unterschiede scheinen
deutlich zu sein, aber um sicherzugehen, könnten wir beispielsweise
zusätzlich den Durchschnittskaratwert berechnen:

```{r}
diamonds %>%
	group_by(color) %>%
	summarise(durchschnittspreis = mean(price),
						durchschnittskarat = mean(carat)) %>%
	arrange(durchschnittspreis)
```

Tatsächlich weisen die Diamanten mit schlechten Farben durchschnittlich
einen höheren Karatwert auf. Das ist zwar noch kein statistischer
Nachweis, allerdings ein gutes Indiz.

Es zeigt sich jedoch auch, dass Diamanten mit einer guten Farbe auch mit
geringeren Karatwerten schneller einen hohen Preis erzielen.

## Gruppieren Sie die Diamanten nach der Variable `cut` und berechnen Sie die Mittelwerte für `carat`, `price` und `depth`.

```{r}
schnitt <- diamonds %>%
	group_by(cut) %>%
	summarise(ds_karat = mean(carat),
						ds_preis = mean(price),
						ds_tiefe = mean(depth))
schnitt
```

#### Erkennen Sie hierbei Zusammenhänge?

Diamanten mit einem schlechten Schnitt (`Fair`) erhalten
durchschnittlich einen ähnlichen Preis wie Diamanten mit einem guten
Schnitt. Das mag an einem durchschnittlich höheren Karatwert liegen.

Auch die Tiefe der Diamanten mit einem schlechten Schnitt ist höher als
die anderen Kategorien.

`Ideal` schneidet bei dem Preis am schlechtesten ab.

#### Stellen Sie die durchschnittlichen Preise durch Balkendiagramme für alle Kategorien von `cut` dar.

```{r}
ggplot(schnitt) +
	geom_bar(aes(cut, ds_preis, fill = cut), stat = "identity")
```

#### Erstellen Sie einen Boxplot mit den Preisen für jede Kategorie `cut`. Vergleichen Sie das Ergebnis mit dem Balkendiagramm.

```{r}
ggplot(diamonds) +
	geom_boxplot(aes(x = cut, y = price, fill = cut))
```

Die Mediane scheinen etwas unter dem arithmetischen Mittel zu liegen. Es
bleibt dennoch ersichtlich, dass die Diamanten mit einem idealen Schnitt
etwas weniger wert sind und die Diamanten mit schlechtem Schnitt etwas
mehr wert sind.

Vorsicht ist auch hier geboten, denn auch Diamanten mit einer sehr guten
Qualität erreichen bereits bei kleineren Karatwerten einen hohen Preis:

```{r}
ggplot(diamonds) +
	geom_point(aes(carat, price, color = cut)) +
	geom_smooth(aes(carat, price, color = cut), se = FALSE)
```

### Gruppieren Sie die Diamanten nach `carat` und berechnen Sie Minimum, Maximum und Mittelwert von `price`.

```{r}
karat <- diamonds %>%
	group_by(carat) %>%
	summarise(min_preis = min(price),
						max_preis = max(price),
						ds_preis = mean(price),
						anzahl = n())
karat
```

#### Erstellen Sie auf Grundlage der Mittelwerte und der Variable `carat` ein Streudiagramm.

```{r}
ggplot(karat) +
	geom_point(aes(carat, ds_preis, alpha = anzahl))
```

#### Erstellen Sie ein Streudiagramm für alle Einträge mit `carat` und `price`. Fügen Sie zusätzlich die bestimmten Mittelwerte in die Grafik mit `geom_line()` ein. Setzen Sie hierzu `stat = "smooth"`.

```{r}
ggplot(diamonds) +
	geom_point(aes(carat, price)) +
	geom_line(data = karat, aes(carat, ds_preis), color = "red", stat = "smooth")
```

Das ganze erinnert ein wenig an `geom_smooth()`:

```{r}
ggplot(diamonds, aes(carat, price)) +
	geom_point() +
	geom_smooth(se = F, color = "red")
```

#### Entfernen Sie zuletzt alle Einträge, die seltener als 20 mal auftreten.

```{r}
karat %>%
	filter(anzahl >= 20)
```

### Finden Sie für jede Kategorie von `color` die Tiefen (`depth`), bei denen mehr als 25%, 50% und 75% der Diamanten einen geringen Wert aufweisen.

```{r}
diamonds %>%
	group_by(color) %>%
	summarise(quantile = quantile(depth, c(0.25, 0.5, 0.75)))
# oder getrennt:
diamonds %>%
	group_by(color) %>%
	summarise(erstes_quartil = quantile(depth, 0.25),
						zweites_quartil = quantile(depth, 0.5),
						drittes_quartil = quantile(depth, 0.65))
```

### Finden Sie für jeden `cut` den teuersten und den günstigsten Diamanten. Entspricht das Ergebnis Ihren Erwartungen? Woran kann dieser Zusammenhang liegen?

```{r}
diamonds %>%
	group_by(cut) %>%
	summarise(guenstigster = min(price),
						teuerster = max(price))
```

Es scheinen für jede Kategorie von `cut` ähnlich günstige oder teuere
Diamanten vorzuliegen.

Den vorherigen Grafiken ist zu entnehmen, dass das erneut wohl an den
unterschiedlichen Karatwerten liegt.

### Betrachten Sie neben dem `cut` auch die Klarheit `clarity` und geben Sie den Anteil und die Anzahl von Diamanten mit einem Preis von über 10000 aus.

```{r}
teuere_diamanten <- diamonds %>%
	group_by(cut, clarity) %>%
	summarise(anteil_teuer = mean(price > 10000),
						anzahl_teuer = sum(price > 10000))
teuere_diamanten
```

#### Wählen Sie im Anschluss die ersten fünf aller Ergebnisse aus. Stoßen Sie hierbei auf ein Problem?

Wenn man nach der Gruppierung direkt eine Operation durchführt, gilt
diese für beide Kategorien `cut` und `clarity` kombiniert:

```{r}
teuere_diamanten %>%
	slice_min(desc(anzahl_teuer), n = 5)
```

Es muss also zuerst die Gruppierung entfernt werden:

```{r}
teuere_diamanten %>%
	ungroup() %>%
	slice_min(desc(anzahl_teuer), n = 5)
```

#### Erstellen Sie eine Grafik mit Histogrammen der Preise für alle Kategorien von `cut` und `clarity` (durch `facet_grid()`).

```{r}
histogramm <- ggplot(diamonds, aes(price)) +
	geom_histogram(aes(fill = cut)) +
	facet_grid(cut ~ clarity)
histogramm
```

#### Markieren Sie in der Grafik die Bereiche rot, bei denen der Preis über 10000 liegt. Vergleichen Sie die Grafik mit den Anteilen, die Sie zuvor berechnet haben.

```{r}
histogramm +
	geom_histogram(data = filter(diamonds, price > 10000), aes(price), fill = "red")
```
