Aufgaben
In diesem Abschnitt soll erneut der diamonds
Datensatz
betrachtet werden:
Registered S3 methods overwritten by 'dbplyr':
method from
print.tbl_lazy
print.tbl_sql
── Attaching packages ─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── tidyverse 1.3.2 ──✔ ggplot2 3.3.6 ✔ purrr 0.3.4
✔ tibble 3.1.8 ✔ dplyr 1.0.10
✔ tidyr 1.2.1 ✔ stringr 1.4.1
✔ readr 2.1.3 ✔ forcats 0.5.2 ── Conflicts ────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag() masks stats::lag()
Übungsaufgaben
Überlegen Sie zunächst, nach welchen Variablen sich der Datensatz
diamonds
gruppieren lässt. Denken Sie hierbei besonders an
die unterschiedlichen Datentypen.
Welche Farbe der Diamanten hat den geringsten Wert?
Wie erklären Sie sich das Ergebnis?
Erstellen und betrachten Sie hierzu auch ein Streudiagramm mit
dem Zusammenhang von carat
und price
bezüglich
der Farben.
Gruppieren Sie die Diamanten nach der Variable cut
und berechnen Sie die Mittelwerte für carat
,
price
und depth
.
Erkennen Sie hierbei Zusammenhänge?
Stellen Sie die durchschnittlichen Preise durch Balkendiagramme
für alle Kategorien von cut
dar.
Erstellen Sie einen Boxplot mit den Preisen für jede Kategorie
cut
. Vergleichen Sie das Ergebnis mit dem
Balkendiagramm.
Gruppieren Sie die Diamanten nach carat
und
berechnen Sie Minimum, Maximum und Mittelwert von
price
.
Erstellen Sie auf Grundlage der Mittelwerte und der Variable
carat
ein Streudiagramm.
Erstellen Sie ein Streudiagramm für alle Einträge mit
carat
und price
. Fügen Sie zusätzlich die
bestimmten Mittelwerte in die Grafik mit geom_line()
ein.
Setzen Sie hierzu stat = "smooth"
.
Entfernen Sie zuletzt alle Einträge, die seltener als 20 mal
auftreten.
Finden Sie für jede Kategorie von color
die Tiefen
(depth
), bei denen mehr als 25%, 50% und 75% der Diamanten
einen geringen Wert aufweisen.
Finden Sie für jeden cut
den teuersten und den
günstigsten Diamanten. Entspricht das Ergebnis Ihren Erwartungen? Woran
kann dieser Zusammenhang liegen?
Betrachten Sie neben dem cut
auch die Klarheit
clarity
und geben Sie den Anteil und die Anzahl von
Diamanten mit einem Preis von über 10000 aus.
Wählen Sie im Anschluss die ersten fünf aller Ergebnisse aus.
Stoßen Sie hierbei auf ein Problem?
Erstellen Sie eine Grafik mit Histogrammen der Preise für alle
Kategorien von cut
und clarity
(durch
facet_grid()
).
Markieren Sie in der Grafik die Bereiche rot, bei denen der Preis
über 10000 liegt. Vergleichen Sie die Grafik mit den Anteilen, die Sie
zuvor berechnet haben.
Lösungen
Überlegen Sie
zunächst, nach welchen Variablen sich der Datensatz
diamonds
sinnvoll gruppieren lässt. Denken Sie hierbei
besonders an die unterschiedlichen Datentypen.
Betrachten Sie hierzu den Dataframe diamonds
und schauen
Sie direkt unter die Variablen. Variablen mit dem Anhängsel
<chr>
oder <ord>
sind
kategorisch/qualitativ, d. h. nach ihnen lässt sich gruppieren.
Andere Variablen wie z. B. <int>
oder
<dbl>
sind quantitative Variablen.
Es kann vorkommen, dass Kategorien durch ganze Zahlen (1, 2, 3, …)
dargestellt werden, obwohl sie eine ursprüngliche Bedeutung haben. In
dem Fall handelt es sich trotzdem um qualitative Daten, auch wenn die
Variable als <int>
markiert ist. Achten Sie darauf,
dass Ihre selbst erhobenen Daten aussagekräftig sind, damit das nicht
vorkommt.
Demnach handelt es sich bei cut
, color
und
clarity
augenscheinlich um qualitative Daten und bei dem
Rest um quantitative Daten.
Theoretisch lassen sich alle Variablen zum Gruppieren verwenden. In
der Praxis mag es unter wenigen Ausnahmen keinen Sinn ergeben, Gruppen
für numerische Werte zu erstellen, da die Anzahl der Gruppen sehr hoch
sein wird.
Welche Farbe der
Diamanten hat den geringsten Wert?
Der naive Ansatz sucht direkt nach dem Diamanten mit dem gerinsten
Wert:
diamonds %>%
slice_min(price)
Um den Wert von Diamanten einer Farbe zu betrachten, kann es jedoch
Sinn ergeben, den Durchschnittspreis für jede Farbe zu berechnen:
diamonds %>%
group_by(color) %>%
summarise(durchschnittspreis = mean(price)) %>%
arrange(durchschnittspreis)
Interessanterweise haben die Diamanten mit einer guten Farbe (D/E)
einen geringeren Durchschnittswert als die Diamanten mit einer
schlechteren Farbe (I/J).
Wie erklären Sie
sich das Ergebnis?
Es muss neben der Farbe noch andere Faktoren geben, die einen
größeren Einfluss auf den Preis haben. Eine Variable, die einem direkt
in den Sinn kommt, ist der Karatwert der Diamanten.
Erstellen und
betrachten Sie hierzu auch ein Streudiagramm mit dem Zusammenhang von
carat
und price
bezüglich der Farben.
Diese Grafik hatten wir bereits zuvor erstellt (eine Gitteransicht
mit facet
könnte auch angebracht sein):
ggplot(diamonds) +
geom_point(aes(carat, price, color = color))
Es fällt auf, dass die Diamanten mit einer schlechteren Farbe
tendenziell einen höheren Karatwert aufweisen. Die Unterschiede scheinen
deutlich zu sein, aber um sicherzugehen, könnten wir beispielsweise
zusätzlich den Durchschnittskaratwert berechnen:
diamonds %>%
group_by(color) %>%
summarise(durchschnittspreis = mean(price),
durchschnittskarat = mean(carat)) %>%
arrange(durchschnittspreis)
Tatsächlich weisen die Diamanten mit schlechten Farben
durchschnittlich einen höheren Karatwert auf. Das ist zwar noch kein
statistischer Nachweis, allerdings ein gutes Indiz.
Es zeigt sich jedoch auch, dass Diamanten mit einer guten Farbe auch
mit geringeren Karatwerten schneller einen hohen Preis erzielen.
Gruppieren Sie die
Diamanten nach der Variable cut
und berechnen Sie die
Mittelwerte für carat
, price
und
depth
.
schnitt <- diamonds %>%
group_by(cut) %>%
summarise(ds_karat = mean(carat),
ds_preis = mean(price),
ds_tiefe = mean(depth))
schnitt
Erkennen Sie
hierbei Zusammenhänge?
Diamanten mit einem schlechten Schnitt (Fair
) erhalten
durchschnittlich einen ähnlichen Preis wie Diamanten mit einem guten
Schnitt. Das mag an einem durchschnittlich höheren Karatwert liegen.
Auch die Tiefe der Diamanten mit einem schlechten Schnitt ist höher
als die anderen Kategorien.
Ideal
schneidet bei dem Preis am schlechtesten ab.
Stellen Sie die
durchschnittlichen Preise durch Balkendiagramme für alle Kategorien von
cut
dar.
ggplot(schnitt) +
geom_bar(aes(cut, ds_preis, fill = cut), stat = "identity")
Erstellen Sie
einen Boxplot mit den Preisen für jede Kategorie cut
.
Vergleichen Sie das Ergebnis mit dem Balkendiagramm.
ggplot(diamonds) +
geom_boxplot(aes(x = cut, y = price, fill = cut))
Die Mediane scheinen etwas unter dem arithmetischen Mittel zu liegen.
Es bleibt dennoch ersichtlich, dass die Diamanten mit einem idealen
Schnitt etwas weniger wert sind und die Diamanten mit schlechtem Schnitt
etwas mehr wert sind.
Vorsicht ist auch hier geboten, denn auch Diamanten mit einer sehr
guten Qualität erreichen bereits bei kleineren Karatwerten einen hohen
Preis:
ggplot(diamonds) +
geom_point(aes(carat, price, color = cut)) +
geom_smooth(aes(carat, price, color = cut), se = FALSE)
Gruppieren Sie die
Diamanten nach carat
und berechnen Sie Minimum, Maximum und
Mittelwert von price
.
karat <- diamonds %>%
group_by(carat) %>%
summarise(min_preis = min(price),
max_preis = max(price),
ds_preis = mean(price),
anzahl = n())
karat
Erstellen Sie auf
Grundlage der Mittelwerte und der Variable carat
ein
Streudiagramm.
ggplot(karat) +
geom_point(aes(carat, ds_preis, alpha = anzahl))
Erstellen Sie ein
Streudiagramm für alle Einträge mit carat
und
price
. Fügen Sie zusätzlich die bestimmten Mittelwerte in
die Grafik mit geom_line()
ein. Setzen Sie hierzu
stat = "smooth"
.
ggplot(diamonds) +
geom_point(aes(carat, price)) +
geom_line(data = karat, aes(carat, ds_preis), color = "red", stat = "smooth")
Das ganze erinnert ein wenig an geom_smooth()
:
ggplot(diamonds, aes(carat, price)) +
geom_point() +
geom_smooth(se = F, color = "red")
Entfernen Sie
zuletzt alle Einträge, die seltener als 20 mal auftreten.
Finden Sie für jede
Kategorie von color
die Tiefen (depth
), bei
denen mehr als 25%, 50% und 75% der Diamanten einen geringen Wert
aufweisen.
diamonds %>%
group_by(color) %>%
summarise(quantile = quantile(depth, c(0.25, 0.5, 0.75)))
`summarise()` has grouped output by 'color'. You can override using the `.groups` argument.
# oder getrennt:
diamonds %>%
group_by(color) %>%
summarise(erstes_quartil = quantile(depth, 0.25),
zweites_quartil = quantile(depth, 0.5),
drittes_quartil = quantile(depth, 0.65))
Finden Sie für
jeden cut
den teuersten und den günstigsten Diamanten.
Entspricht das Ergebnis Ihren Erwartungen? Woran kann dieser
Zusammenhang liegen?
diamonds %>%
group_by(cut) %>%
summarise(guenstigster = min(price),
teuerster = max(price))
Es scheinen für jede Kategorie von cut
ähnlich günstige
oder teuere Diamanten vorzuliegen.
Den vorherigen Grafiken ist zu entnehmen, dass das erneut wohl an den
unterschiedlichen Karatwerten liegt.
Betrachten Sie
neben dem cut
auch die Klarheit clarity
und
geben Sie den Anteil und die Anzahl von Diamanten mit einem Preis von
über 10000 aus.
teuere_diamanten <- diamonds %>%
group_by(cut, clarity) %>%
summarise(anteil_teuer = mean(price > 10000),
anzahl_teuer = sum(price > 10000))
`summarise()` has grouped output by 'cut'. You can override using the `.groups` argument.
Wählen Sie im
Anschluss die ersten fünf aller Ergebnisse aus. Stoßen Sie hierbei auf
ein Problem?
Wenn man nach der Gruppierung direkt eine Operation durchführt, gilt
diese für beide Kategorien cut
und clarity
kombiniert:
teuere_diamanten %>%
slice_min(desc(anzahl_teuer), n = 5)
Es muss also zuerst die Gruppierung entfernt werden:
teuere_diamanten %>%
ungroup() %>%
slice_min(desc(anzahl_teuer), n = 5)
Erstellen Sie
eine Grafik mit Histogrammen der Preise für alle Kategorien von
cut
und clarity
(durch
facet_grid()
).
histogramm <- ggplot(diamonds, aes(price)) +
geom_histogram(aes(fill = cut)) +
facet_grid(cut ~ clarity)
histogramm
Markieren Sie in
der Grafik die Bereiche rot, bei denen der Preis über 10000 liegt.
Vergleichen Sie die Grafik mit den Anteilen, die Sie zuvor berechnet
haben.
histogramm +
geom_histogram(data = filter(diamonds, price > 10000), aes(price), fill = "red")
---
title: "Übungszettel 5"
output: 
  html_notebook: 
    highlight: tango
    number_sections: yes
---

# Aufgaben

In diesem Abschnitt soll erneut der `diamonds` Datensatz betrachtet
werden:

```{r}
library(tidyverse)
diamonds
```

## Übungsaufgaben

1.  Überlegen Sie zunächst, nach welchen Variablen sich der Datensatz
    `diamonds` gruppieren lässt. Denken Sie hierbei besonders an die
    unterschiedlichen Datentypen.

2.  Welche Farbe der Diamanten hat den geringsten Wert?

    1.  Wie erklären Sie sich das Ergebnis?

    2.  Erstellen und betrachten Sie hierzu auch ein Streudiagramm mit
        dem Zusammenhang von `carat` und `price` bezüglich der Farben.

3.  Gruppieren Sie die Diamanten nach der Variable `cut` und berechnen
    Sie die Mittelwerte für `carat`, `price` und `depth`.

    1.  Erkennen Sie hierbei Zusammenhänge?

    2.  Stellen Sie die durchschnittlichen Preise durch Balkendiagramme
        für alle Kategorien von `cut` dar.

    3.  Erstellen Sie einen Boxplot mit den Preisen für jede Kategorie
        `cut`. Vergleichen Sie das Ergebnis mit dem Balkendiagramm.

4.  Gruppieren Sie die Diamanten nach `carat` und berechnen Sie Minimum,
    Maximum und Mittelwert von `price`.

    1.  Erstellen Sie auf Grundlage der Mittelwerte und der Variable
        `carat` ein Streudiagramm.

    2.  Erstellen Sie ein Streudiagramm für alle Einträge mit `carat`
        und `price`. Fügen Sie zusätzlich die bestimmten Mittelwerte in
        die Grafik mit `geom_line()` ein. Setzen Sie hierzu
        `stat = "smooth"`.

    3.  Entfernen Sie zuletzt alle Einträge, die seltener als 20 mal
        auftreten.

5.  Finden Sie für jede Kategorie von `color` die Tiefen (`depth`), bei
    denen mehr als 25%, 50% und 75% der Diamanten einen geringen Wert
    aufweisen.

6.  Finden Sie für jeden `cut` den teuersten und den günstigsten
    Diamanten. Entspricht das Ergebnis Ihren Erwartungen? Woran kann
    dieser Zusammenhang liegen?

7.  Betrachten Sie neben dem `cut` auch die Klarheit `clarity` und geben
    Sie den Anteil und die Anzahl von Diamanten mit einem Preis von über
    10000 aus.

    1.  Wählen Sie im Anschluss die ersten fünf aller Ergebnisse aus.
        Stoßen Sie hierbei auf ein Problem?

    2.  Erstellen Sie eine Grafik mit Histogrammen der Preise für alle
        Kategorien von `cut` und `clarity` (durch `facet_grid()`).

    3.  Markieren Sie in der Grafik die Bereiche rot, bei denen der
        Preis über 10000 liegt. Vergleichen Sie die Grafik mit den
        Anteilen, die Sie zuvor berechnet haben.

## Lösungen

### Überlegen Sie zunächst, nach welchen Variablen sich der Datensatz `diamonds` sinnvoll gruppieren lässt. Denken Sie hierbei besonders an die unterschiedlichen Datentypen.

Betrachten Sie hierzu den Dataframe `diamonds` und schauen Sie direkt
unter die Variablen. Variablen mit dem Anhängsel `<chr>` oder `<ord>`
sind kategorisch/qualitativ, d. h. nach ihnen lässt sich gruppieren.

Andere Variablen wie z. B. `<int>` oder `<dbl>` sind quantitative
Variablen.

Es kann vorkommen, dass Kategorien durch ganze Zahlen (1, 2, 3, ...)
dargestellt werden, obwohl sie eine ursprüngliche Bedeutung haben. In
dem Fall handelt es sich trotzdem um qualitative Daten, auch wenn die
Variable als `<int>` markiert ist. Achten Sie darauf, dass Ihre selbst
erhobenen Daten aussagekräftig sind, damit das nicht vorkommt.

Demnach handelt es sich bei `cut`, `color` und `clarity` augenscheinlich
um qualitative Daten und bei dem Rest um quantitative Daten.

Theoretisch lassen sich alle Variablen zum Gruppieren verwenden. In der
Praxis mag es unter wenigen Ausnahmen keinen Sinn ergeben, Gruppen für
numerische Werte zu erstellen, da die Anzahl der Gruppen sehr hoch sein
wird.

### Welche Farbe der Diamanten hat den geringsten Wert?

Der naive Ansatz sucht direkt nach dem Diamanten mit dem gerinsten Wert:

```{r}
diamonds %>%
	slice_min(price)
```

Um den Wert von Diamanten einer Farbe zu betrachten, kann es jedoch Sinn
ergeben, den Durchschnittspreis für jede Farbe zu berechnen:

```{r}
diamonds %>%
	group_by(color) %>%
	summarise(durchschnittspreis = mean(price)) %>%
	arrange(durchschnittspreis)
```

Interessanterweise haben die Diamanten mit einer guten Farbe (D/E) einen
geringeren Durchschnittswert als die Diamanten mit einer schlechteren
Farbe (I/J).

#### Wie erklären Sie sich das Ergebnis?

Es muss neben der Farbe noch andere Faktoren geben, die einen größeren
Einfluss auf den Preis haben. Eine Variable, die einem direkt in den
Sinn kommt, ist der Karatwert der Diamanten.

#### Erstellen und betrachten Sie hierzu auch ein Streudiagramm mit dem Zusammenhang von `carat` und `price` bezüglich der Farben.

Diese Grafik hatten wir bereits zuvor erstellt (eine Gitteransicht mit
`facet` könnte auch angebracht sein):

```{r}
ggplot(diamonds) +
	geom_point(aes(carat, price, color = color))
```

Es fällt auf, dass die Diamanten mit einer schlechteren Farbe
tendenziell einen höheren Karatwert aufweisen. Die Unterschiede scheinen
deutlich zu sein, aber um sicherzugehen, könnten wir beispielsweise
zusätzlich den Durchschnittskaratwert berechnen:

```{r}
diamonds %>%
	group_by(color) %>%
	summarise(durchschnittspreis = mean(price),
						durchschnittskarat = mean(carat)) %>%
	arrange(durchschnittspreis)
```

Tatsächlich weisen die Diamanten mit schlechten Farben durchschnittlich
einen höheren Karatwert auf. Das ist zwar noch kein statistischer
Nachweis, allerdings ein gutes Indiz.

Es zeigt sich jedoch auch, dass Diamanten mit einer guten Farbe auch mit
geringeren Karatwerten schneller einen hohen Preis erzielen.

## Gruppieren Sie die Diamanten nach der Variable `cut` und berechnen Sie die Mittelwerte für `carat`, `price` und `depth`.

```{r}
schnitt <- diamonds %>%
	group_by(cut) %>%
	summarise(ds_karat = mean(carat),
						ds_preis = mean(price),
						ds_tiefe = mean(depth))
schnitt
```

#### Erkennen Sie hierbei Zusammenhänge?

Diamanten mit einem schlechten Schnitt (`Fair`) erhalten
durchschnittlich einen ähnlichen Preis wie Diamanten mit einem guten
Schnitt. Das mag an einem durchschnittlich höheren Karatwert liegen.

Auch die Tiefe der Diamanten mit einem schlechten Schnitt ist höher als
die anderen Kategorien.

`Ideal` schneidet bei dem Preis am schlechtesten ab.

#### Stellen Sie die durchschnittlichen Preise durch Balkendiagramme für alle Kategorien von `cut` dar.

```{r}
ggplot(schnitt) +
	geom_bar(aes(cut, ds_preis, fill = cut), stat = "identity")
```

#### Erstellen Sie einen Boxplot mit den Preisen für jede Kategorie `cut`. Vergleichen Sie das Ergebnis mit dem Balkendiagramm.

```{r}
ggplot(diamonds) +
	geom_boxplot(aes(x = cut, y = price, fill = cut))
```

Die Mediane scheinen etwas unter dem arithmetischen Mittel zu liegen. Es
bleibt dennoch ersichtlich, dass die Diamanten mit einem idealen Schnitt
etwas weniger wert sind und die Diamanten mit schlechtem Schnitt etwas
mehr wert sind.

Vorsicht ist auch hier geboten, denn auch Diamanten mit einer sehr guten
Qualität erreichen bereits bei kleineren Karatwerten einen hohen Preis:

```{r}
ggplot(diamonds) +
	geom_point(aes(carat, price, color = cut)) +
	geom_smooth(aes(carat, price, color = cut), se = FALSE)
```

### Gruppieren Sie die Diamanten nach `carat` und berechnen Sie Minimum, Maximum und Mittelwert von `price`.

```{r}
karat <- diamonds %>%
	group_by(carat) %>%
	summarise(min_preis = min(price),
						max_preis = max(price),
						ds_preis = mean(price),
						anzahl = n())
karat
```

#### Erstellen Sie auf Grundlage der Mittelwerte und der Variable `carat` ein Streudiagramm.

```{r}
ggplot(karat) +
	geom_point(aes(carat, ds_preis, alpha = anzahl))
```

#### Erstellen Sie ein Streudiagramm für alle Einträge mit `carat` und `price`. Fügen Sie zusätzlich die bestimmten Mittelwerte in die Grafik mit `geom_line()` ein. Setzen Sie hierzu `stat = "smooth"`.

```{r}
ggplot(diamonds) +
	geom_point(aes(carat, price)) +
	geom_line(data = karat, aes(carat, ds_preis), color = "red", stat = "smooth")
```

Das ganze erinnert ein wenig an `geom_smooth()`:

```{r}
ggplot(diamonds, aes(carat, price)) +
	geom_point() +
	geom_smooth(se = F, color = "red")
```

#### Entfernen Sie zuletzt alle Einträge, die seltener als 20 mal auftreten.

```{r}
karat %>%
	filter(anzahl >= 20)
```

### Finden Sie für jede Kategorie von `color` die Tiefen (`depth`), bei denen mehr als 25%, 50% und 75% der Diamanten einen geringen Wert aufweisen.

```{r}
diamonds %>%
	group_by(color) %>%
	summarise(quantile = quantile(depth, c(0.25, 0.5, 0.75)))
# oder getrennt:
diamonds %>%
	group_by(color) %>%
	summarise(erstes_quartil = quantile(depth, 0.25),
						zweites_quartil = quantile(depth, 0.5),
						drittes_quartil = quantile(depth, 0.65))
```

### Finden Sie für jeden `cut` den teuersten und den günstigsten Diamanten. Entspricht das Ergebnis Ihren Erwartungen? Woran kann dieser Zusammenhang liegen?

```{r}
diamonds %>%
	group_by(cut) %>%
	summarise(guenstigster = min(price),
						teuerster = max(price))
```

Es scheinen für jede Kategorie von `cut` ähnlich günstige oder teuere
Diamanten vorzuliegen.

Den vorherigen Grafiken ist zu entnehmen, dass das erneut wohl an den
unterschiedlichen Karatwerten liegt.

### Betrachten Sie neben dem `cut` auch die Klarheit `clarity` und geben Sie den Anteil und die Anzahl von Diamanten mit einem Preis von über 10000 aus.

```{r}
teuere_diamanten <- diamonds %>%
	group_by(cut, clarity) %>%
	summarise(anteil_teuer = mean(price > 10000),
						anzahl_teuer = sum(price > 10000))
teuere_diamanten
```

#### Wählen Sie im Anschluss die ersten fünf aller Ergebnisse aus. Stoßen Sie hierbei auf ein Problem?

Wenn man nach der Gruppierung direkt eine Operation durchführt, gilt
diese für beide Kategorien `cut` und `clarity` kombiniert:

```{r}
teuere_diamanten %>%
	slice_min(desc(anzahl_teuer), n = 5)
```

Es muss also zuerst die Gruppierung entfernt werden:

```{r}
teuere_diamanten %>%
	ungroup() %>%
	slice_min(desc(anzahl_teuer), n = 5)
```

#### Erstellen Sie eine Grafik mit Histogrammen der Preise für alle Kategorien von `cut` und `clarity` (durch `facet_grid()`).

```{r}
histogramm <- ggplot(diamonds, aes(price)) +
	geom_histogram(aes(fill = cut)) +
	facet_grid(cut ~ clarity)
histogramm
```

#### Markieren Sie in der Grafik die Bereiche rot, bei denen der Preis über 10000 liegt. Vergleichen Sie die Grafik mit den Anteilen, die Sie zuvor berechnet haben.

```{r}
histogramm +
	geom_histogram(data = filter(diamonds, price > 10000), aes(price), fill = "red")
```
