O Danych¶

Zbiór danych zawiera informacje o trzech gatunkach irysów: Iris setosa, Iris versicolor, i Iris virginica.

Dane obejmują pomiary czterech cech: długość i szerokość działki kielicha oraz długość i szerokość płatka.

Każdy wiersz w zbiorze danych reprezentuje pojedynczy kwiat, a wartości pomiarów są podane w centymetrach.

Zbiór składa się z 150 próbek, po 50 dla każdego gatunku, i jest szeroko stosowany jako podstawowy zbiór danych do testowania algorytmów klasyfikacji oraz w nauce o danych i uczeniu maszynowym.

Kolumny:

  • długość kielicha (sepal length) - Długość kielicha w cm
  • szerokość kielicha (sepal width) - Szerokość kielicha w cm
  • długość płatka (petal length) - Długość płatka w cm
  • szerokość płatka (petal width) - Szerokość płatka w cm
  • klasa (class) - Klasa irysa (setosa, versicolor, virginica)

1. Ogólny przegląd danych¶

długość kielicha (sepal length) szerokość kielicha (sepal width) długość płatka (petal length) szerokość płatka (petal width) klasa (class)
0 5.1 3.5 1.4 0.2 Iris-setosa
1 4.9 3.0 1.4 0.2 Iris-setosa
2 4.7 3.2 1.3 0.2 Iris-setosa
3 4.6 3.1 1.5 0.2 Iris-setosa
4 5.0 3.6 1.4 0.2 Iris-setosa
... ... ... ... ... ...
145 6.7 3.0 5.2 2.3 Iris-virginica
146 6.3 2.5 5.0 1.9 Iris-virginica
147 6.5 3.0 5.2 2.0 Iris-virginica
148 6.2 3.4 5.4 2.3 Iris-virginica
149 5.9 3.0 5.1 1.8 Iris-virginica

150 rows × 5 columns

Irys Setosa¶

Irys Setosa

  • Wygląd: Ma fioletowe lub niebieskawe kwiaty z wyraźnimy białymi i zółtymi wzrorami na dolnych płatkach. Jego łodyga jest dość krótka a liście wąskie.
  • Występowanie: Występują głównie w chłodnych rejonach Ameryki Północnej, Azji oraz Europy. Spotykany na terenach wilgotnych takich jak bagna bądź brzegi rzek.
  • Cechy charakterystyczne: jest odporny na zimno i preferuje kwaśne gleby.

Irys Virginica¶

Iris virginica

  • Wygląd: Posiada większe, ciemnoniebieskie lub fioletowe kwiaty z zółtymi znakami na płatkach. Łodyga jest wysoka (do 1m), a liście długie i mieczowate.
  • Występowanie: Głównie w Ameryce Północnej, w wilgotnych miejscach takich jak mokradła czy zbiorniki wodne.
  • Cechy charakterystyczne: Dobrze rośnie w podmokłych glebach i często spotykany na bagnach.

Irys Versicolor¶

Irys Versicolor

  • Wygląd: Ma kwiaty o zmiennym ubarwieniu - od fioletowego po niebieskofioletowy z białymi i żółtymi plamkami. Łodyga osiąga do 80cm wysokości a liście są wąskie i zielone.
  • Występowanie: Występuje w wschodniej części Ameryki Północnej, w wilgotnych środowiskach, np. na bagnach i wzdłuż rzek.
  • Cechy charakterystyczne: Jest toksyczny! ponieważ zawiera Irydyny substancje chemiczne powodujące zatrucie u ludzi i zwierząt.

Wygląd i charakterystyka - podsumowanie¶

  • Kolor kwiatów: Wszystkie są fioletowe lub niebieskie, ale różnią się odcieniami i wzorami.
  • Siedlisko: Wszystkie preferują wilgotne tereny, ale Irys Virginica i Irys Versicolor występują głównie w Ameryce Północnej, podczas gdy Irys Setosa jest szerzej rozprzestrzeniony.
  • Toksyczność: Irys Versicolor jest trujący, podczas gdy pozostałe są mniej toksyczne.
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: klasa (class), dtype: int64

Mamy taką samą ilość przedstawicieli każdego gatunku Irysów z naszego zbioru danych¶

długość kielicha (sepal length) szerokość kielicha (sepal width) długość płatka (petal length) szerokość płatka (petal width) klasa (class)
0 4.9 3.1 1.5 0.1 Iris-setosa
1 5.1 3.8 1.5 0.3 Iris-setosa
2 4.4 2.9 1.4 0.2 Iris-setosa
3 4.9 3.0 1.4 0.2 Iris-setosa
4 6.7 3.0 5.0 1.7 Iris-versicolor
5 5.6 2.7 4.2 1.3 Iris-versicolor
6 5.8 2.7 3.9 1.2 Iris-versicolor
7 5.9 3.0 4.2 1.5 Iris-versicolor
8 5.8 2.7 5.1 1.9 Iris-virginica
9 7.7 2.8 6.7 2.0 Iris-virginica
10 6.8 3.2 5.9 2.3 Iris-virginica
11 5.8 2.8 5.1 2.4 Iris-virginica

☝ Tabela z parametrami losowo wybranych 4 przedstawicieli z każdego rodzaju Irysów¶

długość kielicha (sepal length) szerokość kielicha (sepal width) długość płatka (petal length) szerokość płatka (petal width) klasa (class) cecha typ_wartości
0 4.3 3.0 1.1 0.1 Iris-setosa długość kielicha (sepal length) min
1 5.8 4.0 1.2 0.2 Iris-setosa długość kielicha (sepal length) max
2 4.5 2.3 1.3 0.3 Iris-setosa szerokość kielicha (sepal width) min
3 5.7 4.4 1.5 0.4 Iris-setosa szerokość kielicha (sepal width) max
4 4.6 3.6 1.0 0.2 Iris-setosa długość płatka (petal length) min
5 4.8 3.4 1.9 0.2 Iris-setosa długość płatka (petal length) max
6 4.9 3.1 1.5 0.1 Iris-setosa szerokość płatka (petal width) min
7 5.0 3.5 1.6 0.6 Iris-setosa szerokość płatka (petal width) max
8 4.9 2.4 3.3 1.0 Iris-versicolor długość kielicha (sepal length) min
9 7.0 3.2 4.7 1.4 Iris-versicolor długość kielicha (sepal length) max
10 5.0 2.0 3.5 1.0 Iris-versicolor szerokość kielicha (sepal width) min
11 6.0 3.4 4.5 1.6 Iris-versicolor szerokość kielicha (sepal width) max
12 5.1 2.5 3.0 1.1 Iris-versicolor długość płatka (petal length) min
13 6.0 2.7 5.1 1.6 Iris-versicolor długość płatka (petal length) max
14 4.9 2.4 3.3 1.0 Iris-versicolor szerokość płatka (petal width) min
15 5.9 3.2 4.8 1.8 Iris-versicolor szerokość płatka (petal width) max
16 4.9 2.5 4.5 1.7 Iris-virginica długość kielicha (sepal length) min
17 7.9 3.8 6.4 2.0 Iris-virginica długość kielicha (sepal length) max
18 6.0 2.2 5.0 1.5 Iris-virginica szerokość kielicha (sepal width) min
19 7.7 3.8 6.7 2.2 Iris-virginica szerokość kielicha (sepal width) max
20 4.9 2.5 4.5 1.7 Iris-virginica długość płatka (petal length) min
21 7.7 2.6 6.9 2.3 Iris-virginica długość płatka (petal length) max
22 6.1 2.6 5.6 1.4 Iris-virginica szerokość płatka (petal width) min
23 6.3 3.3 6.0 2.5 Iris-virginica szerokość płatka (petal width) max

Analiza rekordów z ekstremalnymi wartościami cech dla każdego rodzaju Irysów¶

  • Irys Setosa:
    Długość Kielicha (4.3 – 5.8), Szerokość Kielicha (2.3 – 4.4), Długość Płatka (1.0 – 1.9), Szerokość Płatka (0.1 – 0.6)

  • Irys Versicolor:
    Długość Kielicha (4.9 – 7.0), Szerokość Kielicha (2.0 – 3.4), Długość Płatka (3.0 – 5.1), Szerokość Płatka (1.0 – 1.8)

  • Irys Virginica:
    Długość Kielicha (4.9 – 7.9), Szerokość Kielicha (2.2 – 3.8), Długość Płatka (4.5 – 6.9), Szerokość Płatka (1.4 – 2.5)

długość kielicha (sepal length) szerokość kielicha (sepal width) długość płatka (petal length) szerokość płatka (petal width) klasa (class)
34 4.9 3.1 1.5 0.1 Iris-setosa
37 4.9 3.1 1.5 0.1 Iris-setosa
142 5.8 2.7 5.1 1.9 Iris-virginica

☝ Posiadamy 3 duplikaty w naszym zbiorze, jednak uważam, że nie będą miały one wpływu na naszą analizę¶

2. Analiza brakujących danych¶

długość kielicha (sepal length)     0
szerokość kielicha (sepal width)    0
długość płatka (petal length)       0
szerokość płatka (petal width)      0
klasa (class)                       0
dtype: int64

Nasze dane są w 100% kompletne.¶

3. Analiza poszczególnych zmiennych¶

No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image
No description has been provided for this image

Podsumowanie¶

Jak widzimy na histogramach Irys Setosa jest najmniejszym z analizowanych gatunków choć szerokość kielicha zdaje się być większą niż u pozostałych, za to korona kwiatu jest kilkukrotnie mniejsza od pozostałych zwłaszcza od Irys Virginica, który jest najwiekszym oraz najwyższym z analizowanych gatunków. Warto pamiętać też o toksyczności Irydyny w kwiacie Irys Virginica.

Wnioski:

  • Irys Setosa potrzebuje mniej obszaru podczas hodowli co przekłada się na możliwość sadzenia większej ilości kwiatów w jednym czasie. Opowiedni do sadzenia w domu.
  • Irys Versicolor ma średniej wielkości kwiat. Należy hodować z dala od dzieci ponieważ jest trujący.
  • Irys Virginica to kwiat największy z wymienionych co zmniejsza ilość hodowanych kwiatów w tym samym czasie, co może przekładać się na cenę sprzedaży.

4. Transformacja / naprawa danych¶

Pomijamy ten etap, ponieważ posiadamy pełne potrzebne infromacje na temat kwiatów.¶

5. Relacje między kolumnami¶

No description has been provided for this image
No description has been provided for this image
No description has been provided for this image

Podsumowanie¶

Jak możemy zaobserwować na macierzy korelacji wraz z długością płatka rośnie długość kielicha i im szerszy płatek tym szerszy kielich. Nieco odmiennie zachowuje się Irys Setosa, gdzie na pierwszy plan wybija się mocniejsza korelacja szerokości kielicha z jego długością. Tak jak pisałem we wcześniejszych wnioskach szerokość i długość płatka mają wpływ na dostosowanie odpowiednio warunków hodowli dla każdego z wymienionych gatunków.

6. Poszukiwanie wartości odstających¶

No description has been provided for this image

Możemy zauważyć, że długość kielicha w miarę równomiernie rozkłada się wokół mediany.

No description has been provided for this image

Tutaj możemy zauważyć kilku outsiderów. Jeden znacząco mniejszy niż reszta, co może być spowodowane małą przestrzenią do rozrostu oraz kilku wychodzących ponad skalę być może przez nieco inne warunki hodowli.

No description has been provided for this image

Tutaj nasza mediana jest na górze boxa, co znaczy że większość kwiatów ma stosunkowo dłuższe płatki. Jest to zapewne spowodowane tym, że tylko Irys Setosa ma płatki wyraźnie mniejsze a stanowią one tylko 1/3 wszystkich kwiatów. Potwierdza się, że jest to czynnik wyraźnie klasyfikujący ten gatunek Irysów.

No description has been provided for this image

Podobnie jak na poprzednim wykresie mediana znajduje się w górnej części pudełka, zapewne z tych samych co poprzednio przyczyn. Płatki Irysa Setosa są wyraźnie węższe od pozostałych gatunków co było widać dokładnie na histogramach, które prezentowały międzygatunkowe porównanie poszczególnych parametrów.

No description has been provided for this image

Jak możemy zauważyć mamy wartość odstającą w Irysie Virginica. Może być to błąd przy pomiarach bądź może mieć wpływ na to hodowla i nie wystarczająca ilość miejsca.

No description has been provided for this image

Tutaj również widzimy wartości odstające dla Irys Virginica.

No description has been provided for this image

Iris Setosa ma najkrótszą długość płatka oraz najbardziej ściśnięty wykres. Wszystkie wartości skumulowane wokół średniej. Dlatego że wykres ten jest bardzo ściaśnięty, pojawia nam się kilka wartości odstających, aczkolwiek wydaje mi się, że nie są one aż tak znaczące. Pozostałe wykresy, nie są tak ściśnięte, ale średnio zachowują równy rozkład oraz przeważnie skupione są wokół średniej.

No description has been provided for this image

Irys Setosa ma najmniejszą szerokość płatka i kilka wartości odstających. Większa część pomiarów skupia się przy 1 kwartylu. Irys Versicolor posiada większy rozrzut wartości szerokości płatka niż poprzedni gatunek tak jak również Irys Virginica który jest kilkakrotnie większy niż Irys Setosa.

Zobaczmy to na łączonych wykresach:¶

No description has been provided for this image

PODSUMOWANIE I WNIOSKI KOŃCOWE¶

  1. Dane są kompletne i czyste
    Zbiór nie zawiera brakujących wartości ani błędów typowych dla danych rzeczywistych. Jest gotowy do analizy i eksperymentów z klasyfikacją.

  2. Cechy płatków mają najwyższe znaczenie w rozróżnianiu klas
    Długość i szerokość płatków wyraźnie różnicują gatunki irysów, szczególnie oddzielając Iris Setosa od pozostałych.

  3. Widoczne są korelacje między cechami płatków
    Dodatnia korelacja między długością a szerokością płatka wskazuje, że cechy te nie tylko są istotne osobno, ale również wzmacniają się nawzajem.

  4. Wartości odstające występują, lecz są naturalne dla zbioru
    Obserwowane outliery odzwierciedlają naturalną zmienność biologiczną w obrębie gatunków. Nie są to błędy danych i nie zakłócają rozkładu, dlatego nie wymagają eliminacji.