O Danych¶
Dane o pasażerach Titanica
Zbiór danych zawiera informacje o pasażerach RMS Titanic, który zatonął 15 kwietnia 1912 roku po zderzeniu z górą lodową. Dane obejmują takie atrybuty jak klasa podróży, wiek, płeć, liczba rodzeństwa/małżonków na pokładzie, liczba rodziców/dzieci na pokładzie, cena biletu oraz miejsce zaokrętowania.
Zbiór zawiera także informację o tym, czy pasażer przeżył katastrofę.
Titanic przewoził ponad 2,200 osób, z czego ponad 1,500 zginęło, co czyni tę katastrofę jedną z najbardziej tragicznych w historii morskiej.
Kolumny:
- pclass - Klasa biletu
- survived - Czy pasażer przeżył katastrofę
- name - Imię i nazwisko pasażera
- sex - Płeć pasażera
- age - Wiek pasażera
- sibsp - Liczba rodzeństwa/małżonków na pokładzie
- parch - Liczba rodziców/dzieci na pokładzie
- ticket - Numer biletu
- fare - Cena biletu
- cabin - Numer kabiny
- embarked - Port, w którym pasażer wszedł na pokład (C = Cherbourg, Q = Queenstown, S = Southampton)
- boat - Numer łodzi ratunkowej
- body - Numer ciała (jeśli pasażer nie przeżył i ciało zostało odnalezione)
- home.dest - Miejsce docelowe
📊 Titanic: Eksploracyjna Analiza Danych (EDA)¶
Cel: Zbadanie czynników wpływających na przeżycie pasażerów RMS Titanic.
Źródło danych: Historyczna katastrofa morska z 1912 roku.

ETAP 1 - ogólny przegląd danych¶
| pclass | survived | name | sex | age | sibsp | parch | ticket | fare | cabin | embarked | boat | body | home.dest | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 1.0 | 1.0 | Allen, Miss. Elisabeth Walton | female | 29.0000 | 0.0 | 0.0 | 24160 | 211.3375 | B5 | S | 2 | NaN | St Louis, MO |
| 1 | 1.0 | 1.0 | Allison, Master. Hudson Trevor | male | 0.9167 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | 11 | NaN | Montreal, PQ / Chesterville, ON |
| 2 | 1.0 | 0.0 | Allison, Miss. Helen Loraine | female | 2.0000 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | NaN | NaN | Montreal, PQ / Chesterville, ON |
| 3 | 1.0 | 0.0 | Allison, Mr. Hudson Joshua Creighton | male | 30.0000 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | NaN | 135.0 | Montreal, PQ / Chesterville, ON |
| 4 | 1.0 | 0.0 | Allison, Mrs. Hudson J C (Bessie Waldo Daniels) | female | 25.0000 | 1.0 | 2.0 | 113781 | 151.5500 | C22 C26 | S | NaN | NaN | Montreal, PQ / Chesterville, ON |
| ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
| 1305 | 3.0 | 0.0 | Zabour, Miss. Thamine | female | NaN | 1.0 | 0.0 | 2665 | 14.4542 | NaN | C | NaN | NaN | NaN |
| 1306 | 3.0 | 0.0 | Zakarian, Mr. Mapriededer | male | 26.5000 | 0.0 | 0.0 | 2656 | 7.2250 | NaN | C | NaN | 304.0 | NaN |
| 1307 | 3.0 | 0.0 | Zakarian, Mr. Ortin | male | 27.0000 | 0.0 | 0.0 | 2670 | 7.2250 | NaN | C | NaN | NaN | NaN |
| 1308 | 3.0 | 0.0 | Zimmerman, Mr. Leo | male | 29.0000 | 0.0 | 0.0 | 315082 | 7.8750 | NaN | S | NaN | NaN | NaN |
| 1309 | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN | NaN |
1310 rows × 14 columns
Rozmiar danych: (1310, 14)
Typy danych: pclass float64 survived float64 name object sex object age float64 sibsp float64 parch float64 ticket object fare float64 cabin object embarked object boat object body float64 home.dest object dtype: object
| pclass | survived | name | sex | age | sibsp | parch | ticket | fare | cabin | embarked | boat | body | home.dest | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| count | 1309.000000 | 1309.000000 | 1309 | 1309 | 1046.000000 | 1309.000000 | 1309.000000 | 1309 | 1308.000000 | 295 | 1307 | 486 | 121.000000 | 745 |
| unique | NaN | NaN | 1307 | 2 | NaN | NaN | NaN | 929 | NaN | 186 | 3 | 27 | NaN | 369 |
| top | NaN | NaN | Connolly, Miss. Kate | male | NaN | NaN | NaN | CA. 2343 | NaN | C23 C25 C27 | S | 13 | NaN | New York, NY |
| freq | NaN | NaN | 2 | 843 | NaN | NaN | NaN | 11 | NaN | 6 | 914 | 39 | NaN | 64 |
| mean | 2.294882 | 0.381971 | NaN | NaN | 29.881135 | 0.498854 | 0.385027 | NaN | 33.295479 | NaN | NaN | NaN | 160.809917 | NaN |
| std | 0.837836 | 0.486055 | NaN | NaN | 14.413500 | 1.041658 | 0.865560 | NaN | 51.758668 | NaN | NaN | NaN | 97.696922 | NaN |
| min | 1.000000 | 0.000000 | NaN | NaN | 0.166700 | 0.000000 | 0.000000 | NaN | 0.000000 | NaN | NaN | NaN | 1.000000 | NaN |
| 25% | 2.000000 | 0.000000 | NaN | NaN | 21.000000 | 0.000000 | 0.000000 | NaN | 7.895800 | NaN | NaN | NaN | 72.000000 | NaN |
| 50% | 3.000000 | 0.000000 | NaN | NaN | 28.000000 | 0.000000 | 0.000000 | NaN | 14.454200 | NaN | NaN | NaN | 155.000000 | NaN |
| 75% | 3.000000 | 1.000000 | NaN | NaN | 39.000000 | 1.000000 | 0.000000 | NaN | 31.275000 | NaN | NaN | NaN | 256.000000 | NaN |
| max | 3.000000 | 1.000000 | NaN | NaN | 80.000000 | 8.000000 | 9.000000 | NaN | 512.329200 | NaN | NaN | NaN | 328.000000 | NaN |
Wnioski wstępne:¶
Rozmiar danych:
- Zbiór danych zawiera 1310 wierszy (rekordów pasażerów) oraz 14 kolumn (zmiennych opisujących cechy każdego pasażera).
Typy danych:
- Dane obejmują zarówno zmienne liczbowe (
float64– np.age,fare,sibsp,parch), jak i kategoryczne/tekstowe (object– np.sex,embarked,cabin,name). - Zmienna
survivedma typ liczbowy (float64), ale pełni funkcję zmiennej binarnej:1= przeżył,0= nie przeżył.
- Dane obejmują zarówno zmienne liczbowe (
Statystyki opisowe:
- Średni wiek pasażera: ~29.9 lat, z przedziału 0.17 do 80 lat.
- Średnia liczba rodzeństwa/małżonków (
sibsp) to 0.5, a liczba rodziców/dzieci (parch) to ~0.4 – sugeruje, że większość pasażerów podróżowała samotnie. - Średnia cena biletu (
fare) to ~33.30, ale wartości maksymalne przekraczają 512 jednostek – co świadczy o mocnej skośności rozkładu. - Kolumny tekstowe (
name,ticket,cabin) mają dużą różnorodność wpisów – np.cabinzawiera aż 186 unikalnych oznaczeń.
📌 Podsumowanie: Zbiór danych jest bogaty i różnorodny. Zawiera wartości liczbowe i kategoryczne, które potencjalnie wpływają na szanse przeżycia pasażerów. Już na tym etapie można przypuszczać, że wiek, klasa biletu, cena oraz płeć mogą odgrywać istotną rolę w przetrwaniu katastrofy.
ETAP 2 – Brakujące Wartości¶
pclass 1 survived 1 name 1 sex 1 age 264 sibsp 1 parch 1 ticket 1 fare 2 cabin 1015 embarked 3 boat 824 body 1189 home.dest 565 dtype: int64
Tabela brakujących wartości w zbiorze danych Titanic:
| Liczba braków | Procent braków (%) | |
|---|---|---|
| body | 1189 | 90.76 |
| cabin | 1015 | 77.48 |
| boat | 824 | 62.90 |
| home.dest | 565 | 43.13 |
| age | 264 | 20.15 |
| embarked | 3 | 0.23 |
| fare | 2 | 0.15 |
| pclass | 1 | 0.08 |
| survived | 1 | 0.08 |
| name | 1 | 0.08 |
| sex | 1 | 0.08 |
| sibsp | 1 | 0.08 |
| parch | 1 | 0.08 |
| ticket | 1 | 0.08 |
Wnioski – Analiza brakujących wartości:¶
Zakres braków:
- W zbiorze danych Titanic występują znaczące braki w kilku kluczowych kolumnach.
- Najwięcej braków jest w kolumnach:
body– brak numerów ciał dla ponad 90% pasażerów - może być mało użyteczne (brak numeru ciała nie musi wpływać na przeżycie) → rozważę usunięcie.cabin– brak przypisanej kabiny dla 77% pasażerów - bardzo dużo braków, ale "posiadanie kabiny" może mieć wpływ na przeżycie → rozważę stworzenie cechy "czy posiadał kabinę".boat– brak numeru łodzi ratunkowej dla 63% pasażerów - dla analizy przeżycia istotne.home.dest– brak miejsca docelowego dla 43% pasażerów - mało istotne dla przeżycia → możliwe pominięcie w modelu.
- W zmiennej
age(wiek) brakuje danych dla około 20% rekordów – istotne, ponieważ wiek może wpływać na przeżycie. - Minimalne braki występują również w
embarked,fareoraz kilku pojedynczych wartościach w podstawowych kolumnach (pclass,sex,sibsp,parch,ticket,name) - dane łatwe do uzupełnienia.
Wizualizacja braków:
- Mapa braków pokazała, że braki są silnie skoncentrowane w kolumnach
body,cabin,boatihome.dest. - Wykres procentowy wyraźnie uwidocznił dominację tych zmiennych w liczbie braków.
- Mapa braków pokazała, że braki są silnie skoncentrowane w kolumnach
Wnioski praktyczne:
- Kolumny z bardzo dużą liczbą braków (
body,cabin,boat) mogą być trudne do pełnego wykorzystania bez zaawansowanego uzupełnienia. - Kolumny z niewielką liczbą braków (
embarked,fare,age) należy uzupełnić — np. medianą lub najczęściej występującą wartością.
- Kolumny z bardzo dużą liczbą braków (
📌 Podsumowanie:
Analiza braków wskazuje, które zmienne są kompletne i gotowe do użycia, a które wymagają uzupełnienia lub specjalnego traktowania.
W kolejnych etapach przygotowania danych konieczne będzie uzupełnienie brakujących wartości w kluczowych kolumnach.
ETAP 3 – Analiza poszczególnych kolumn¶
Analiza poszczególnych kolumn to wspaniała okazja aby dowiedzieć się kim byli pasażerowie Titanic'a: jakiej byli płci, którą klasą podróżowali, ile zapłacili za bilet, w jakim byli wieku, jakie stanowili grupy wiekowe i ilu udało się przeżyć katastrofę...
Klasa biletów procentowo:
| Liczba pasażerów | Udział (%) | |
|---|---|---|
| 3.0 | 709 | 54.12 |
| 1.0 | 323 | 24.66 |
| 2.0 | 277 | 21.15 |
Wnioski:¶
Rozkład klas:
- W analizie uwzględniono trzy klasy biletu:
1,2i3. - Na wykresie słupkowym widoczna jest wyraźna dominacja klasy 3, czyli najtańszej.
- W analizie uwzględniono trzy klasy biletu:
Statystyka ilościowa i procentowa:
- 3. klasa – najliczniejsza grupa, stanowili ponad 54% pasażerów.
- 1. klasa – około 25% pasażerów.
- 2. klasa – około 21%.
- Oznacza to, że większość pasażerów podróżowała w najtańszej klasie, prawdopodobnie o niższym statusie społecznym.
Wnioski praktyczne:
- Klasa biletu może być jednym z kluczowych czynników wpływających na przeżycie – pasażerowie klasy 1 mieli lepszy dostęp do łodzi ratunkowych.
- Wysoki udział klasy 3 sugeruje, że potencjalnie największe straty w katastrofie mogły wystąpić właśnie w tej grupie.
- Różnice klas mogą też być powiązane z innymi cechami jak: płeć, wiek, miejsce zaokrętowania.
📌 Podsumowanie:
Zmienna pclass odzwierciedla wyraźne podziały społeczne wśród pasażerów Titanica.
Najwięcej osób podróżowało w klasie 3, co może wpływać na przeżywalność – dlatego zmienna ta powinna być szczegółowo analizowana w kolejnych etapach.
Cena biletów:
| fare | |
|---|---|
| count | 1308.000000 |
| mean | 33.295479 |
| std | 51.758668 |
| min | 0.000000 |
| 25% | 7.895800 |
| 50% | 14.454200 |
| 75% | 31.275000 |
| max | 512.329200 |
Wnioski:¶
- Rozkład ceny biletu:
- Rozkład zmiennej
farejest wyraźnie asymetryczny i silnie prawoskośny – większość pasażerów zapłaciła stosunkowo niską cenę, ale występują pojedyncze, ekstremalnie wysokie wartości. - Występują bilety nawet o wartości 0, co może oznaczać załogę, dzieci, osoby towarzyszące lub błędy w danych.
- Statystyka opisowa (wartości charakterystyczne):
| Statystyka | Wartość |
|---|---|
| Liczba obserwacji | 1308 |
| Średnia | ~33.30 |
| Mediana (50%) | ~14.45 |
| Maksimum | 512.33 |
| Minimum | 0.00 |
| Odchylenie standardowe | ~51.76 |
- Mediana ceny biletu (14.45) jest znacznie niższa niż średnia – potwierdza to wpływ ekstremalnie drogich biletów na ogólny rozkład.
- Wysoka wartość maksymalna (ponad 512 jednostek) dotyczy prawdopodobnie bogatych pasażerów 1 klasy, podróżujących luksusowo lub w grupach rodzinnych.
- Wnioski praktyczne:
- Zmienna
faremoże zawierać ważną informację o statusie społecznym pasażera – wyższe ceny są związane z wyższą klasą (pclass = 1) i potencjalnie większymi szansami przeżycia. - Ze względu na silną skośność rozkładu, w dalszym modelowaniu może być wskazane wykonanie kategoryzacji cen (np.
niska,średnia,wysoka). - Warto również sprawdzić zależność ceny biletu od miejsca zaokrętowania (
embarked) oraz powiązania z wiekiem i płcią.
📌 Podsumowanie:
Cena biletu (fare) to jedna z najbardziej zróżnicowanych zmiennych w zbiorze danych Titanica.
Z jednej strony opisuje zdolności finansowe pasażera, z drugiej – potencjalny dostęp do środków ratunkowych (np. kabiny, łodzie).
Zmienna ta niesie więc ważną wartość informacyjną i powinna być ujęta w dalszych analizach.
Płeć:
| Liczba pasażerów | Udział (%) | |
|---|---|---|
| male | 843 | 64.35 |
| female | 466 | 35.57 |
Wnioski:¶
Rozkład płci:
- W zbiorze danych pasażerów Titanica występują dwie kategorie płci:
male(mężczyzna) ifemale(kobieta). - Na wykresie słupkowym widać wyraźną dominację mężczyzn wśród pasażerów.
- W zbiorze danych pasażerów Titanica występują dwie kategorie płci:
Statystyka ilościowa i procentowa:
- Mężczyźni stanowili około 64% wszystkich pasażerów.
- Kobiety – tylko około 36%.
- Oznacza to, że na pokładzie było prawie dwukrotnie więcej mężczyzn niż kobiet.
Wnioski praktyczne:
- Wysoka przewaga liczebna mężczyzn może mieć wpływ na przeżywalność gdyby Titanic stosował zasadę „kobiety i dzieci najpierw”.
- Analiza płci powinna zostać uwzględniona jako kluczowy czynnik w dalszych etapach analizy.
- Istotne będzie zbadanie przeżywalności w grupach:
mężczyzna vs kobieta, szczególnie w połączeniu z klasą biletu i wiekiem.
📌 Podsumowanie:
Zmienna sex jest silnie niezrównoważona – mężczyzn było znacząco więcej niż kobiet.
Ten fakt może mieć bezpośredni wpływ na wyniki analizy przeżycia i należy go uwzględnić jako jeden z najważniejszych czynników w dalszej eksploracji danych.
Wnioski:¶
Rozkład wieku:
- Wiek pasażerów ma rozpływający się rozkład ciągły, z zauważalną koncentracją w zakresie 20–40 lat.
- Występują pasażerowie w każdym wieku – od niemowląt (wiek ~0.17) aż po osoby starsze (do 80 lat).
Dominujące grupy wiekowe:
- Największą grupę stanowią dorośli w wieku produkcyjnym, co odzwierciedla typową strukturę społeczną w podróżach transatlantyckich w tamtym okresie.
- Mniejszy udział mają dzieci (<12 lat) oraz osoby starsze (60+), choć ich obecność również jest zauważalna.
Rozkład i wnioski analityczne:
- Rozkład jest względnie ciągły i niesymetryczny – z lekkim przesunięciem w kierunku młodszych grup wiekowych.
- Taki rozkład sprzyja kategoryzacji wieku (np.
dziecko,dorosły,senior) w celu uproszczenia dalszej analizy i porównań międzygrupowych.
📌 Podsumowanie:
Zmienna age wnosi istotną wartość informacyjną do analizy pasażerów.
Struktura wieku pasażerów pokazuje, że Titanic przewoził głównie osoby dorosłe, ale obecne były również dzieci i seniorzy.
W kolejnych etapach warto wykorzystać wiek jako zmienną ciągłą oraz skategoryzowaną (age_group) – szczególnie w analizie przeżywalności.
Ilość pasażerów posiadających rodzeństwo/małżonków na pokładzie:
| Liczba pasażerów | Udział (%) | |
|---|---|---|
| 0.0 | 891 | 68.02 |
| 1.0 | 319 | 24.35 |
| 2.0 | 42 | 3.21 |
| 4.0 | 22 | 1.68 |
| 3.0 | 20 | 1.53 |
| 8.0 | 9 | 0.69 |
| 5.0 | 6 | 0.46 |
Ilość pasażerów posiadających rodziców/dzieci na pokładzie:
| Liczba pasażerów | Udział (%) | |
|---|---|---|
| 0.0 | 1002 | 76.49 |
| 1.0 | 170 | 12.98 |
| 2.0 | 113 | 8.63 |
| 3.0 | 8 | 0.61 |
| 4.0 | 6 | 0.46 |
| 5.0 | 6 | 0.46 |
| 6.0 | 2 | 0.15 |
| 9.0 | 2 | 0.15 |
Wnioski:¶
1. sibsp – Liczba rodzeństwa/małżonków na pokładzie:¶
- Wartości zmiennej
sibspwskazują, ile rodzeństwa lub małżonków dany pasażer miał ze sobą na pokładzie. - Na wykresie słupkowym widać, że większość pasażerów (ok. 68%) podróżowała samotnie – wartość
sibsp = 0. - Około 24% pasażerów podróżowało z jedną osobą towarzyszącą (rodzeństwo lub małżonek).
- Tylko nieliczni pasażerowie podróżowali z większą liczbą bliskich – występują też ekstremalne przypadki (np. 5 lub 8 towarzyszy).
2. parch – Liczba rodziców/dzieci na pokładzie:¶
- Zmienna
parchpokazuje, ile rodziców lub dzieci znajdowało się z pasażerem na pokładzie. - Aż 76% pasażerów nie miało ze sobą żadnego rodzica ani dziecka (
parch = 0). - Kolejne grupy (z 1–2 osobami) są już zdecydowanie mniejsze – tylko ok. 13% miało jednego rodzica/dziecko, a 8.6% miało dwoje.
- Występują także bardzo rzadkie przypadki pasażerów z 3–9 krewnymi.
Wnioski praktyczne:¶
- Większość pasażerów podróżowała samotnie lub z maksymalnie jednym członkiem rodziny.
- Można założyć, że obecność rodziny mogła wpływać pozytywnie na szanse przeżycia – pasażerowie w towarzystwie mogli być wspólnie ratowani, szybciej odnalezieni lub wcześniej wzywani do łodzi.
- Zmienna
sibspiparchmoże być szczególnie użyteczna w analizie przeżycia – np. jako podstawa do stworzenia nowej cechyfamily_sizelub kategoryzacji (samotny,mała rodzina,duża rodzina).
📌 Podsumowanie:
Zmienne sibsp i parch dostarczają cennych informacji o strukturze rodzinnej pasażerów.
Większość osób podróżowała bez bliskich krewnych, jednak ci, którzy mieli rodzinę, mogą wykazywać inne wzorce zachowań, szanse na przeżycie lub dostęp do zasobów w sytuacji kryzysowej.
Dlatego warto wykorzystać te zmienne zarówno w dalszej analizie.
Ilość pasażerów wsiadających na pokład w poszczególnych portach:
| Liczba pasażerów | Udział (%) | |
|---|---|---|
| S | 914 | 69.77 |
| C | 270 | 20.61 |
| Q | 123 | 9.39 |
Wnioski:¶
- Pełne nazwy portów zaokrętowania:
W zbiorze danych embarked przyjmuje trzy kody literowe, które odpowiadają następującym portom:
S– Southampton (Anglia)C– Cherbourg (Francja)Q– Queenstown (obecnie Cobh, Irlandia)
- Rozkład liczby pasażerów wg portu zaokrętowania:
- Zdecydowana większość pasażerów, około 70%, wsiadła na pokład w Southampton.
- Cherbourg był drugim najczęściej wybieranym portem – około 21% pasażerów.
- Najmniej pasażerów wsiadło w Queenstown – tylko 9%.
- Wnioski praktyczne:
- Zmienna
embarkedmoże wskazywać na różnice geograficzne i społeczne – warto połączyć ją z analizą klasy (pclass), ceny biletu (fare) i przeżycia (survived). - Może się okazać, że pasażerowie z jednego z portów mieli większe szanse na przeżycie – będzie to szczególnie istotne w dalszej analizie relacji między zmiennymi.
📌 Podsumowanie:
Zmiana kodów portów S, C, Q na ich pełne nazwy (Southampton, Cherbourg, Queenstown) poprawiłaby czytelność analizy.
Zmienna embarked pozwala lepiej zrozumieć kontekst geograficzny i społeczny pasażerów. Może być istotna w analizach warunków podróży i przeżywalności.
| Zmienna | Liczba unikalnych wartości | |
|---|---|---|
| 0 | ticket | 929 |
| 1 | cabin | 186 |
| 2 | boat | 27 |
| 3 | body | 121 |
| 4 | home.dest | 369 |
Wnioski – przegląd innych zmiennych:¶
Numer biletu (
ticket):- Występuje 929 unikalnych numerów biletów.
- Choć wielu pasażerów podróżowało wspólnie (np. rodziny), większość miała indywidualne bilety.
- Format biletów jest zróżnicowany – zawiera cyfry i litery, co może sugerować różne linie rezerwacyjne lub klasy.
Kabina (
cabin):- Zidentyfikowano 186 różnych oznaczeń kabin, ale zmienna zawiera bardzo dużo braków (brak dla 77% pasażerów).
- Przy dużej liczbie braków można rozważyć przekształcenie danych w cechę binarną typu:
czy posiadał kabinę (tak/nie).
Łódź ratunkowa (
boat):- Znaleziono 27 unikalnych oznaczeń łodzi ratunkowych.
- Zmienna ta zawiera informację tylko dla pasażerów, którzy przeżyli i zostali przypisani do konkretnej łodzi.
- Może być traktowana raczej jako zmienna pomocnicza, nie do modelowania przeżycia.
Numer ciała (
body):- Występuje 121 unikalnych identyfikatorów ciał – dotyczy tylko ofiar katastrofy, których ciała zostały odnalezione.
- Zmienna ta zawiera ponad 90% braków – sugeruje marginalne zastosowanie do analizy przeżycia.
Miejsce docelowe (
home.dest):- Pasażerowie deklarowali 369 różnych miejsc docelowych.
- Zmienna jest bardzo zróżnicowana i tekstowa – nie wydaje się być przydatna w dalszej analizie.
📌 Podsumowanie:
Zmienne tekstowe zawierają cenne, lecz często niekompletne informacje.
Dla celów eksploracyjnych warto przekształcić niektóre z nich w bardziej użyteczne formy (np. binarne zmienne: czy miał kabinę, czy odnaleziono ciało).
Zmienna ticket może być wykorzystana do tworzenia grup pasażerów, a home.dest może dać kontekst geograficzny, jeśli zostanie odpowiednio przetworzona.
📌 ETAP 3: Analiza poszczególnych kolumn - podsumowanie:¶
Analiza poszczególnych kolumn ujawniła duże różnice w strukturze pasażerów.
Szczególnie istotne zmienne to: płeć, wiek, klasa, port zaokrętowania, cena biletu oraz struktura rodziny.
Na podstawie tej analizy można już wyciągać pierwsze hipotezy nt. szans przeżycia, a także przygotować dane do dalszej obróbki.
ETAP 4 – Transformacja Danych¶
Celem tego etapu jest przygotowanie danych do dalszej analizy. Transformacja danych polegać będzie na uzupełnieniu braków i transformacji zmiennych. Dzięki temu zbiór będzie bardziej kompletny, spójny i gotowy do analizy relacji między poszczególnymi zmiennymi.
W tym etapie wykonamy następujące działania:
Uzupełnienie brakujących danych:
age(wiek) – uzupełnienie medianą w zależności od płci.fare(cena biletu) – uzupełnienie medianą.embarked(port) – uzupełnienie najczęściej występującą wartością.
Transformacje zmiennych:
- Stworzenie nowej kolumny
cabin_bool– informacja czy pasażer miał przypisaną kabinę. - Przekształcenie
agedo grup (age_group). - Zamiana liter w
embarkedna pełne nazwy portów.
- Stworzenie nowej kolumny
PREZENTACJA DANYCH PO TRANSFORMACJI I UZUPEŁNIENIU:
Ilość pasażerów wsiadających na pokład w poszczególnych portach:
| Liczba pasażerów | Udział (%) | |
|---|---|---|
| Southampton | 917 | 70.00 |
| Cherbourg | 270 | 20.61 |
| Queenstown | 123 | 9.39 |
Przedziały wiekowe:
| Liczba pasażerów | Udział (%) | |
|---|---|---|
| Dorosły 12 - 60 lat | 1179 | 90.00 |
| Dziecko < 12 lat | 91 | 6.95 |
| Senior > 60 lat | 40 | 3.05 |
Liczba braków po uzupełnieniu:
| Zmienna | Liczba braków | |
|---|---|---|
| 0 | age | 0 |
| 1 | fare | 0 |
| 2 | embarked | 0 |
Wnioski – ETAP 4: Transformacja danych¶
Uzupełniono brakujące dane:
- Port zaokrętowania (
embarked) został uzupełniony najczęściej występującym portem (Southampton). - Cena biletu (
fare) została uzupełniona medianą – dzięki temu uniknięto wypaczenia rozkładu przez wartości ekstremalne. - Wiek (
age) został uzupełniony medianą obliczoną w grupach:mężczyźniikobiety, co zapewnia większą trafność uzupełnień.
- Port zaokrętowania (
Zmieniono formaty i wzbogacono dane:
- Zmienna
embarkedzostała przekształcona – zamiast literowych kodów użyto pełnych nazw portów, co zwiększa czytelność. - Stworzono nową kolumnę
cabin_bool, która informuje, czy pasażer miał przypisaną kabinę – może to być ważny czynnik w analizie przeżywalności. - Wiek został zaklasyfikowany do grup:
Dziecko,Dorosły,Senior, co pozwala lepiej analizować różnice między grupami demograficznymi.
- Zmienna
📌 Podsumowanie:
Dane zostały przygotowane do dalszej analizy. Braki w kluczowych kolumnach zostały uzupełnione, a dane zostały wzbogacone o dodatkowe cechy, które mogą poprawić trafność przyszłych analiz.
ETAP 5 – Analiza zależności między zmiennymi¶
Celem tego etapu jest zbadanie, które cechy pasażerów miały istotny wpływ na ich szanse przeżycia katastrofy.
Analiza zależności pozwoli nam odkryć istotne wzorce i powiązania między zmiennymi objaśniającymi (np. wiek, płeć, klasa biletu) a zmienną docelową – survived.
Zbadamy m.in. zależność przeżywalności od:
- płci (
sex) - klasy (
pclass) - grupy wiekowej (
age_group) - portu zaokrętowania (
embarked) - posiadania kabiny (
cabin_bool) - liczby członków rodziny (
sibsp,parch)
Wnioski:¶
Płeć (
sex):- Kobiety miały znacząco większą szansę na przeżycie niż mężczyźni (~73% vs ~19%).
- Potwierdza się zasada "kobiety i dzieci pierwsze".
Klasa (
pclass):- Pasażerowie klasy 1 przeżyli znacznie częściej niż pasażerowie klasy 3 (~62% vs ~25%).
- Klasa biletu silnie koreluje z dostępem do ratunku.
Grupa wiekowa (
age_group):- Największą szansę miały dzieci, potem dorośli, najmniejszą – seniorzy.
Port zaokrętowania (
embarked):- Najwyższa przeżywalność była wśród pasażerów z Cherbourga (~55%), najniższa z Southampton (~33%).
Posiadanie kabiny (
cabin_bool):- Pasażerowie z przypisaną kabiną mieli ~65% szans przeżycia, bez kabiny tylko ~30%.
Rodzina na pokładzie (
sibsp,parch):- Najlepsze wyniki miały osoby podróżujące z 1–2 członkami rodziny.
- Podróżowanie samotnie lub z bardzo dużą rodziną obniżało szanse przeżycia.
📌 Podsumowanie:
Zależność między zmiennymi a przeżyciem jest wyraźna – czynniki takie jak płeć, klasa biletu, wiek oraz struktura rodziny znacząco wpływały na los pasażerów.
Analiza pokazała, że przeżywalność nie była przypadkowa – a silnie związana z uwarunkowaniami społecznymi, logistycznymi i demograficznymi.
W kolejnym kroku możemy przejść do analizy wartości odstających i przygotowania danych do modelowania.
📉 ETAP 6 – Analiza wartości odstających¶
Celem tego etapu jest identyfikacja wartości odstających (outliers), które mogą znacząco wpływać na analizę i modelowanie.
Wartości odstające to dane, które znacząco odbiegają od reszty obserwacji – mogą być błędami pomiaru, przypadkami ekstremalnymi lub rzeczywistymi wyjątkami.
W analizie skupimy się na dwóch kluczowych zmiennych numerycznych:
age– wiek pasażerafare– cena biletu
Do wykrywania odstających wartości wykorzystamy boxploty, które pozwalają łatwo zidentyfikować wartości wykraczające poza zakres (IQR ± 1.5×IQR).
Liczba ekstremalnych przypadków wiekowych (99. percentyl): 13 Liczba ekstremalnie wysokich cen biletów (99. percentyl): 10
📊 Wnioski – ETAP 6: Analiza wartości odstających¶
Wiek (
age):- Rozkład wieku jest relatywnie równomierny, ale kilka przypadków znacznie przekracza górny kwartyl (70+ lat).
- Wartości powyżej 65–70 lat można uznać za odstające – są to najstarsi pasażerowie (np. 74–80 lat).
Cena biletu (
fare):- Rozkład ceny biletu jest silnie skośny – większość biletów mieści się poniżej 100 jednostek.
- Występują bardzo wysokie ceny biletów (ponad 500), przypisane do pasażerów klasy 1 podróżujących luksusowo.
- Bilety powyżej 300 jednostek stanowią tylko 1% obserwacji, ale znacząco wpływają na średnią.
Wnioski praktyczne:
- Wartości odstające nie muszą być błędami – w tym przypadku reprezentują realnych pasażerów (bogatych lub starszych).
- W dalszej analizie warto:
- zastosować transformacje (np. logarytmiczną dla
fare), - rozważyć wykluczenie ekstremalnych przypadków przy modelowaniu regresyjnym lub klasyfikacyjnym.
- zastosować transformacje (np. logarytmiczną dla
📌 Podsumowanie:
Wartości odstające w zmiennych age i fare są realne, ale znaczące – mogą wpływać na rozkład, średnią i wyniki modeli predykcyjnych.
Zalecane jest ich dalsze monitorowanie i przetwarzanie – niekoniecznie usuwanie, ale odpowiednie traktowanie (np. transformacja, kategoryzacja).
🧠 Wnioski końcowe – Eksploracyjna Analiza Danych (EDA) Titanic¶
Analiza EDA pozwoliła na głębokie zrozumienie struktury danych dotyczących pasażerów Titanica. Dzięki systematycznemu podejściu zidentyfikowano najważniejsze cechy wpływające na przeżycie oraz przygotowano dane do dalszych etapów modelowania.
🔍 Najważniejsze obserwacje:¶
Rozkład i braki w danych:
- Dane zawierają 1310 rekordów i 14 kolumn.
- Najwięcej braków występowało w kolumnach:
age,fare,embarked,cabin,body,boat. - Braki w
age,fareiembarkedzostały uzupełnione na podstawie mediany lub najczęstszej wartości.
Demografia pasażerów:
- Większość pasażerów to mężczyźni (64%) i osoby dorosłe w wieku 20–40 lat.
- Najwięcej pasażerów pochodziło z Southampton i podróżowało w 3 klasie.
Struktura rodzinna:
- Większość pasażerów podróżowała samotnie.
- Pasażerowie podróżujący z 1–2 członkami rodziny mieli wyższą przeżywalność.
Cena biletu i kabina:
- Ceny biletów były bardzo zróżnicowane (od 0 do ponad 500 jednostek), z rozkładem mocno prawoskośnym.
- Posiadanie kabiny silnie wiązało się z wyższą szansą na przeżycie.
Zależności od przeżycia:
- Największy wpływ na przeżycie miały:
- płeć (kobiety przeżywały znacznie częściej),
- klasa biletu (pasażerowie 1 klasy przeżywali częściej),
- wiek (dzieci miały wyższą przeżywalność),
- port zaokrętowania (największy odsetek ocalałych z Cherbourga).
- Największy wpływ na przeżycie miały:
Wartości odstające:
- Zidentyfikowano nieliczne, ale istotne wartości odstające w wieku (seniorzy powyżej 70 lat) i cenie biletu (luksusowe bilety powyżej 300 jednostek).
- Wartości te należy rozważyć przy transformacjach lub kategoryzacji.
📌 Ogólna konkluzja:¶
Dane Titanic są bogate i wielowymiarowe – zawierają silne sygnały społeczne, logistyczne i demograficzne.
Przeżycie w katastrofie było silnie uwarunkowane cechami pasażera, takimi jak płeć, klasa, wiek, struktura rodziny czy miejsce wejścia na pokład.
Analiza EDA ujawniła konkretne wzorce, potwierdziła hipotezy historyczne i przygotowała dane do dalszego modelowania predykcyjnego.