Vícerozměrné statistické metody - detail zprávy #736
Shluková analýza návyků studentů a jejich vztah k akademickému výkonu
Barbora Krylová, 18. 03. 2026
Data: Shahzad, M. K. (2024). Student Habits vs Academic Performance. Kaggle.
V práci se vyskytuje: Cluster analýza
Udělená slovní hodnocení
- Didakticky pěkně pojaté. Prospělo by zkrácení.
- Tady mám zásadní problém hned na začátku: autor explicitně píše, že dataset byl „uměle vytvořen tak, aby realisticky kopíroval skutečná data". Takže celá analýza stojí na simulovaných datech. A výsledky to potvrzují. Podívejme se na ANOVA v Tabulce 3: z osmi proměnných, na kterých je clustering postaven, je statisticky signifikantní pouze jedna – školní docházka . To znamená, že K-means vlastně rozdělil studenty primárně podle jedné proměnné, a ten zbytek je šum. Autor přesto interpretuje shluky, jako by měly smysluplné profily. Navíc: η² = 0,042 u vztahu shluků ke zkouškám. Autor to korektně označuje jako „malý účinek", ale pak stejně tvrdí, že „data potvrzují, že míra absence je důležitým faktorem" – což je nadinterpretace 4% vysvětleného rozptylu. Co mě taky zarazilo: metoda lokte je zmíněna, ale graf lokte není přiložen. Profilový graf shluků vizuálně ukazuje, že shluky 1 a 2 se ve většině proměnných prakticky překrývají. V diskusi je navíc překlep nebo logická chyba: „vyšší školní docházka může souviset s vyšší úspěšností u zkoušky (p > 0,05)" – pokud p > 0,05, tak to právě není signifikantní, ale autor to prezentuje, jako by to byl pozitivní nález. Takže ve finále ani není problém ta fiktivní data, jako faktické chyby při intepretaci metody.
- Práce postrádá teoretický úvod, který by i u umělého datasetu mohl být přínosem (např. vysvětlit, co to je behaviorální profil). Shluková analýza byla vhodně zvolena pro tento typ dat a problému, její provedení je bez chyby.
- Tady se autorka pustila do shlukové analýzy poctivě. Standardizace na z-skóry, metoda lokte pro určení k, K-means, centroidy v tabulce, euklidovské vzdálenosti mezi shluky, ANOVA s η², post-hoc Tukey. Jako checklist toho, co by shluková analýza měla obsahovat, je tohle skoro kompletní. Jenže pak se podívám na tabulku 3 s ANOVOU a vidím problém, který mě fakt zarazil. Z osmi vstupních proměnných je signifikantní JENOM školní docházka. Učení, sociální sítě, Netflix, spánek, strava, mentální zdraví, mimoškolní aktivity – všechno nesignifikantní. To znamená, že ty tři shluky se od sebe reálně liší jen v jedné proměnné. Celá ta vícerozměrná analýza na osmi proměnných vlastně skončila jako jednorozměrné třídění podle docházky. A autorka to vůbec nekomentuje! Tohle je promarněná příležitost – stačilo napsat jednu větu typu „výsledky naznačují, že shlukování je primárně poháněno jedinou proměnnou, což zpochybňuje potřebu vícerozměrného přístupu" a zpráva by získala úplně jinou hloubku. Taky η² = 0,042 – shluky vysvětlují 4,2 % variability ve zkouškovém skóre. To je malinký efekt. V diskusi je to ale prezentováno stylem „statistická významnost potvrzuje, že rozdíly v návycích mají mírný dopad" – jenže 4 % je spíš kosmetický dopad. A data jsou umělá, takže věcná interpretace (proč shluk 2 má lepší výsledky) je spekulativní. Co chybí: elbow plot (zmíněn, ale není v textu), silhouette index, a hlavně reflexe toho jednorozměrného problému.