Vícerozměrné statistické metody - detail zprávy #736

Shluková analýza návyků studentů a jejich vztah k akademickému výkonu

Barbora Krylová, 18. 03. 2026

Data: Shahzad, M. K. (2024). Student Habits vs Academic Performance. Kaggle.

V práci se vyskytuje: Cluster analýza

Udělená slovní hodnocení

Didakticky pěkně pojaté. Prospělo by zkrácení.
Tady mám zásadní problém hned na začátku: autor explicitně píše, že dataset byl „uměle vytvořen tak, aby realisticky kopíroval skutečná data". Takže celá analýza stojí na simulovaných datech. A výsledky to potvrzují. Podívejme se na ANOVA v Tabulce 3: z osmi proměnných, na kterých je clustering postaven, je statisticky signifikantní pouze jedna – školní docházka . To znamená, že K-means vlastně rozdělil studenty primárně podle jedné proměnné, a ten zbytek je šum. Autor přesto interpretuje shluky, jako by měly smysluplné profily. Navíc: η² = 0,042 u vztahu shluků ke zkouškám. Autor to korektně označuje jako „malý účinek", ale pak stejně tvrdí, že „data potvrzují, že míra absence je důležitým faktorem" – což je nadinterpretace 4% vysvětleného rozptylu. Co mě taky zarazilo: metoda lokte je zmíněna, ale graf lokte není přiložen. Profilový graf shluků vizuálně ukazuje, že shluky 1 a 2 se ve většině proměnných prakticky překrývají. V diskusi je navíc překlep nebo logická chyba: „vyšší školní docházka může souviset s vyšší úspěšností u zkoušky (p > 0,05)" – pokud p > 0,05, tak to právě není signifikantní, ale autor to prezentuje, jako by to byl pozitivní nález. Takže ve finále ani není problém ta fiktivní data, jako faktické chyby při intepretaci metody.
Práce postrádá teoretický úvod, který by i u umělého datasetu mohl být přínosem (např. vysvětlit, co to je behaviorální profil). Shluková analýza byla vhodně zvolena pro tento typ dat a problému, její provedení je bez chyby.
Tady se autorka pustila do shlukové analýzy poctivě. Standardizace na z-skóry, metoda lokte pro určení k, K-means, centroidy v tabulce, euklidovské vzdálenosti mezi shluky, ANOVA s η², post-hoc Tukey. Jako checklist toho, co by shluková analýza měla obsahovat, je tohle skoro kompletní. Jenže pak se podívám na tabulku 3 s ANOVOU a vidím problém, který mě fakt zarazil. Z osmi vstupních proměnných je signifikantní JENOM školní docházka. Učení, sociální sítě, Netflix, spánek, strava, mentální zdraví, mimoškolní aktivity – všechno nesignifikantní. To znamená, že ty tři shluky se od sebe reálně liší jen v jedné proměnné. Celá ta vícerozměrná analýza na osmi proměnných vlastně skončila jako jednorozměrné třídění podle docházky. A autorka to vůbec nekomentuje! Tohle je promarněná příležitost – stačilo napsat jednu větu typu „výsledky naznačují, že shlukování je primárně poháněno jedinou proměnnou, což zpochybňuje potřebu vícerozměrného přístupu" a zpráva by získala úplně jinou hloubku. Taky η² = 0,042 – shluky vysvětlují 4,2 % variability ve zkouškovém skóre. To je malinký efekt. V diskusi je to ale prezentováno stylem „statistická významnost potvrzuje, že rozdíly v návycích mají mírný dopad" – jenže 4 % je spíš kosmetický dopad. A data jsou umělá, takže věcná interpretace (proč shluk 2 má lepší výsledky) je spekulativní. Co chybí: elbow plot (zmíněn, ale není v textu), silhouette index, a hlavně reflexe toho jednorozměrného problému.