Vícerozměrné statistické metody - detail zprávy #739

Determinanty studijních výsledků studentů

Barbora Kvochová, 19. 03. 2026

Data: https://www.kaggle.com/datasets/charlottebennett1234/lifestyle-factors-and-their-impact-on-students

V práci se vyskytuje: Lin. regrese

Udělená slovní hodnocení

Práce je moc hezky vizuálně i statisticky zpracovaná. Jen pár úplných drobností: není zde úplně ideálně a jednotně zapisovaná p-hodnota (ideálně: p < 0,001). "statisticky významný vliv má pouze doba učení" - v práci je zmíněno, že data odráží životní styl a nejedná se tedy o experiment, proto by bylo dobré se slovu vliv vyhnout. Každopádně velmi pěkná práce, vše důkladně vysvětleno, přehledné pro čtenáře. A vizuálně opravdu moc hezké.
Práce využívá vhodný regresní model a výsledky jsou prezentovány přehledně a srozumitelně. Analýza je však poměrně jednoduchá a postrádá hlubší metodické rozpracování. Didaktická úroveň je spíše na základní úrovni (názvy tabulek a grafů nejsou dle APA 7, zdroje by bylo vhodné dát na samostatnou stranu, tabulky a grafy tam vůbec nejsou uvedeny); zároveň nebyly z dokumentu odstraněny identifikační údaje autora, což bylo jednou z podmínek zadání.
Práce jasně ukazuje, které faktory ovlivňují studijní výsledky, používá vhodnou statistickou metodu (lineární regresi) a přehledně prezentuje, že jediným významným prediktorem je doba učení. Graficky i tabulkami je vztah dobře vysvětlen.
Rovnice modelu je explicitně zapsaná, proměnné jsou přehledně kategorizované na závislou, regresory a kovariáty (i když tady by se dalo diskutovat, jestli to dělení má smysl – všechno jsou prediktory). Ale pak přijde analytická část a tam mám dva problémy. První a zásadní: v tabulce 2 je uvedena „Waldova statistika". Jenže Waldova statistika patří k logistické regresi – testuje parametry přes poměr koeficient/SE s chí-kvadrát distribucí. U lineární regrese se používá t-statistika (nebo F u celkového modelu). Hodnota 27,825 u doby učení vypadá spíš jako t nebo √F, ne jako Wald. Tohle je terminologická chyba, která podkopává dojem, že autorka rozumí tomu, co počítá. Druhý problém: kompletně chybí diagnostika předpokladů. R² = 0,507 vypadá hezky, ale kde jsou reziduální grafy? Normalita reziduí? Homoskedasticita? VIF pro multikolinearitu? U lineární regrese se tohle učí jako základ a tady to není ani zmíněno. A nakonec – data jsou z Kaggle, uměle generovaná. R² = 0,50 na simulovaných datech neznamená nic, protože ten vztah tam autor datasetu prostě vložil. Nesignifikantní spánek a stres taky nelze interpretovat věcně – „tyto faktory nemají prokazatelný vliv" platí jen v rámci tohoto konkrétního umělého datasetu. Čekal bych taky graf reziduí nebo alespoň histogram, ne jen jeden scatter plot.