Vícerozměrné statistické metody - detail zprávy #750
Identifikace struktur rizikových faktorů diabetu pomocí PCA
Tereza Marková, 21. 03. 2026
Data: https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database
V práci se vyskytuje: EFA/PCA
Udělená slovní hodnocení
- Text se mi hůře četl, je hodně učebnicový. Dataset je jeden z nejpoužívanějších tutoriálových datasetů ve strojovém učení. Ano, původně to jsou reálná data od NIDDK, ale dnes je to spíš cvičná sada, kterou každý druhý Kaggle notebook rozebírá. Autor to nekomentuje vůbec – nepíše, odkud dataset pochází, v jaké populaci byl sbírán, ani proč zrovna tato data. Jako by je prostě vzal a analyzoval. Taky chybí jakákoli psychometrická relevance – tohle je čistě biomedicínská analýza, ne psychometrika. A drobnost: vyřazení poloviny respondentů kvůli chybějícím hodnotám je drastický krok, který může zásadně zkreslit výsledky, ale autor to odbude jednou větou.
- Zvolená metoda je správná, teoretická část i postup analýzy jsou dobře popsány. Interpretace výsledků je zrozumitelná. Tabulka je přehledná, všechny názvy proměnných by však mohly být uvedeny v češtině (tak jako je to v textu). Z grafu nevyplývá jasná koncentrace diabetických respondentek v pravém horním rohu. Skupiny se výrazně překrývají, takže interpretace je nadhodnocená. Grafická úprava textu je adekvátní a rozsah práce je splněn.
- Oceňuji snahu počet komponent nastavit dle vícero pravidel. Minus práce vidím v graf. zpracování (třeba že grafy nemají české pojmenování)
- Super práce, velmi dobře je zvládnutá samotná PCA i její technické provedení.