Vícerozměrné statistické metody - detail zprávy #778
Souvislosti mezi stresem, neuroticismem a životním stylem
Milena Benešová, 22. 03. 2026
Data: Stress Detection Dataset., https://www.kaggle.com/datasets/swadeshi/stress-detection-dataset
V práci se vyskytuje: Cluster analýza
Udělená slovní hodnocení
- Použití shlukové analýzy je vhodné vzhledem k cíli práce a oceňuji kombinaci hierarchického přístupu a K-means metody. Interpretace jednotlivých shluků je srozumitelná a dobře popsaná. Pro vyšší kvalitu by bylo vhodné více zdůvodnit volbu počtu shluků a detailněji popsat standardizaci dat.
- Tuhle zprávu si představuju jako výukový materiál pro první cluster analýzu – je srozumitelná, dobře popsaná, vysvětluje pojmy (centroid, Wardova metoda, proč se standardizuje). Na to je výborná. Problém je jinde. Data jsou popsána jako „výzkum zaměřující se na stres a vybrané atributy" – nic víc. Žádná citace, žádný odkaz, nevím, kde se ten dataset vzal. A N=100 s 5 proměnnými pro shlukovou analýzu je na dolní hranici. Šum v datech může snadno vytvořit zdánlivé shluky, které v jiném vzorku neexistují. Taky mi chybí jakákoliv validace počtu shluků. Dendrogram je v textu, to jo, ale elbow křivka nebo siluetový koeficient by pomohly zdůvodnit, proč tři shluky a ne dva nebo čtyři.
- Kombinace hierarchické shlukové analýzy (Wardova metoda) a následného zpřesnění pomocí K-means je pro mě novým postupem, což je pro mě přínosné. Ze zprávy jsem pochopil logiku a využitelnost metody. Text je čtivý, s dobrými laickými vysvětleními pojmů, jako jsou centroid a K-means. Pojmenování shluků mi přijde vhodné. Naopak velmi nepřehledné jsou použité grafy. Graf shlukových profilů je bohužel prakticky nečitelný kvůli překrývajícím se popiskům na ose x. Osobně bych doplnil také informace o velikostech jednotlivých shluků.
- Velmi dobré je, že autor/ka nezkoumá jen vztahy, ale hledá strukturu dat. Dobré použití analýz. Místy na mne až příliš „popularizační“ styl. Slabší stránku vidím graf. zpracování a trochu "vytěžené" téma.