Vícerozměrné statistické metody - detail zprávy #774
Rozdělení zemí na základě zdravotních, sociálních a ekonomických parametrů
Bára Kutějová, 22. 03. 2026
Data: https://www.kaggle.com/datasets/rohan0301/unsupervised-learning-on-country-data/data/discussion?select=data-dictionary.csv
V práci se vyskytuje: Cluster analýza
Udělená slovní hodnocení
- Práce splňuje základní požadavky, postup dává smysl, ale působí spíše jednodušeji a stručněji. Jako čtenář jsem měla pocit, že mi trochu uniká hlavní význam práce. Výstup působí poměrně obecně a chybí podrobnější interpretace, která by výsledky více zasadila do kontextu. Z hlediska didaktické hodnoty by pomohlo doplnit konkrétní příklady zemí v jednotlivých clusterech a více vysvětlit, co z daného rozdělení vyplývá. Pro čtenáře by pak bylo jasnější, jaký je hlavní záměr práce.
- Analýza je sice přehledná a postup dává základní smysl, ale jako čtenářka jsem měla pocit, že mi trochu uniká hlavní pointa práce. Výsledek působí poměrně očekávatelně (rozdělení zemí podle úrovně rozvoje) a chybí mi hlubší interpretace, co z toho vlastně vyplývá. Zároveň by podle mě pomohlo doplnit konkrétní příklady zemí v jednotlivých clusterech, aby byl výsledek názornější a lépe uchopitelný.
- Tady mám největší problém hned na začátku: „cvičná data zahrnující 167 zemí". Jaká cvičná data? Odkud? World Bank? UNDP? Kaggle? Někdo je vyrobil? Zdroj dat není nikde citován, není uvedený odkaz, nic. U všech ostatních zpráv vím, odkud data pocházejí – tady ne. A to je pro mě disqualifikační nedostatek, protože celá analýza stojí a padá s tím, co vlastně analyzuju. Samotný postup je korektní ve smyslu, že hierarchická analýza (Ward, euklidovská vzdálenost) → dendrogram → vizuální posouzení → K-means se 3 shluky je standardní pipeline. Z-standardizace je správná. Profilový graf centroidů je přehledný. Ale tím to končí. Chybí mi jakákoli validace počtu shluků – žádný silhouette index, gap statistic, elbow plot. Dendrogram s červenou čárou je subjektivní. Chybí ANOVA nebo jiný test, jestli se shluky v proměnných statisticky liší. Chybí seznam zemí v jednotlivých clusterech – takže nevím, jestli výsledky dávají věcný smysl. Je Česko ve shluku 2 nebo 3? Je Somálsko ve shluku 1? Bez téhle informace nemůžu posoudit, jestli shlukování odpovídá realitě. Interpretace je čistě deskriptivní: shluk 1 má vyšší úmrtnost, shluk 3 nižší. Dobře, ale to bych viděl i z prosté deskriptivní statistiky bez shlukové analýzy. Teoretický úvod je na druhou stranu slušný, 4 citace, zmínka o historické kontextualitě klasifikace zemí. Ale analytická sekce je nejtenčí z celé pětice.