Vícerozměrné statistické metody - detail zprávy #447
Segmentácia vín
Vanda Gomolčáková, 04. 03. 2025
Data: https://www.kaggle.com/datasets/harrywang/wine-dataset-for-clustering
V práci se vyskytuje: Cluster analýza
Udělená slovní hodnocení
- Práce využívá reálný a velmi známý dataset vín z UC Irvine repository, což je solidní základ. Výběr metody odpovídá cíli práce a je vysvětlen velmi srozumitelně. Kvalitně jsou zpracovány všechny kroky – od výběru proměnných přes samotnou klasifikaci až po interpretaci výsledků. Interpretace pěti klastrů je logická, kreativní, a zároveň propojená s praktickým využitím v oblasti enologie a marketingu vín. Prezentace výsledků je podpořena tabulkami a grafem, limity jsou implicitně reflektovány ve výběru proměnných a doporučení lze chápat jako směřování ke komerční aplikaci. Celkově se jedná o velmi precizně a přehledně zpracovanou analýzu.
- Přehledná zobrazení výsledků, dobré vysvětlení základů metody.
- V práci mi chybí teoretický úvod a ukotvení v aktuálních výzkumech. Práce z daty vypadá velmi propracovaně, nicméně z didaktického pohledu bych více vysvětlila tabulku a obrázek.
- Promyšlená integrace klasterů, originální téma i inovativní řešení. Super graf i popisy klastrů. Chybí zdůvodnění zvolení právě 5 klastrů. Text je stručný, k věci, nic zásadního nevynechává, ale místy je nepříliš srozumitelný a didaktické složky by mohly být podány více přístupně.
- Vhodně zvolená metoda K-means, přehledná tabulka výsledků i grafická vizualizace, přehledný popis shluků. Chybí mi teoretické ukotvení a popis na jak velkém vzorku byla analýza provedena. Chybí informace o testování optimálního počtu shluků – zda byl počet 5 zvolen na základě objektivní metody, nebo náhodně, což může vést ke zkreslení výsledků analýzy. Ocenila bych také podrobnější analýzu a interpretaci kvality modelu.