Vícerozměrné statistické metody - detail zprávy #467
Vybrané prediktory BMI
Zdeňka Gábelová, 17. 03. 2025
Data: https://www.kaggle.com/datasets/yasserh/bmidataset?resource=download
V práci se vyskytuje: Log. regrese
Udělená slovní hodnocení
- Kvalitní binomická logistická regrese, přesná operacionalizace proměnných. Logistická regrese vysvětlena i aplikována správně, výpočty uvedeny, smysluplné. Prezentace výsledků: Tabulky, interpretace, prediktivní síla modelu (Nagelkerke R² 0.467) – výborně. Interpretace: Jasná, srozumitelná, s náznaky praktického využití. Limity zpracování: Uvedeny – např. prostor pro zlepšení modelu u zdravé populace. Celkově velmi kvalitní, s dobrou rovnováhou mezi teorií, metodologií i interpretací.
- přehledné tabulky a srozumitelná interpretace výsledků chybí mi vymezení BMI morbidně obézních tyto výsledky jsou již známé, volila bych originálnější výběr dat označení "váha" a "hmotnost" sjednotit - volila bych váha
- Pár poznámek co mě napadlo: - Chybělo mi větší teoretické ukotvení s více relevantními zdroji, než jen (pro mě) trochu dlouhé vysvětlování co je to BMI - Uvedla bych z kama pocházejí data a jejich autory. - Také bych lépe popsala tabulky a co nám ukazují – např. co nám říkají sloupce „Šance“ a „Odhad“, to stejné pro tabulky 2 a 3
- Velmi hezky zpracované a přehledné.
- Zajímavé téma, hezky napsaný úvod do tématu. Nejsem si úplně jistý do jaké míry je pro nás hodnotná informace o prediktivních vlastnostech výšky a váhy u zdraví, když zdraví v tomto kontextu definuje BMI, které přímo z výšky a váhy vychází. Jestli jaksi nejde o nadbytečnou informaci. U interpretace koeficientů logistické regrese (dochází ke změně šancí ne přímo pravděpodobnosti) a kvality modelů (plně neodpovídají vysvětlení variablity jako u lineární regrese) jsou drobné nesrovnalosti. Údaj vlivu pohlaví není statisticky významný a proto bych doporučil jej vůbec neinterpretovat.
- Jaké jsou konkrétní kategorie BMI (podváha, nadváha, obezita) s odpovídajícími hodnotami? Tyto informace usnadní čtenáři orientaci. Je vhodné, že je dobře definovaná závislá proměnná (binární BMI) a nezávislé proměnné. Některé hodnoty indexu se zdají být chybné (např. řádek 61, žena, výška 191 cm, váha 54 kg, index 0, BMI by měl být 14.8, což odpovídá spíše indexu 1). Není zcela jasné, zda kategorizace do "zdravý" a "nezdravý" je provedena konzistentně a odpovídá běžným standardům pro BMI kategorie. Bylo by fajn čtenářům např. vysvětlit, jak se interpretuje Waldova statistika a co znamená. Více vysvětlit a zdůvodnit: "vyšší osoby mají nižší pravděpodobnost být ve skupině označované jako nezdravá". Výroky typu "Každé zvýšení výšky o 1 cm snižuje pravděpodobnost být v nezdravé skupině přibližně o 4,2 %" jsou zavádějící. U logistické regrese se interpretují odds ratio, ne přímo procentuální změny. Nebylo by špatné vysvětlit, co znamenají hodnoty Nagelkerke R² a Cox-Snell R² v kontextu modelu. Bylo by dobré zapracovat na přesnosti výpočtů, interpretaci výsledků a kontrole překlepů, popř. celkové stylistice.