Vícerozměrné statistické metody - detail zprávy #413
PREDIKCIA ISCHEMICKEJ CHOROBY SRDCA
Vanda Gomolčáková, 28. 02. 2025
Data: Dileep070. (n.d.). Heart disease prediction using logistic regression [Dataset]. Kaggle. Retrieved February 28, 2025, from https://www.kaggle.com/datasets/dilee
V práci se vyskytuje: Log. regrese
Udělená slovní hodnocení
- Práce je kvalitní, jediné, co je za mě k vytknutí je, že autor/ka v práci uvádí, že pseudo R² = 0,1171, což je poměrně nízké číslo, ale chybí diskuse o tom, co to znamená.
- Za mě je AI celkem přísná, sama hodnotím mírněji. Připomínku bych měla citacím, které chybí. V seznamu literatury uvedeny jsou, v textu nikoli. Na mě mnoho výsledků, ve kterých se ztrácím, nějaký graf by byl asi výstižnější a záživnější. Hodnocení AI: Faktické chyby: -Interpretace Pseudo R² – Hodnota 0,1171 znamená, že model vysvětluje pouze 11,71 % variability v datech, což je poměrně nízká hodnota. V textu by bylo vhodné zdůraznit, že model má slabší vysvětlující schopnost, což není dostatečně zmíněno. -Senzitivita modelu – Model má velmi nízkou senzitivitu (8,24 %), což znamená, že téměř všechny skutečně nemocné osoby jsou špatně klasifikovány jako zdravé. Text správně upozorňuje na problém, ale možná by bylo dobré podrobněji rozebrat jiné metody řešení než jen snížení cut-off hodnoty. -Interpretace Odds Ratio (OR) – Např. u pohlaví (male1) je uvedeno, že muži mají o 74,2 % vyšší pravděpodobnost vzniku onemocnění. Přesnější interpretace by však měla být, že muži mají 1,742násobně vyšší šanci na vznik onemocnění oproti ženám (ne +74,2 % pravděpodobnost, ale 74,2% zvýšení šance). Tento rozdíl může být matoucí. Didaktické chyby: -Chybějící vizualizace dat – Text neobsahuje žádné grafy kromě zmínky o ROC křivce. Vizualizace distribuce proměnných nebo reziduí modelu by pomohla lepšímu pochopení výsledků. -Použití testů bez kontroly předpokladů – T-testy a chí-kvadrát testy byly aplikovány, ale v textu chybí zmínka o kontrole předpokladů těchto testů (např. normální rozdělení pro t-test). -Popis použité metody – Logistická regrese byla aplikována, ale text neuvádí detaily o diagnostice modelu, například multikolinearita (VIF faktory) nebo reziduální analýza. -Omezené zdůvodnění výběru proměnných – Autoři použili backward eliminaci, ale neuvádí, zda zvážili jiné metody (např. stepwise selekci nebo LASSO). Pro didaktické účely by bylo vhodné porovnat různé přístupy. -Celkově práce obsahuje relevantní analýzu, ale bylo by dobré doplnit hlubší diskuzi o validitě modelu a možnostech jeho zlepšení.
- Data byla důkladně zpracována, text je ovšem poněkud dlouhý.
- Jde vidět silná statistická zdatnost autora.:)
- Kvalitně zpracovaná práce. Chtěla bych ocenit práci s daty a jejich interpretaci. Za sebe bych ještě doplnila celkové shrnutí.
- Empiriká část práce je kvalitně zpracována a hezky intepretována, zejména oproti ostatním zprávám. Jedině mi chybí trošičku delší teoretické ukotvení problému.