Vícerozměrné statistické metody

Predikce srdečního onemocnění pomocí logistické regrese

Jan Štěpánek, 22. 03. 2026

Data: Janosi, A., Steinbrunn, W., Pfisterer, M., & Detrano, R. (1989). Heart Disease [Dataset]. UCI Machine Learning Repository. https://doi.org/

V práci se vyskytuje: Log. regrese

Udělená slovní hodnocení

Zpráva je metodicky solidní: vhodně použitá logistická regrese na klinickém datasetu (N=302) a výsledky jsou prezentované přehledně včetně OR, LR testu a pseudo-R²; oceňuji i vizualizace (predikované pravděpodobnosti, forest plot) a srozumitelné vysvětlení OR.
Zpráva dosahuje zcela excelentních výsledků jak po stránce didaktické, tak po metodologické.
Tohle je nejlepší zpráva z celé pětice a já ji trochu závidím. Autor vzal reálná klinická data z Cleveland kliniky, ne žádný Kaggle simulátor, a postavil na nich logistickou regresi, která dává smysl. Co mě fakt chytilo, je to vysvětlení odds ratia hned v metodě – OR = 6 znamená 6× vyšší šance, OR = 0,15 znamená zhruba 7× nižší. Já tohle vysvětloval spolužákům půl hodiny a tady to člověk pochopí ze dvou vět. Grafy jsou taky o level výš. Forest plot s CI na logaritmické škále, predikované pravděpodobnosti podle věku a pohlaví s confidence bandy – tohle nevypadá jako výstup ze Statisticy, tady si někdo dal práci. A hlavně ta pasáž o tom, že muži mají nižší OR – autor to nesmete pod koberec, ale vysvětlí, že vzorek jsou pacienti už odeslaní na kardiologii, takže muži tam chodí i preventivně, zatímco ženy až s reálnými příznaky. Tohle je přesně ten typ uvažování, který z běžné zprávy dělá dobrou zprávu. Co bych ale vytknul: když děláš predikční model, chci vidět, jak dobře predikuje. Kde je ROC křivka? Kde AUC? Kde klasifikační tabulka s citlivostí a specificitou? McFadden pseudo R² = 0,36 je fajn, ale samo o sobě mi neřekne, jestli model reálně odliší nemocné od zdravých. Taky bych čekal Hosmer-Lemeshow test nebo alespoň zmínku o kalibraci. Celkově ale – kdybych měl dát za vzor jednu zprávu z těch pěti, je to tahle.

Vícerozměrné statistické metody - detail zprávy #775

Predikce srdečního onemocnění pomocí logistické regrese

Udělená slovní hodnocení