Vícerozměrné statistické metody - detail zprávy #804
Faktory ovlivňující úspěch startupů: Logistická regresní analýza
Vlastimil Paluska, 04. 04. 2026
Data: https://www.kaggle.com/datasets/dhrubangtalukdar/startup-funding-and-outcome-dataset/data
V práci se vyskytuje: Log. regreseROC
Udělená slovní hodnocení
- - Autor správně zvolil binominální logistickou regresi pro dichotomickou závislou proměnnou - Pečlivé testování předpokladů modelu (absence multikolinearity pomocí VIF, linearita pomocí Box-Tidwellova testu a kontrola odlehlých hodnot přes Cookovu vzdálenost) - Interpretace výsledků je opravdu promyšlená. - Text je vysoce srozumitelný a postupy jsou precizně vysvětleny. - Přehlednost zvyšuje taky vizuální prezentace
- Práce je srozumitelná a výsledky jsou dobře popsané, ale trochu mě překvapila data - nevím, jestli tedy závěry o startupech znamenají něco v reálu.
- Analyticky je to dobrá práce – kontrola předpokladů (VIF, Box-Tidwell, Cook) je kompletní a popsaná srozumitelně, Hosmer-Lemeshow test přítomen, ROC křivka s AUC taky. Forest plot se statisticky významnými prediktory je přehledný a dobře čitelný. Taky oceňuju, že v závěru nezůstáváš jen u popisu výsledků, ale upozorňuješ na to, že počet kol financování může být spíš důsledek kvality startupu než jeho příčina – tohle rozlišení korelace a kauzality je přesně to, co se od analytika čeká. Velká slabina je ale zdroj dat – sám píšeš, že data byla pravděpodobně vytvořena pro strojové učení. U simulovaných dat nemají výsledky reálnou výpovědní hodnotu, i když jsou metodicky čisté. Kdyby tohle byla reálná data, bylo by to jednoznačně na špici.
- Metodologicky práce vyniká. Autor využívá pokročilé statistické postupy a správně pracuje s klíčovými předpoklady i interpretací. Zařazení ROC křivky, AUC či pseudo R² ukazuje, že umí dobře pracovat s pokročilejšími statistickými ukazateli. Smysluplná interpretace.