Vícerozměrné statistické metody - detail zprávy #521
Analýza faktorů ovlivňujících nezaměstnanost v EU: Vliv pohlaví, vzdělání a národnosti
Štěpán Matela, 23. 03. 2025
Data: https://data.europa.eu/data/datasets/byihgjungzixzwhz7feaq?locale=cs
V práci se vyskytuje: Lin. regrese
Udělená slovní hodnocení
- Použitá vícenásobná lineární regrese je jistě správnou volbou pro účely stanovených cílů. Autor, který neskrývá své autorství, zde vhodně definuje lineární model, jehož použití podpořil podmínkami jeho užití, avšak již nesprávně interpretuje pozorované výstupy. Např. Model ve své základní podobě pracuje pouze s (téměř) nezávislými regresory (domácí, přistěhovalci apod), avšak výsledky interpretuje s ohledem na pohlaví, věk a vzdělání, které v původím modelu jsou zahrnuty pod jeden všepojímající faktor. Z didaktického hlediska autor přívětivou formou popisuje postup a důvody zvolených statistických analýz, avšak na úkor rozsahu práce, která je nepřiměřeně obsáhlá. Správný citační aparát chybí úplně.
- Oceňuji, že student velmi podrobně popisuje zvolený model, včetně kontroly vlastností použitých proměnných z hlediska vhodnosti lineární regrese. Možná je to místy až moc podrobně rozepsané, což významně ovlivňuje délku textu, jež dalece přesahuje doporučení. Ještě mě trochu zaujala formulace „Další možné faktory – pokud dataset obsahuje proměnné jako věk, vzdělání nebo sektor zaměstnání, můžeme je zařadit jako kontrolní proměnné pro přesnější model" v kapitole „Výběr dat a proměnných". Pokud správně čtu, nedohledala jsem, co dělal autor v situaci, kdy někde data chyběla, v kolika případech k tomu došlo, co s tím v takovém případě autor dělal (imputace..) atp. To může ovlivnit výsledky. A pak jen k formě textu: chybí řádná citace zdroje.
- Tato práce je z mého pohledu komplexní, dobře strukturovaná a metodologicky pečlivě zpracovaná. Použití vícenásobné lineární regrese je vhodným nástrojem pro zkoumání vlivu více faktorů na nezaměstnanost. Zahrnutí kontrolních proměnných (např. vzdělání, pohlaví) přispívá k přesnosti výsledků. Kontrola nezávislosti pozorování, normality reziduí, homoskedasticity a multikolinearity ukazuje na pečlivé zajištění validity modelu. Doporučení, jako podpora vzdělávání nebo snižování bariér pro přistěhovalce a ženy, je relevantní a přínosné pro tvůrce politik. Prostor pro zlepšení by mohlo být v jasnější vizualizaci, přidání grafů (např. boxploty, heatmapy) by mohlo zlepšit čitelnost vztahů mezi proměnnými a usnadnit porozumění čtenářům. Dále práce zmiňuje možnosti budoucího výzkumu, ale detailnější diskuze o potenciálních zkresleních modelu (např. nepozorované faktory, role specifických ekonomik) by výsledky dále posílila.
- Dobře strukturované a čitelné – každá část má jasnou funkci. Pěkně zpracované grafy. Jedná se o praktické a zajímavé téma, včetně nastínění praktických dopadů a dalšího směřování výzkumu. Možná bych více rozpracovala popis datasetu.
- Práce je velmi dobrá, ale je v ní zbytečně moc textu