Vícerozměrné statistické metody - detail zprávy #777

Faktory ovplyvňujúce pravdepodobnosť fajčenia

Michaela Mahdalová, 22. 03. 2026

Data: European Social Survey European Research Infrastructure (ESS ERIC) (2025) ESS round 11 - 2023. Social inequalities in health, Gender in contemporary Europe. Sik

V práci se vyskytuje: Log. regrese

Udělená slovní hodnocení

Oceňuji popis druhu proměnných, vysvětlení použité metody, velmi dobré vysvětlení výsledku. Je vidět, že autor velmi rozumí dané metodě, což ilustrují grafy a jejich popis. Osobně si myslím, že by se už od začátku dala očekávat nízká hodnota vysvětleného rozptylu.
Zpráva je stručná, ale funkční – reportuje χ², Nagelkerke R², OR s p-hodnotami pro šest prediktorů. Co mě ale trápí: autorka píše, že frekvence konzumace alkoholu má OR = 0,852, tedy že s vyšší konzumací alkoholu klesá šance fajčení. To je kontraintuitivní – v literatuře je alkohol a tabák silně pozitivně asociován. Autorka sice opatrně dodává, že „interpretácia je podmienená spôsobom kódovania", ale tohle si zaslouží explicitní rozbor. Jak přesně je kódována frekvence alkoholu v ESS? Pokud je 1 = denně a 7 = nikdy, pak ten negativní OR dává smysl opačně – a autorka by to měla čtenáři vysvětlit, ne jen naznačit. Tohle je přesně ten typ chyby, kde si student myslí, že interpretuje správně, ale čtenář je zmatený. Další slabina: chybí tabulka s B, SE, OR, 95% CI pohromadě. Hodnoty OR jsou rozházené po textu, ale kompaktní tabulka by byla přehlednější. Taky chybí Hosmer-Lemeshow test a klasifikační tabulka. A citace nejsou v APA 7.
Téma je zajímavé a metoda je zvolena správně. Výběr proměnných dává smysl, autor/ka přemýšlel/a o tom, co kouření ovlivňuje, a sáhl/a i po méně obvyklých faktorech jako je konflikt v dětství. Velký soubor z ESS je silná stránka! Trochu zamrzí, že výsledky nejdou do hloubky, chybí přehledná tabulka s čísly, takže výsledky jsou těžko ověřitelné. A jedna věc mě zarazila, výsledek říká, že lidé, kteří zažili konflikt v dětství, mají nižší šanci kouřit, huh, to je překvapivé a práce to bohužel nijak nevysvětluje ani se nad tím nepozastavuje. To je škoda, protože právě tady by bylo zajímavé se zastavit :) Čte se to vcelku dobře a text je přehledný. Graf s predikovanými pravděpodobnostmi podle věku a pohlaví je fajn. Graf s odds ratio je dobrý nápad, ale chybí mu chybové úsečky, bez nich vypadají výsledky přesnější, než ve skutečnosti jsou. Bez výsledkové tabulky si čtenář nemůže udělat úplný obrázek. Škoda! Jinak pěkné.
Tady je dobře zvolený samotný model, protože logistická regrese k dané výzkumné otázce sedí. Silná je i práce s více prediktory najednou. Co ale textu chybí, je jasnější vysvětlení toho, jak byly zakódované kategorie u proměnných a jak byly ošetřené speciální nebo chybějící hodnoty v datech. Čtenář tak hůř chápe, proč některé odds ratio vycházejí právě tímto směrem. Pomohlo by proto konkrétně uvést, která kategorie byla referenční, jak byly proměnné překódované a co přesně znamená odds ratio menší než 1 v kontextu této práce.