Simpsonov paradoks u Zagrebačkom okruženju
Prikaz Simpsonovog paradoksa glede broja stanovnika i automobila u Zagrebačkoj i Krapinsko-zagorskoj županiji.
Pod pojmom Zagrebačko okruženje razumijevam prostor dviju županija koje okružuju Grad Zagreb: Zagrebačku i Krapinsko-zagorsku županiju. Točniji izraz Zagrebački prsten ne mogu primijeniti jer se u javnosti (neopravdano) primjenjuje samo na Zagrebačku županiju. Već sam puno puta u ovom blogu naveo da Zagrebačku funkcionalnu regiju čine Zagreb i ove dvije županije, svi strateški dokumenti vezani su za ove tri županije pa Zagrebačko okruženje čine županije koje zaista okružuju Zagreb i koje su na svaki način povezane s njim.
U prethodnoj
temi koristio sam podatke o broju stanovnika i osobnih vozila
(automobila) za Grad Zagreb, Zagrebačku i Krapinsko-zagorsku županiju. Promotrimo
situaciju u prošlom desetljeću; od 2011. do 2020. godine. Sve je jasno i
logično, to svi znamo i svakodnevno doživljavamo: ukupan broj automobila u sve
tri županije raste, rast je pozitivan i linearan od 2012. godine, niti potres,
niti Covid-19 nisu umanjili ili zaustavili pozitivne trendove.
Podatci tek "govore" ako se stave u (ko)relaciju s drugim podatcima. Ako raste broj stanovnika da li raste i broj automobila? Logična pretpostavka je: raste. Vidjeli smo u prethodnoj temi, u Zagrebačkom okruženju većinom pada broj putnika željeznicom i jasno raste broj automobila na cestama.
Ako promotrimo odnos broja stanovnika i automobila u
Zagrebačkoj i Krapinsko-zagorskoj županiji dobit ćemo suprotno. I to ne površno
i/ili nategnuto, modeli su stabilni, visoko korelirani u razdoblju prošlog
desetljeća. U Krapinsko-zagorskoj županiji u prošlom desetljeću je svaki novi
stanovnik smanjio broj automobila za 1,48 ili svaka dva nova stanovnika su odnijela
tri automobila (2,96). U Zagrebačkoj županiji u prošlom desetljeću je svaki
stanovnik više značio i dva automobila manje (1,97).
Ako promotrimo Zagrebačko okruženje zajedno dobivamo drugačiju situaciji: u Županijama broj automobila je obrnuto proporcionalan broju stanovnika, ali zajedno promatranje obje županije ukazuje na ono što svi očekuju: porastom stanovništva raste i broj automobila. Grafički prikaz pokazuje da taj rast s visokim koeficijentom determinacije (R2 = 0,95) ukazuje da svaki novi stanovnik donosi 0,36 automobila ili na svaka tri nova stanovnika Zagrebačkog okruženja dolazi jedan novi automobil. To je Simpsonovov paradoks: statistička analiza cijele populacije razlikuje se od analize parcijalnih (pojedinih) grupa. Površan pregled Internet izvora (bez obzira na njihovu kvalitetu/reprezentativnost) pokazuje da je ovo školski primjer Simpsonovog paradoksa.
U
Zagreb svakodnevno pristiže veliki broj ljudi. U jednoj prošloj temi o integriranom prijevozu putnika
pokazao sam da se radi o dnevno 115.000 - 130.000 što svakodnevnih, što
povremenih posjetitelja, od kojih velika većina dolaze automobilima; procjena
je 79.000 - 82.000. Teško je onda pojmiti da susjedne županije, koje generiraju
najviše putovanja (demografska studija iz 2015. pokazuju više od 60 %), a time
i broj cestovnih putovanja, zasebno imaju negativan trend.
Svaka
kontraintuitivna situacija kod ljudi izaziva sumnje i podozrenje u izvor
podataka; ovi podatci su javno dostupni od strane DZS-a glede broja stanovnika
i MUP-a za broj automobila te Statističkih ljetopisa Grada Zagreba glede broja
automobila u Zagrebu; sve dostupno na Internetu. Ovo nije prva tema u tom smislu. Ranije
sam obradio temu koja se
oslanja na Bayesovu uvjetnu vjerojatnost, što je isto vrlo
kontraintuitivno promišljanje događaja i procesa.
Ovi podatci, stavljeni u relaciju s brojem stanovnika, ukazuju na nešto. Nemam ekonomskih, socioloških i inih društvenih znanja objasniti ove pojave, niti je to namjera ove teme. Ove županije su susjedne i naslonjene na Grad Zagreb, a opet vrlo različite u broju stanovnika, razvijenosti (poglavito u gospodarskom i prometnom smislu), topologiji, povezanosti za Zagrebom i drugim čimbenicima.
Možda je to slučajnost. Zato sam "rasturio" posljednje desetljeće na prvih pet godina (2011. - 2015.), drugih pet godina (2016. - 2020.) te na razdoblje 2015. - 2019. koje bi trebalo biti oslobođeno godina gospodarske krize te utjecaja potresa i Covid-19. Sve tri analize ukazuju na prisustvo Simpsonovog paradoksa sa srednje i visoko koreliranim međuodnosima (srednje jakim i jakim koeficijentima determinacije).
Dakle, Simpsonov paradoks odnosa broja stanovnika i broja automobila nije neka anomalija uvjetovana zbog par "čudnih" godina, to je stvarnost i kontinuitet procesa koji se događao u okolici Zagreba u prošlom desetljeću.
Da li se događao u prijašnjem desetljeću 2001. - 2010? Ne. Imamo Krapinsko-zagorsku županiju s negativnim trendom, ali su trend Zagrebačke županije i ukupan trend pozitivni.
Možemo Zagrebačko okruženje promatrati kao cjelinu. Nemamo (pod)grupe, ali je rezultat i dalje "paradoksalan". Trend je i dalje negativan; svaki novi stanovnik županija oko Zagreba smanjuje broj automobila gotovo za dva (1,8).
Idemo do kraja, pogledati cijelu funkcionalnu regiju kao jedan organizam, zajedno zbrojiti Zagreb i obje županije. Rezultat je zaista neočekivan i čak ni riječ "paradoksalan" nije dostatna za njegov opis - što više stanovnika to manje automobila. Rezultat je, blago rečeno, ekstreman: svaki novi stanovnik smanjuje devet automobila u funkcionalnoj regiji. Istina, koeficijent determinacije ne upućuje na jaku svezu, ali je i dalje vrlo visok - umjerena pozitivna korelacija.
Uzroci nastanka Simpsonovog paradoksa dijele se u dva slučaja: (1) podatci se nalaze u (pod)grupama koje pak imaju neuravnoteženu zastupljenost u usporedbi s drugim (pod)grupama, (2) zbog načina na koji su podatci podijeljeni u (pod)grupe. Prvi slučaj se ne može izbjeći i to je naš slučaj; imamo teritorijalnu podjelu kakvu imamo i podatke kakve imamo. Drugi slučaj predstavlja objektivnu/subjektivnu grešku analitičara.
Stručna literatura obična naglašava tri ključna razloga glede važnosti uočavanja Simpsonovog paradoksa:
(1) očekujemo da su statistički odnosi neke cjeline i njezinih dijelova komplementarni i nepromjenjivi; čim smo izmjerili jednu pojavu - gotovo, smatramo da je to apsolutno istina i na razini cjeline ako smo promatrali dio, ili na razini dijela ako smo promatrali cjelinu,
(2) Simpsonov paradoks nije rijetka i nejasna pojava; iza toga se kriju neki drugi razlozi koji su najčešće izvan dosega razumijevanja jednog znanstvenog područja i/ili polja,
(3) uvijek moramo izbjegavati kauzalne zaključke u neeksperimentalnim studijama zbog mogućih previda nekih veličina ili njihova drugačija odnosa s ostalima.
Ovo treće je poglavito važno za prometne planere, jer su baš svi njihovi dokumenti neeksperimentalni; zasnivaju se na računalnim prometnim modelima ili matematičkim (statističkim) modelima (analizama) gdje je vrlo lako nešto previdjeti ili (ne)dovoljno (ne)povezati.
Možda je najjasniju poruku glede Simpsonovog paradoksa uputio američki matematičar Jordan Ellenberg: Pouka Simpsonova paradoksa zapravo nije u tome da nam kaže koje motrište da zauzmemo, već da uvijek imamo na umu i dijelove i cjelinu odjednom.
Simpsonov paradoks nije dokoni kuriozitet, već jasno
upozorenje da bilo kakva statistička analiza cjeline (skupa) i/ili parcijalnih dijelova
(disjunktnih podskupova) mora biti pomno i cjelovito (zajedno) istražena. Na
kraju, treba objasniti uzroke nastanka Simpsonovog
paradoksa. Ponovit ću što sam prethodno rekao: razlozi su najčešće izvan dosega
razumijevanja jednog znanstvenog područja i/ili polja. Očekivati točan
(cjelovit) odgovor od jedne osobe - teško.