Regresija na srednju vrijednost

2023-10-31

Nitko ne voli ovu statističku pojavu, ponajmanje mi u prometu. Treba je biti svjestan i iskreno promišljati.

Neki govore o fenomenu, dok drugi o normalnoj pojavnosti. Regresija na srednju vrijednost (regression toward the mean) u striktnoj definiciji predstavlja pojavu kada izaberemo uzorak slučajne varijable koji je ekstreman, dok će sljedeći uzorak biti puno bliže prosječnoj vrijednosti. U prometnim znanostima stalno nešto mjerimo (uspoređujemo) pa možemo reći da se radi o situaciji kada jedno mjerenje znatno odstupa od prosjeka, a u sljedećim mjerenjima ćemo se približiti prosječnim vrijednostima. Otac ove pojave je g. Francis Galton koji još daleke 1877. godine (prije 146 godina) uočio zakonitost da su djeca natprosječno visokih roditelja svojom visinom bila bliže prosjeku ukupne populacije i to objavio u članku: Regression towards Mediocrity in Hereditary Stature. Danas je možda najzabavnija priča o "prokletstvu" pojavljivanja na naslovnoj stranici američkog sportskog časopisa Sport Illustrated: tko se pojavi na naslovnoj stranici osuđen je na lošu sljedeću sezonu. Istina je jednostavna i objašnjiva pojavom regresije na srednju vrijednost. Osoba je došla na naslovnu stranicu zbog ekstremnog sportskog postignuća i ubrzo se vraća na svoje redovite prosječne učinke.

Mi, matematički amateri i površni korisnici matematičkog aparata, znamo se često zabuniti i pomiješati ovu pojavu sa zakonom velikih brojeva. Regresija na srednju će nas s neke ekstremne vrijednost brzo približiti prosječnim vrijednostima, dok zakon velikih brojeva kaže da prikupljanjem što većeg uzorka težimo pravoj srednjoj vrijednosti (prosjeku) populacije. Jednostavno rečeno, ako je promjena trajna i nepromijenjena radi se o trendu, a ako se radi o kratkotrajnom (ekstremnom) skoku nalazimo se u pojavi regresije na srednju vrijednost.

Uzmimo opet sportski primjer, po nekima, najboljeg košarkaša Michaela Jordana. U Chicago Bullsima je odigrao 13 sezona s prosjekom 30,7 koševa, a u svih 15 godina NBA karijere prosjek je 29,4 koša. U karijeri je odigrao ukupno 1.072 utakmice, u 173 utakmice je zabio 40+ koševa, a u 31 utakmici 50+ koševa, dok je u 562 (!) utakmice zabio 30+ koševa. Nakon utakmice sa 40+ koševa, vrlo vjerojatno je slijedila utakmica sa "samo" 30+ koševa. Bilo je i negativnih ekstrema, gdje bi nakon utakmice s, za njega, malih 20+ koševa sljedeća bila 30+ ili 40+. Nekim košarkašima je utakmica 30+ bila legendarna i bili su top tema tjedna/mjeseca. Za MJ23 ekstrem su bile utakmice 50+ i više, a regresija na srednju vrijednost sljedeće utakmice s 40+ i 30+ koševa.

Regresija na srednju vrijednost u prometu je posebice delikatna (bolna) tema. Svi se vole hvaliti, a analize tipa "prije – poslije" su Bogom dane za hvaliti se. Prijašnjih pet godina je bilo loše, nešto smo napravili, sljedeće godine je puno bolje, a i godinu iznad toga. Nitko više ne pita nakon 3 – 4 godine, kakva je situacija. Ili se zaboravi, ili se stanje koje nije puno bolje (drugačije) nego prije 8 – 9 godina brani tezama o: promijenjenim uvjetima, porastu prometa, nepovoljnim utjecajima. Sve je to (vrlo vjerojatno) istina, ali korisnike prometnog sustava to nije briga, imaju iste (loše) uvjete prometovanja kakve su imali i prije, uz kratkotrajno poboljšanje na koje su zaboravili.

Što je toliko dubiozno kod regresije na srednju vrijednost, najbolje je pokazati u praksi. Iz javno dostupnih podataka hrvatskog prometa našao sam praktičan primjer o prevezenim putnicima u tramvajskom prometu u Zagrebu; o zagrebačkom prometu i dostupnosti podataka putem zagrebačkog Statističkog ljetopisa pisao sam u ovoj temi.

Uzeo sam razdoblje od 2000. do 2019. godine. Od kraja 2000. godine tramvajska mreža nije se mijenjala, a 2019. godina je zadnja godina prije Covid-19 i potresa. Slika pokazuje da se broj putnika mijenjao unutar jedne standardne devijacije s iznimkama 2007. i 2008. godine. Upravo te dvije godine predstavljaju pojavu regresije na srednju vrijednost. Taj izniman porast od 24,6 % u odnosu na prethodno razdoblje nije zadržan već je došlo do pada koji se stabilizirao oko nekog novog prosjeka. Ovisno o parcijalnim interesima i razini (ne)objektivnosti možemo ovaj trend promatrati s dva motrišta.

Prvo, ako gledamo ukupno razdoblje 2000. – 2019. ne možemo govoriti o rastu ili padu; sve se vrti oko jedne standardne devijacije, a koeficijent varijacije kao relativna mjera disperzije je ispod 10 %.

Drugo, ako pristupimo analizi stanja "prije-poslije". Ako je stanje "prije" 2000. – 2006., a stanje "poslije" 2010. – 2019. onda možemo govoriti o porastu broja putnika od 4,7 %. Porast je, ali je i činjenica da je prosjek 2010. – 2019. manji od ukupnog prosjeka 2000. – 2019..

U pojavi regresije na srednju vrijednost možemo identificirati tri veličine. Sljedeća slika pokazuje cijelu "inženjersku muku". Nešto smo napravili i to se vidi, hvalimo se time i mislimo da smo postigli dobro (najbolje) rješenje. To je percipirani dobitak. Budući se radi o ekstremu, a ne trendu, dolazi do smanjenja do neke prosječne vrijednosti, pa taj percipirani (umišljeni) dobitak moramo podijeliti u dva skupa. Prvi je je regresija na srednju vrijednost, a ako ipak nešto i ostane onda imamo stvarni dobitak, ono čime se zaista možemo hvaliti. 

Ova statistička pojava je najviše vezana za sigurnost prometa. Britanci su pri vrhu glede sigurnosti prometa na europskim cestama. Objavljuju priručnike naziva "A Road Safety Good Practice Guide" za različite dionike i razine prometnih uprava, ali svi oni spominju "Regression to the mean". Priručnici upozoravaju da se mjesta za sanaciju često odabiru nakon pojave velikog broja nesreća, a do smanjenja bi, zbog regresije na srednju vrijednost, došlo i bez ikakvih intervencija (ulaganja). Napominju da čak i period od tri godine s povećanim brojem nesreća vjerojatnije predstavlja slučajnu oscilaciju, gdje će nakon toga doći do smanjenja broja nesreća, nego li trend pogoršanja sigurnosti prometa. Njihova iskustva kažu da regresija na srednju vrijednost u prvoj godini nakon intervencije ima utjecaj 15 – 26 %, u drugoj godini 7 – 15 %, a u trećoj godini 5 – 11 %. Prevedeno na inženjerski rječnik, ako smo nešto napravili (potrošili novac) i postigli u prvoj godini poboljšanje 20 %, prije možemo govoriti o stvarnom dobitku od najviše 5 % (što nije malo, ako je istina) ili uopće nismo utjecali na prometni proces, odnosno poboljšanje je isključiva zasluga pojave regresije na srednju vrijednost.

U preporukama prilažu i konkretan izračun procjene regresije na srednju vrijednost koji ću kratko komentirati. Prikazani postupak temelji se na empirijskom Bayesovom modelu; apriorna vjerojatnost utvrđuje se temeljem podataka, a ne pretpostavljene statističke razdiobe. Da bi se analizirao stvarni učinak provedenih mjera, rezultati se moraju usporediti sa statistikom sličnih prometnih objekata na kojima nisu izvršene intervencije. Treba pronaći slične prometne objekte, a to je zaista vrlo težak i odgovoran posao. Tko može vrednovati, procijeniti, odlučiti radi li se o similarnim objektima i prometnim procesima? Treba znanstvenostručnim metodama (deskriptivna statistika za grupiranja i klasificiranje prometnih nesreća, inferencijalna statistika za testiranje definiranih hipoteza, tehnologija prometa za klasificiranje prometnih objekata i procesa, ekonomske kategorije za potvrdu sličnosti područja u kojima se nalaze objekti, …) potvrditi "sličnost" drugih prometnih objekata (procesa) s promatranim objektom. Kada se prikupe podatci izračun je jednostavan. 

R – utjecaj regresije na srednju vrijednost

a – prosječan broj nesreća na sličnim lokacijama

var(a) – varijanca

A – ukupan broj nesreća na predmetnoj lokaciji

n – broj promatranih godina

Uzmimo sljedeći primjer. U petogodišnjem razdoblju na nekoj lokaciji smo imali prosječno godišnje 14,40 prometnih nesreća; ukupno 72 nesreće u pet godina. Nakon intervencije u sljedećih pet godina prosjek se smanjio na 11,80 nesreća ili ukupno 59 nesreća. Smanjen je broj nesreća za 18,1 %. To je percipirani dobitak. Koliko je u tome regresije na srednju vrijednost, a koliko stvarnog poboljšanja pokazat će izračun. Istraživanja sličnih lokacija dala su prosječan godišnji broj nesreća 11,23 s varijancom 2,04. U odnosu na slične lokacije na promatranoj lokaciji događalo se 28 % više nesreća i to je bio razlog za intervenciju. Možemo izračunati:

Da nismo izvršili nikakve intervencije prosječan broj nesreća bi pao za 7,1 %, odnosno na 13,4 nesreća. Zato možemo zaključiti da smanjenje broja nesreća od 18,1 % ima pokriće u našim aktivnostima (stvarni dobitak) od 11,0 %, a 7,1 % predstavlja regresiju na srednju vrijednost. Sada možemo objektivno zaključiti jesu li poduzete aktivnosti bile prometno, društveno i financijski opravdane. Ponavljam, ovom jednostavnom izračunu prethodi nalaženje i analiza sličnih prometnih objekata; vrlo težak i odgovoran posao.

Internet vrvi od priča o regresiji na srednju vrijednost u pitanjima sigurnosti prometa, ali s jako (nimalo) konkretnih podataka (pokazatelja). Naći ćete brojne članke i znanstvenostručne radove koji spominju i upozoravaju ali ne nude konkretne primjere (dokaze, iskustva). Uspio sam naći jedan relevantan izvor s podatcima iz (pra)davne 1998. godine koji nudi konkretne brojeve temeljene na istraživanju 900 lokacija sa ukupno 13.612 prometnih nesreća. Tablica pokazuje devet različitih tipova intervencija gdje su u četiri slučaja stvarni utjecaji bili za 50 % i više manji zbog pojave regresije na srednju vrijednost, u četiri slučaja za 30 % i više, a samo u tjednom slučaju je regresija na srednju vrijednost utjecala malih 4 %. Metodologija se zasnivala na usporedbi broja nesreća u tri razdoblja: (a) prije; prije identifikacije lokacije, (b) prijelazno; od trenutka identifikacije lokacije do primjene određene mjere i (c) poslije; nakon aplikacije mjere. Razlika broja nesreća u prijelaznom razdoblju i razdoblju prije uzeta je kao mjera regresije na srednju vrijednost. Sličan postupak primijenio sam u opisu broja putnika u zagrebačkim tramvajima. 

Zato se kaže da sigurnost prometa nije pitanje jednostavne deskriptivne statistike (više, manje, iznad/ispod prosjeka, trend, ekstremno). Iskustva europskih država s najboljim pokazateljima sigurnosti cestovnog prometa temelje se na uspostavi relevantne nacionalne znanstvene metodologije koja je nastala simbiozom prometnih, građevinskih, statističkih i ostalih matematičkih, ekonomskih, pravnih, socioloških, psiholoških i drugih inih znanja. Uzmimo za primjer samo javnu rasvjetu. Laički, na brzinu mogu navesti sljedeće struke: medicinari (oftalmolozi) će reći kako ljudsko oko funkcionira i adaptira se u različitim uvjetima, a kineziolozi koliko brzo će nam ruke/noge odraditi željenu akciju, elektrotehničari će odrediti tehničko rješenje javne rasvjete, a građevinari konstrukciju, dok će arhitekti predložiti dizajn ne smanjujući funkcionalnost, a prometaši će sve to "spakirati" u prometni prostor. Znanstveni dio posla je sistematiziran u različitim propisima, normama, smjernicama i preporukama za javnu rasvjetu, a inženjerski (stručni) dio posla je zadaća ovlaštenih inženjera u svakom konkretnom problemu (projektu).

Za hrvatske uvjete, glede sigurnosti prometa, relevantni i vjerodostojni izvori su MUP i DZS. Podatci o prometnim nesrećama, poginulim na milijun stanovnika i ponderu nesreća (1 = nesreća, 9 = poginuli, 5 = ozlijeđeni) od 1971. do 2022. godine prikazani su na sljedećoj slici. Koja razdoblja upućuju na zakon velikih brojeva, je li bilo pojavnosti regresije na srednju vrijednost, koja razdoblja su dobri/loši trendovi, je li uopće bilo ovih ili nekih drugih statističkih pojavnosti, svatko ima priliku sam istražiti. Naravno, jednodimenzionalno gledanje statističkih pokazatelja nije znanstvenostručno utemeljeno. Izmjene zakona iz područja sigurnosti prometa, izmjene propisa i stanja bankarskog tržišta glede dostupnosti automobila, gospodarske krize, fluktuacije cijena nafte i njihov utjecaj na cijene goriva, akcije na unaprjeđenju sigurnosti prometa i drugi utjecaji prometnih politka, Domovinski rat, manje ili više (ne)važne izmjene gradskih i (auto)cestovnih mreža, …, sve je to (ne)izravno utjecalo na prikazanu povijest prometnih nesreća. Statistika je (ne)iskrena koliko smo mi sami (ne)iskreni. Podatci su javno dostupni na stranicama MUP-a i DZS-a pa svatko sam može istražiti uzroke (razloge) nekih trendova i promjena.

Našao sam još jedan zanimljiv i poučan primjer izvan inženjerske struke. U SAD-u neki koriste ovu pojavu za (jako) dobru i laku zaradu. Prate trendove tvrtki i nakon pojave negativne ekstremne vrijednosti u poslovanju javljaju se sa "spasonosnim" planom za oporavak uz što prilažu i reference prijašnjih poslova. Oporavak (povratak ka prosjeku – redovitom poslovanju) će se svakako dogoditi u većoj ili manjoj mjeri, prije ili kasnije. U svakom slučaju, "stručnjak" je opravdao svoj angažman i ugovorenu (veliku) nagradu. Tako se zlorabi pojava regresije na srednju vrijednost i atmosfera američkog poslovnog svijeta u kojem je korisno nedjelovanje znak slabosti i uvijek veći krimen od štetnog djelovanja.

Od stare narodne "sve će doći na svoje mjesto" nitko ne može pobjeći. Koliko smo (ne)iskreni prema sebi, toliko smo (ne)iskreni prema rezultatima posla kojeg obavljamo. Ova neizbježna statistička pojava jako dobro testira znanje i integritet osobe kao inženjera/ke.

Zdenko Lanović
2021.
Izradio Webnode
Izradite web-stranice besplatno! Ova web stranica napravljena je uz pomoć Webnode. Kreirajte svoju vlastitu web stranicu besplatno još danas! Započeti