Regresija na srednju vrijednost
Nitko
ne voli ovu statističku pojavu, ponajmanje mi u prometu. Treba je biti svjestan
i iskreno promišljati.
Neki govore o fenomenu, dok drugi o normalnoj pojavnosti. Regresija na srednju vrijednost (regression toward the mean) u striktnoj definiciji predstavlja pojavu kada izaberemo uzorak slučajne varijable koji je ekstreman, dok će sljedeći uzorak biti puno bliže prosječnoj vrijednosti. U prometnim znanostima stalno nešto mjerimo (uspoređujemo) pa možemo reći da se radi o situaciji kada jedno mjerenje znatno odstupa od prosjeka, a u sljedećim mjerenjima ćemo se približiti prosječnim vrijednostima. Otac ove pojave je g. Francis Galton koji još daleke 1877. godine (prije 146 godina) uočio zakonitost da su djeca natprosječno visokih roditelja svojom visinom bila bliže prosjeku ukupne populacije i to objavio u članku: Regression towards Mediocrity in Hereditary Stature. Danas je možda najzabavnija priča o "prokletstvu" pojavljivanja na naslovnoj stranici američkog sportskog časopisa Sport Illustrated: tko se pojavi na naslovnoj stranici osuđen je na lošu sljedeću sezonu. Istina je jednostavna i objašnjiva pojavom regresije na srednju vrijednost. Osoba je došla na naslovnu stranicu zbog ekstremnog sportskog postignuća i ubrzo se vraća na svoje redovite prosječne učinke.
Mi, matematički amateri i površni korisnici
matematičkog aparata, znamo se često zabuniti i pomiješati ovu pojavu sa
zakonom velikih brojeva. Regresija na srednju će nas s neke ekstremne vrijednost brzo približiti
prosječnim vrijednostima, dok zakon velikih brojeva kaže da prikupljanjem što
većeg uzorka težimo pravoj srednjoj vrijednosti (prosjeku) populacije. Jednostavno
rečeno, ako je promjena trajna i nepromijenjena radi se o trendu, a ako se radi
o kratkotrajnom (ekstremnom) skoku nalazimo se u pojavi regresije na srednju
vrijednost.
Uzmimo opet sportski primjer, po nekima, najboljeg košarkaša Michaela Jordana. U Chicago Bullsima je odigrao 13 sezona s prosjekom 30,7 koševa, a u svih 15 godina NBA karijere prosjek je 29,4 koša. U karijeri je odigrao ukupno 1.072 utakmice, u 173 utakmice je zabio 40+ koševa, a u 31 utakmici 50+ koševa, dok je u 562 (!) utakmice zabio 30+ koševa. Nakon utakmice sa 40+ koševa, vrlo vjerojatno je slijedila utakmica sa "samo" 30+ koševa. Bilo je i negativnih ekstrema, gdje bi nakon utakmice s, za njega, malih 20+ koševa sljedeća bila 30+ ili 40+. Nekim košarkašima je utakmica 30+ bila legendarna i bili su top tema tjedna/mjeseca. Za MJ23 ekstrem su bile utakmice 50+ i više, a regresija na srednju vrijednost sljedeće utakmice s 40+ i 30+ koševa.
Regresija na srednju vrijednost u prometu je posebice delikatna (bolna) tema. Svi se vole hvaliti, a analize tipa "prije – poslije" su Bogom dane za hvaliti se. Prijašnjih pet godina je bilo loše, nešto smo napravili, sljedeće godine je puno bolje, a i godinu iznad toga. Nitko više ne pita nakon 3 – 4 godine, kakva je situacija. Ili se zaboravi, ili se stanje koje nije puno bolje (drugačije) nego prije 8 – 9 godina brani tezama o: promijenjenim uvjetima, porastu prometa, nepovoljnim utjecajima. Sve je to (vrlo vjerojatno) istina, ali korisnike prometnog sustava to nije briga, imaju iste (loše) uvjete prometovanja kakve su imali i prije, uz kratkotrajno poboljšanje na koje su zaboravili.
Što je toliko dubiozno kod regresije na srednju vrijednost, najbolje je pokazati u praksi. Iz javno dostupnih podataka hrvatskog prometa našao sam praktičan primjer o prevezenim putnicima u tramvajskom prometu u Zagrebu; o zagrebačkom prometu i dostupnosti podataka putem zagrebačkog Statističkog ljetopisa pisao sam u ovoj temi.
Uzeo sam razdoblje od 2000. do 2019. godine. Od kraja 2000. godine tramvajska mreža nije se mijenjala, a 2019. godina je zadnja godina prije Covid-19 i potresa. Slika pokazuje da se broj putnika mijenjao unutar jedne standardne devijacije s iznimkama 2007. i 2008. godine. Upravo te dvije godine predstavljaju pojavu regresije na srednju vrijednost. Taj izniman porast od 24,6 % u odnosu na prethodno razdoblje nije zadržan već je došlo do pada koji se stabilizirao oko nekog novog prosjeka. Ovisno o parcijalnim interesima i razini (ne)objektivnosti možemo ovaj trend promatrati s dva motrišta.
Prvo, ako gledamo ukupno razdoblje 2000. – 2019. ne možemo govoriti o rastu ili padu; sve se vrti oko jedne standardne devijacije, a koeficijent varijacije kao relativna mjera disperzije je ispod 10 %.
Drugo, ako pristupimo analizi stanja "prije-poslije". Ako je stanje "prije" 2000. – 2006., a stanje "poslije" 2010. – 2019. onda možemo govoriti o porastu broja putnika od 4,7 %. Porast je, ali je i činjenica da je prosjek 2010. – 2019. manji od ukupnog prosjeka 2000. – 2019..
U pojavi
regresije na srednju vrijednost možemo identificirati tri veličine. Sljedeća
slika pokazuje cijelu "inženjersku muku". Nešto smo napravili i to se vidi,
hvalimo se time i mislimo da smo postigli dobro (najbolje) rješenje. To je percipirani
dobitak. Budući se radi o ekstremu, a ne trendu, dolazi do smanjenja do
neke prosječne vrijednosti, pa taj percipirani (umišljeni) dobitak moramo
podijeliti u dva skupa. Prvi je je regresija na srednju vrijednost, a
ako ipak nešto i ostane onda imamo stvarni dobitak, ono čime se zaista
možemo hvaliti.
Ova statistička pojava je najviše vezana za sigurnost prometa. Britanci su pri vrhu glede sigurnosti prometa na europskim cestama. Objavljuju priručnike naziva "A Road Safety Good Practice Guide" za različite dionike i razine prometnih uprava, ali svi oni spominju "Regression to the mean". Priručnici upozoravaju da se mjesta za sanaciju često odabiru nakon pojave velikog broja nesreća, a do smanjenja bi, zbog regresije na srednju vrijednost, došlo i bez ikakvih intervencija (ulaganja). Napominju da čak i period od tri godine s povećanim brojem nesreća vjerojatnije predstavlja slučajnu oscilaciju, gdje će nakon toga doći do smanjenja broja nesreća, nego li trend pogoršanja sigurnosti prometa. Njihova iskustva kažu da regresija na srednju vrijednost u prvoj godini nakon intervencije ima utjecaj 15 – 26 %, u drugoj godini 7 – 15 %, a u trećoj godini 5 – 11 %. Prevedeno na inženjerski rječnik, ako smo nešto napravili (potrošili novac) i postigli u prvoj godini poboljšanje 20 %, prije možemo govoriti o stvarnom dobitku od najviše 5 % (što nije malo, ako je istina) ili uopće nismo utjecali na prometni proces, odnosno poboljšanje je isključiva zasluga pojave regresije na srednju vrijednost.
U preporukama prilažu i konkretan izračun procjene
regresije na srednju vrijednost koji ću kratko komentirati. Prikazani postupak
temelji se na empirijskom Bayesovom modelu; apriorna vjerojatnost utvrđuje se
temeljem podataka, a ne pretpostavljene statističke razdiobe. Da bi se
analizirao stvarni učinak provedenih mjera, rezultati se moraju usporediti sa
statistikom sličnih prometnih objekata na kojima nisu izvršene intervencije.
Treba pronaći slične prometne objekte, a to je zaista vrlo težak
i odgovoran posao. Tko može vrednovati, procijeniti, odlučiti radi li se o
similarnim objektima i prometnim procesima? Treba znanstvenostručnim metodama
(deskriptivna statistika za grupiranja i klasificiranje prometnih nesreća,
inferencijalna statistika za testiranje definiranih hipoteza, tehnologija
prometa za klasificiranje prometnih objekata i procesa, ekonomske kategorije za
potvrdu sličnosti područja u kojima se nalaze objekti, …) potvrditi "sličnost"
drugih prometnih objekata (procesa) s promatranim objektom. Kada se prikupe
podatci izračun je jednostavan.
R – utjecaj regresije na srednju vrijednost
a – prosječan broj nesreća na sličnim lokacijama
var(a) – varijanca
A – ukupan broj nesreća na predmetnoj lokaciji
n – broj promatranih godina
Uzmimo sljedeći primjer. U petogodišnjem razdoblju na nekoj
lokaciji smo imali prosječno godišnje 14,40 prometnih nesreća; ukupno 72
nesreće u pet godina. Nakon intervencije u sljedećih pet godina prosjek se
smanjio na 11,80 nesreća ili ukupno 59 nesreća. Smanjen je broj nesreća za 18,1
%. To je percipirani dobitak. Koliko je u tome regresije na srednju vrijednost,
a koliko stvarnog poboljšanja pokazat će izračun. Istraživanja sličnih lokacija
dala su prosječan godišnji broj nesreća 11,23 s varijancom 2,04. U odnosu na
slične lokacije na promatranoj lokaciji događalo se 28 % više nesreća i to je
bio razlog za intervenciju. Možemo izračunati:
Da nismo izvršili nikakve intervencije prosječan broj nesreća bi pao za 7,1 %, odnosno na 13,4 nesreća. Zato možemo zaključiti da smanjenje broja nesreća od 18,1 % ima pokriće u našim aktivnostima (stvarni dobitak) od 11,0 %, a 7,1 % predstavlja regresiju na srednju vrijednost. Sada možemo objektivno zaključiti jesu li poduzete aktivnosti bile prometno, društveno i financijski opravdane. Ponavljam, ovom jednostavnom izračunu prethodi nalaženje i analiza sličnih prometnih objekata; vrlo težak i odgovoran posao.
Internet vrvi od priča o regresiji na srednju
vrijednost u pitanjima sigurnosti prometa, ali s jako (nimalo) konkretnih
podataka (pokazatelja). Naći ćete brojne članke i znanstvenostručne radove koji
spominju i upozoravaju ali ne nude konkretne primjere (dokaze, iskustva). Uspio
sam naći jedan relevantan izvor s podatcima iz (pra)davne 1998. godine koji
nudi konkretne brojeve temeljene na istraživanju 900 lokacija sa ukupno 13.612
prometnih nesreća. Tablica pokazuje devet različitih tipova intervencija gdje
su u četiri slučaja stvarni utjecaji bili za 50 % i više manji zbog pojave
regresije na srednju vrijednost, u četiri slučaja za 30 % i više, a samo u
tjednom slučaju je regresija na srednju vrijednost utjecala malih 4 %. Metodologija
se zasnivala na usporedbi broja nesreća u tri razdoblja: (a) prije; prije
identifikacije lokacije, (b) prijelazno; od trenutka identifikacije lokacije do
primjene određene mjere i (c) poslije; nakon aplikacije mjere. Razlika broja
nesreća u prijelaznom razdoblju i razdoblju prije uzeta je kao mjera regresije
na srednju vrijednost. Sličan postupak primijenio sam u opisu broja putnika u
zagrebačkim tramvajima.
Zato se kaže da sigurnost prometa nije pitanje jednostavne deskriptivne statistike (više, manje, iznad/ispod prosjeka, trend, ekstremno). Iskustva europskih država s najboljim pokazateljima sigurnosti cestovnog prometa temelje se na uspostavi relevantne nacionalne znanstvene metodologije koja je nastala simbiozom prometnih, građevinskih, statističkih i ostalih matematičkih, ekonomskih, pravnih, socioloških, psiholoških i drugih inih znanja. Uzmimo za primjer samo javnu rasvjetu. Laički, na brzinu mogu navesti sljedeće struke: medicinari (oftalmolozi) će reći kako ljudsko oko funkcionira i adaptira se u različitim uvjetima, a kineziolozi koliko brzo će nam ruke/noge odraditi željenu akciju, elektrotehničari će odrediti tehničko rješenje javne rasvjete, a građevinari konstrukciju, dok će arhitekti predložiti dizajn ne smanjujući funkcionalnost, a prometaši će sve to "spakirati" u prometni prostor. Znanstveni dio posla je sistematiziran u različitim propisima, normama, smjernicama i preporukama za javnu rasvjetu, a inženjerski (stručni) dio posla je zadaća ovlaštenih inženjera u svakom konkretnom problemu (projektu).
Za hrvatske uvjete, glede sigurnosti prometa, relevantni
i vjerodostojni izvori su MUP i DZS. Podatci o prometnim nesrećama, poginulim
na milijun stanovnika i ponderu nesreća (1 = nesreća, 9 = poginuli, 5 =
ozlijeđeni) od 1971. do 2022. godine prikazani su na sljedećoj slici. Koja
razdoblja upućuju na zakon velikih brojeva, je li bilo pojavnosti regresije na
srednju vrijednost, koja razdoblja su dobri/loši trendovi, je li uopće bilo
ovih ili nekih drugih statističkih pojavnosti, svatko ima priliku sam
istražiti. Naravno, jednodimenzionalno gledanje statističkih pokazatelja nije
znanstvenostručno utemeljeno. Izmjene zakona iz područja sigurnosti prometa,
izmjene propisa i stanja bankarskog tržišta glede dostupnosti automobila,
gospodarske krize, fluktuacije cijena nafte i njihov utjecaj na cijene goriva, akcije
na unaprjeđenju sigurnosti prometa i drugi utjecaji prometnih politka,
Domovinski rat, manje ili više (ne)važne izmjene gradskih i (auto)cestovnih
mreža, …, sve je to (ne)izravno utjecalo na prikazanu povijest prometnih nesreća. Statistika
je (ne)iskrena koliko smo mi sami (ne)iskreni. Podatci
su javno dostupni na stranicama MUP-a i DZS-a pa svatko sam može istražiti uzroke
(razloge) nekih trendova i promjena.
Našao sam još jedan zanimljiv i poučan primjer izvan inženjerske struke. U SAD-u neki koriste ovu pojavu za (jako) dobru i laku zaradu. Prate trendove tvrtki i nakon pojave negativne ekstremne vrijednosti u poslovanju javljaju se sa "spasonosnim" planom za oporavak uz što prilažu i reference prijašnjih poslova. Oporavak (povratak ka prosjeku – redovitom poslovanju) će se svakako dogoditi u većoj ili manjoj mjeri, prije ili kasnije. U svakom slučaju, "stručnjak" je opravdao svoj angažman i ugovorenu (veliku) nagradu. Tako se zlorabi pojava regresije na srednju vrijednost i atmosfera američkog poslovnog svijeta u kojem je korisno nedjelovanje znak slabosti i uvijek veći krimen od štetnog djelovanja.
Od stare narodne "sve će doći na svoje mjesto" nitko ne može pobjeći. Koliko smo (ne)iskreni prema sebi, toliko smo (ne)iskreni prema rezultatima posla kojeg obavljamo. Ova neizbježna statistička pojava jako dobro testira znanje i integritet osobe kao inženjera/ke.