Percentilni rang

2024-03-15

Primjena percentila kada podatci ne upućuju na neku uobičajenu statističku zakonitost.

Ovaj blog puno pažnje posvećuje prometnim trendovima. Većinom se radi o makro podatcima, a oni uvijek imaju lijepu karakteristiku uklapanja u neku statističku razdiobu ili linearnu aproksimaciju (interpolaciju, ekstrapolaciju). U temi koja se bavila prikazom podataka o brojanju prometa sam nešto konkretnije obradio podatke koji su opisivali lokalni proces. Iako je naglasak bio na prikazu (prezentaciji) podataka, ipak sam jednim konkretnim primjerom pokazao kako je teško prilagoditi podatke iz stvarnog života nekoj statističkoj teoretskoj razdiobi. U istoj temi sam također spomenuo kutijasti dijagram (box plot) koji može ukazivati na stršeće vrijednosti (outliers); vrijednosti koje znatno odskaču (minimalno i/ili maksimalno) od većine podataka. Svaka izvanredna situacija u prometu bitno mijenja regularni (ustaljeni) prometni proces i pitanje je koliko su podatci iz takve situacije relevantni za opis regularnog stanja. Primjerice, ako tijekom promatranja (mjerenja) količine prometa dođe do prometne nesreće, zasigurno će doći do znakovite promjene ponašanja prometnog toka: manje vozila prolazi presjekom ceste nakon mjesta nesreće, a prije mjesta nesreće dolazi do zastoja, malih brzina, puno je veća gustoća zbog stani-kreni vožnje. Analiza takvih podataka, ne znajući za prometnu nesreću, će nas odvesti u krivom smjeru.

Što kada imamo puno točnih i vjerodostojnih podataka vezanih za regularni prometni proces, ali toliko "zbrčkanih" da nemaju "niti glavu, niti rep"? Sljedeći graf prikazuje takav slučaj. Radi se o mjerenju brzina na presjeku jednog cestovnog koridora u Zagrebu tijekom jednog poslijepodnevnog sata radnog dana u 2018. godini. Vremenski uvjeti su bili dobri (prosječni), nije bilo nikakvih izvanrednih situacija, običan (prosječan) poslijepodnevni sat radnog dana. Prošlo je 2.797 vozila u jednom satu, respektabilan broj, ali kako god grupirali podatke, po kakvim god razredima brzina, nećemo dobiti neku poznatu statističku razdiobu koja bi nam omogućila i znatno olakšala zaključivanje

Možemo lako odrediti osnovne mjere centralne tendencije (središnje vrijednosti):

  • aritmetička sredina je 39,9 km/h,
  • standardna devijacija je 9,0 km/h,
  • minimalna vrijednost je 25 km/h,
  • medijan (sredina skupa) je 38,8 km/h,
  • maksimalna vrijednost je 77 km/h,
  • moda (najčešća vrijednost) je 36 km/h (vidljivo iz grafa da se 189 vozila kretalo tom brzinom),

sve je to divno i krasno, pregršt podataka, ali kako dalje? Pogledajmo samo aritmetičku sredinu. Lijevo od 39,9 km/h nalazi se 14 klasa brojeva, a desno je čak 34 klase s višim brojevima. Medijan je vrlo blizu i kaže nam da se 50 % podataka "stisnulo" u intervalu 25 – 38,8 km/h, a preostalih 50 % je "rašireno" u intervalu 38,8 – 77 km/h. Manji interval ima raspon 13,8, a viši 38,2 – gotovo tri puta više.

Opći podatci nisu dostatni, ne možemo naći neki reprezentant skupa koji bi bio statistički relevantan. Možemo "zažmiriti" i reći da je medijan u ovom slučaju najbolji pokazatelj. Svaki skup prometnih podataka ima neku svoju karakteristiku, neko jedinstveno svojstvo. Brzina u prometu ima gornji prag dopuštene brzine i donji prag koji nam govori kada možemo govoriti o zagušenju, a kada o stani-kreni vožnji, povećanim repovima čekanja i dr.. Zato sam i uzeo primjer brzine jer će nas jedan pokazatelj uputiti kako promatrati ovakve skupove podataka. Radi se o osamdesetpet percentilnoj brzini (V85). Želja je da da V85 bude jednaka ili niža od dopuštene brzine jer time ostvarujemo dvostruku korist: (1) 85 % ljudi vozi sigurno unutar dopuštene brzine i (2) 85 % vozača u uvjetima povećanog prometa sprječava onih 15 % neodgovornih za razvijanje većih brzina od dopuštenih.

Za izračunati percentil moramo prvo podatke sortirati od najmanjeg do najvećeg. Nakon toga je lako izračunati položaj svakog elementa u skupu. Idemo izračunati V85 za brzinu iz prethodnog grafa. Nakon sortiranja podataka kojih ima 2.797, položaj V85 je lako pronaći kroz funkciju najmanje cijelo koja traži cijeli broj koji nije manji od izračunatog:

Odgovor bi morali potražiti pronalazeći koja se to brzina nalazi na 2.378. mjestu u skupu. Koristit ću Excel funkciju PERCENTILE koja daje trenutni odgovor. Odgovor za V85 = 49 km/h. Budući je na tom presjeku ograničenje brzine od 60 km/h, možemo biti zadovoljni jer 85 % vozača vozi čak 11 km/h manjom brzinom. Ili moramo biti zabrinuti jer zbog tolike količine vozila (2.797 voz/h ili prosječno 932 voz/h u jednoj prometnoj traci) prometni tok ne ostvaruje dopuštenu brzinu. Istina da propusna moć u isprekidanim uvjetima vožnje (interrupted flow), odnosno gradskim uvjetima, ne ovisi o brzini i gustoći, već o intervalima slijeđenja, ali moramo pomalo razmišljati o makro pokazateljima prometnog toka pa ova dobra vrijednost za sigurnost prometa, nije toliko (moguće) dobra glede propusne moći. Sljedeće pitanje je logično, koliko vozača vozi iznad 60 km/h? Jednostavno, moramo pronaći u skupu broj veći od 60, odrediti njegovu poziciju i tada znamo odgovor. Excel je opet od pomoći jer njegova funkcija PERCENTRANK daje trenutni odgovor. U našem slučaju je to 95,6 %. Preostalih 4,4 % (ili 123 vozača) vozi više od 60 km/h. Vidimo da je maksimalna brzina 77 km/h pa možemo vidjeti koliko vozača vozi iznad 70 km/h? Odgovor je 0,75 % pa znamo da 21 vozač vozi 70 km/h i brže. Zanimljivo da je njih 19 to ostvarilo u zadnjih 10 minuta mjerenja pa možemo špekulirati o smanjenju količine prometa pri kraju mjerenja; manja gustoća prometa je omogućila veće brzine.

Vratimo se opet cjelovitim podatcima. Podjelom skupa na decile (po 10 %) dobivamo podatke prikazane u tablici, a grafički prikaz će možda bolje opisati karakteristike brzina. 

Graf kumulativne razdiobe pokazuje većinom "dobro ponašanje" skupa. Sve je ujednačeno u prvih osam decila, do 80 % podataka skupa. Razredi brzina su 1 – 3 km/h; najmanji je između 30% i 40 %, a najveći su između 20 % i 30 % te 60 % i 70 %. Nije problem niti razred između 80 % i 90 %; širok je 7 km/h, ali najvažnije da brzina 90 % svih vozila (voze 52 km i manje) ne prelazi dopuštenu brzinu. Posljednji razred je širok 25 km/h i to je zasigurno dilema koju inženjer(ka) mora razriješiti prije konačnog zaključka o ponašanju prometnog toka glede količine prometa i brzine. 

Sljedeći graf prikazuje međusobnu ovisnost tri pokazatelja: decil skupa, prag vezan za pojedini decil i frekvenciju (broj vozila) unutar pojedinog decila. Najviše vozila (394) je između 20 % (32 km/h) i 30 % (35 km/h) decila. Iz ovog grafičkog prikaza to je jasno. Je li to jasno iz prvog grafa s frekvencijama brzina na početku ove teme, neka svatko sam zaključi. Ovaj graf izgleda "normalan" za 90 % svih podataka, tih devet decila se proteže linerano, jedino zadnji decil odskače. 

U ovom slučaju su grafovi temeljeni na percentilima "uređeniji", "smireniji" i smisleniji u prezentaciji podataka u odnosu na graf koji prikazuje frekvencije brzina. To je snaga percentilnog promatranja i rangiranja podataka. Brzo i lako shvaćamo ponašanje prometnog toka glede brzine, gdje su neuobičajene pojave (ovdje pri višim brzinama), a gdje je jezgra cijelog skupa.

Percentilno promatranje skupa upućuje na još nekoliko važnih pokazatelja. Skup se dijeli u kvartile (četvrtine) i promatra se pet vrijednosti koje se prikazuju kutijastim dijagramom (box plot):

  • min; minimalna vrijednost; u primjeru to je 25 km/h
  • Q1; 25-ti percentil (25 %); u primjeru 34 km/h,
  • Q2; medijan (50 %); u primjeru 38 km/h,
  • Q3; 75-ti percentil (75 %); u primjeru 44 km/h,
  • max; maksimalna vrijednost; u primjeru 77 km/h.

Sljedeća važna veličina je interkvartilni raspon (IQR), razlika između Q3 i Q1. To je interval u kojem je smješteno 50 % podataka skupa. U našem primjeru je IQR = Q3 – Q1 = 44 – 34 = 10 km/h pa zaključujemo da se intervalu brzina od samo 10 km/h nalazi 50 % podataka. U našem slučaju je 1.398 vozača (50 % svih vozača) vozilo brzinama 34 – 44 km/h.

Postoje još dva važna podatka, a to su donja i gornja stršeća vrijednost (low and high outlier). Stršeće vrijednosti su podatci koji su znatno manji ili veći od drugih izmjerenih vrijednosti. Njihov izračun je jednostavan:

  • minO = Q1 – 1,5*IQR = 34 – 1,5*10 = 19 km/h,
  • maxO = Q3 + 1,5*IQR = 44 – 1,5*10 = 59 km/h.

Kod minimalnih vrijednosti nemamo problema, jer je minimalna vrijednost skupa (25 km/h) viša od donje stršeće vrijednosti (19 km/h). Kod maksimalnih vrijednosti imamo problem jer iznad stršeće vrijednosti imamo čak 122 podatka. Jesu li ti podatci nastali u uvjetima zbog kojih ih treba zasebno promatrati? Ne, rekli smo na početku teme da su svi podatci prikupljeni u regularnim uvjetima. Ako ga nismo imali (pronašli) do sada, sada imamo stručni materijalni dokaz da količina od 2.797 voz/h na mjerenom presjeku stvara veliku interakciju između vozila. Tijekom mjerenog sata vozila su se kretala u uvjetima forsiranog toka, a svako smanjenje gustoće vozači su iskorištavali za brže kretanje. Na sreću, 90 % svih kretanja nalazi se ispod limita dopuštene brzine, a najveći udio brzina viših 70 km/h ostvaren je u posljednjih 10 minuta mjerenja pa možemo zaključiti da je je promet opao pri kraju mjerenog sata. Dokaz tome su sljedeća dva grafička prikaza brojanja prometa po 10-minutnim intervalima te vremenske razdiobe brzina.

Svaki grafički prikaz ima svoju specifičnost (vrijednost), ali svatko dobronamjeran mora priznati da je percentilni prikaz u smislu ispitivanja općih karakteristika određenog skupa podataka, koji ne podliježu nekoj teoretskoj statističkoj razdiobi, puno jasniji – izravnije upućuje na neke pojavnosti. Kada bi krenuli klasičnim načinom koji je prezentiran s prethodna dva grafa (vremenske serije) mogli bi zaključiti: promet je velik i pada od 20. minute, brzine su podijeljene slučajno i ne podliježu nekoj teoretskoj statističkoj zakonitosti, a najviše (i nedopuštene) brzine se postižu u posljednjih 10 minuta. Trendovi su vidljivi i jasni, ali više od toga ne možemo spoznati, niti brojčano (kvalitativno) opisati. Percentilni rangovi nam, osim svih do sada opisanih značajnosti, pokazuju da u rasponu brzina od 19 km/h (između 25 i 44 km/h), kako pokazuje kutijasti dijagram, možemo naći čak 75 % vozila, a preostalih 25 % je razvučeno u rasponu od 33 km/h (između 44 i 77 km/h).

Ako skup podataka ne možemo opisati nekom teoretskom statističkom razdiobom, onda nas analiza putem percentila, decila i kvartila može uputiti, a često nam i otkriti prirodu prometnog procesa/pojave. 

Zdenko Lanović
2021.
Izradio Webnode
Izradite web-stranice besplatno! Ova web stranica napravljena je uz pomoć Webnode. Kreirajte svoju vlastitu web stranicu besplatno još danas! Započeti