Pošten čovek mora da prizna da statistika i pornografija imaju ponešto zajedničko. Recimo, obe pojave podležu izreci veće je bolje.
1. Uvod.
No, ipak mora postojati nekakva razlika, jer se statistika može naći u knjigama, a pornografija tek u časopisima presvučenim celofanom. Da bismo razliku razumeli, razmotrimo tipičan pornografski događaj:
Dugački Dule šeta ulicom. Zvižduće, ruke u džepovima. Zastane da zaveže pertlu, i slučajno zvirne kroz prozor. Kad tamo: gola teta na stolici. Pogleda Dule levo: ulica, pogleda desno: opet ulica; zatvori oči, otvori oči, pogleda kroz prozor, kad tamo: gola teta na stolici. Opet pogleda levo: ulica, pogleda desno: nema greške, ulica; pogleda kroz prozor, kad tamo: gola teta na stolici ga zove da uđe. Dugački Dule zaista i uđe, zbog čega mu niko ne može zameriti, uprkos svesnosti da se nikome nikada u realnom životu tako nešto neće desiti.
Ispričan rečnikom statistike, gornji događaj glasi ovako:
Italijanski matematičar Mario Lazarini je u osvit dvadesetog veka jednog jutra ustao, otvorio fioku, u njoj našao 3408 igala dužine 5/6 širine paralelnih dasaka od kojih se sastojao njegov pod, bacio ih na pomenuti pod, podelio ukupan broj igala sa brojem onih igala koje makar dodiruju ivicu bilo koje daske… i dobio broj π u obliku 355/113, što znači sa tačnošću od… 0,0000085%. Matematičari mu do kraja svemira neće oprostiti tu naivnu prevaru. I to pre svega jer je naivna.
(Napomena: Broj π je količnik obima i prečnika kruga koji se ne može tačno predstaviti kao količnik dva cela broja, pa svako pamti onoliko decimala koliko mu srcu drago, u mom slučaju π=3,1415926536).
Zaključujemo: dok su slučajnosti alfa i omega pornografije, dotle su te iste slučajnosti državni neprijatelj broj 1 statistike.
Sada ćemo, na veliku žalost zainteresovanog čitaoca, ostaviti po strani pornografiju, i pričati o tome zašto je Lazarini prosipao igle i kako znamo da je bio baraba.
2. Istorijat
1733. godina bila je, sa stanovišta današnjih merila, bedno dosadna, ili je bar takvom Wikipedia predstavlja. Jedini iole interesantan događaj bio je osnivanje masonske lože na teritoriji koju danas nazivamo SAD. Možda baš iz dosade, a možda zbog previše dobrog vina, francuski naturalista Georges-Louis Leclerc, Comte de Buffon (u daljem tekstu Bufon) te godine postavlja pitanje:
Pretpostavimo da imamo pod napravljen od paralelnih drvenih dasaka jednake širine. Koja je verovatnoća da će igla koja padne na pod makar dotaći ivicu bilo koje daske?
Tamo gde je veoma lako postaviti Pitanje, dati Odgovor može biti zametan posao (što jako dobro zna svako ko je učestvovao u odrastanju bilo kog deteta). Da li je na pitanje zaboravio, ili se baš niko oko pitanja nije zabrinuo, ili je odgovor bio zaista težak – ne znamo, no isti taj pitalac Bufon tek 44 godine kasnije daje odgovor: u slučaju da je igla iste širine kao i daske od kojih se pod sastoji, verovatnoća je odličnih 64%.
Ali tu je tek početak priče . Pandorina kutija je otvorena, industrijska revolucija se zahuktala i sa sobom donela privredni rast koji je omogućio da se matematikom bavi i ko treba i ko ne treba. Najverovatnije baš zato se, pre početka dvadesetog veka, ispostavilo sledeće:
Ako na pod napravljen od paralelnih dasaka jednake širine bacimo iglu užasno mnogo puta, količnik ukupnog broja bacanja i broja onih bacanja kada je igla makar dotaći ivicu bilo koje daske teži broju π.
Pošto je uzastopno bacanje jedne igle frapantno dosadan posao, matematičari su odmah stvar uprostili:
Ako na pod napravljen od paralelnih drvenih dasaka jednake širine bacimo užasno mnogo igala, količnik ukupnog broja bačenih igala i broja onih igala koje su makar dotakle ivicu bilo koje daske teži broju π.
(Napomena: prethodne dve tvrdnje su donekle uprošćene; i igle takođe moraju da budu određene dužine, ali bi cepidlačenje oduzelo dozu unutrašnjeg besmisla koju navedene tvrdnje imaju, pa ih ostavljamo ovakve kakve su).
Eto, to je Lazarini želeo: da proveri jednu, zdravom razumu sumanutu, tvrdnju. To je želeo, i u tome je uspeo. Nažalost, uspeo je toliko dobro da smo potpuno sigurni da je njegov rezultat namešten. U nastavku ćemo to i pokazati, sa podlim ciljem da čitaoca statistički edukujemo.
3. Model
Ponavljanje već viđenog u nauci je ne samo poželjno već i neophodno. Zato ćemo sada videti kako se može ponoviti Lazarinijev (pre)uspešni eksperiment, i to bez ikakvih podova i igala, на душеку све дуван пушећи. Učinićemo to za jednostavan slučaj kada je igla duplo kraća od širine daske, nema potrebe da se previše zamaramo.
Evo slike jedne igle na podu. Širina daske je 2, a kooordinatni početak je provučen kroz sredinu daske, tako da je deli dva segmenta, negativni i pozitivni. Dužina igle je 1:
Pre svega, obratite pažnju kako matematički modeli uprošćavaju stvari koje su nebitne: širina daske je dva, dužina igle je jedan. To znači da širina daske može da bude četiri mikrona, ili deset kilometara, ali samo ako je dužina igle odgovarajućih dva mikrona, odnosno pet kilometara.
Dve stvari određuju položaj igle kada ona padne na zemlju, položaj sredine igle X, i ugao nagiba igle θ. Ova dva parametra su i jedini, i potpuno slučajne veličine. Pošto je ugao od 180 stepeni jednak π radijana, onda njega možemo zgodno modelirati kao k*π, gde je k slučajan broj između 0 i 1. Takođe, pošto je daska simetrična, i položaj sredine igle možemo uzeti iz istog opsega.
Jasno je kao beli dan dan će igla preseći gornju ivicu daske samo ako je položaj krajeva igle veći od jedan, dakle:
I to je to. Model nam je dao uslov koji mora da uspunjava bačena igla da bi se kvalifikovala u poteru za brojem π.
Rekapitulirajmo: model je veoma jednostavan, ima samo dva parametra koji se slučajno biraju iz istog opsega (0,1). Takođe je i uslov uspešnog događaja sramotno prost. Zato je vreme da se model stavi u akciju i vide njegovi rezultati.
4. Test
Da vidimo šta dobijamo ako, prema predloženom modelu, bacimo stotinu igala stotinu puta na pod:
Na grafiku svaka tačka označava rezultat jednog bacanja stotinu igala na pod. Vidimo da se rezultati dosta rasipaju, jednom smo dobili debelo preko pet, a jednom tek nešto više od dva. Ali se takođe primećuje da rezultati možda teže broju π, označenom crvenom linijom.
Pogledajmo sada šta dobijamo ako bacimo sto hiljada igala stotinu puta:
Ovo je već mnogo bolje, tendencija se jasnije uočava. Ali, ne budimo lenji, pa podignimo lestvicu još jednom, bacimo milion igala stotinu puta:
Ovde je stvar jasna: praktično svaki put kada bacimo milion igala na Bufonov pod, odnos ukupnog broja igala i broja onih igala koje makar dodiruju ivicu dasaka biće π. Gledano unazad, ovaj rezultat potvrđuje i korektnost modela. Ura!
5. Statistička obrada
Pošto smo uvereni u korektnost modela, možemo sada pristupiti statističkoj obradi. Evo tipičnog statističkog grafika kada deset hiljada igala bacamo hiljadu puta:
Primetimo, pre svega, da je na grafiku nacrtana tačna vrednost koju jurimo, π. Obično, kada nešto merimo mi ne znamo unapred tačnu vrednost. Zato koristimo srednju vrednost, količnik zbira svih rezultata i ukupnog broja merenja. To je prvi parametar teorijske statističke obrade podataka o kojoj će kasnije biti reči. U slučaju grafika sa slike, srednja vrednost je 3,142382, a to znači da je naša greška merenja 0,025%.
Srednja vrednost i greška merenja zavise i od broja igala i od broja bacanja. Ako bismo bacili hiljadu igala hiljadu puta, ili deset hiljada igala sto puta, dobili bismo i 10 puta veću grešku. Ljudi u svakodnevnom životu ovo intuitivno osećaju, pa verovatno svaki narod na svetu ima izreku tipa Triput meri, jednom seci.
Dalje, vidimo da na slici zapravo imamo dva grafika, jedan novobeogradski, obično se naziva histogram; i drugi fruškogorski, koji predstavlja teorijski grafik takozvane normalne raspodele.
Histogram je grafik dobijenih rezultata; na horizontalnu osu se nanose intervali dobijenih vrednosti, a na vertikalnu verovatnoća da neki rezultat upadne u određeni interval. (Kako dobijamo tu verovatnoću? Prosto podelimo broj rezultata u jednom intervalu sa ukupnim brojem rezultata). Što je neki soliter viši, to je verovatnoća dobijanja rezultata iz tog intervala veća. Tačna vrednost se na gornjem histogramu nalazi u intervalu čija je verovatnoća nešto veća od 0,06, odnosno 6%.
Sa histograma dalje možemo direktno da pričitamo da ćemo, ako deset hiljada igala bacimo hiljadu puta, u 60 slučajeva dobiti vrednost izuzetno blisku π, a još nekih 110 puta ćemo biti u najbližim intervalima, odnosno u zoni veoma male greške. Sve u svemu, od hiljadu bacanja dobićemo 170 merenja kojima smo super zadovoljni, što daje oko 17% šanse za dobrim uspehom.
Pogledajmo sada šta se događa ako, za isti broj igala, povećamo broj bacanja. Sledi grafik bacanja deset hiljada igala deset hiljada puta:
(Na ovom grafiku, srednja vrednost je 3,141319, a greška 0,0087%).
Vidimo da se tačna vrednost se na histogramu nalazi u intervalu čija je verovatnoća pristojno veća od 0,07, odnosno 7% – u preko 700 slučajeva ćemo dobiti vrednost izuzetno blisku π. Takođe, u dva susedna intervala imamo još oko 1400 rezultata. Sve zajedno, to je preko 20% šansi za odličnim uspehom: svako peto bacanje će biti sjajno.
Zaključak je interesantan: kada povećavamo broj pokušaja, povećava se šansa za dobar rezultat. Statistička teorija daje parametar koji može da izmeri ovo povećanje šanse, imenom standardna devijacija.
Standardna devijacija se dobija u tri laka koraka:
- Svaki rezultat merenja oduzme se od srednje vrednosti, i digne na kvadrat. Ovo dizanje na kvadrat je bitno jer se tako eliminiše nevažni podatak o tome da li je rezultat veći ili manji od standardne vrednosti.
- Tako dobijene vrednost se saberu, i podele ukupnim brojem događaja. Na taj način se dobija parametar koji se naziva varijansa.
- Iz varijanse se izvuče kvadratni koren.
Pošto standardna devijacija uključuje razliku rezultata merenja i srednje vrednosti, logično je da želimo da nam standardna devijacija bude što manja. Golim okom kada uporedimo grafike hiljadu-bacanja-deset-hiljada-igala i deset-hiljada-bacanja-deset-hiljada-igala, vidimo da je drugi grafik uži, strmiji, oko srednje vrednosti. Ta vizuelna razlika je upravo poenta standardne devijacije: kod drugog grafika je ona 0,0458, dok kod prethodnog iznosi 0,0464. Razlika je mala, ali iznenađujuće lepo vidljiva. I to je još jedan razlog za korišćenje standardne devijacije : veoma male razlike su nam vizuelno veoma lako uočljive.
Primetimo dalje kako crvena linija normalne raspodele ograničava jednu površinu koju soliteri sasvim lepo popunjavaju. I zaista: površina ispod crvene linije je u dlaku ista kao i površina solitera. Pa da kažemo par reči o roj krivoj: to je teorijska kriva normalne raspodele, koja najbolje oponaša sve izmerene vrednosti.
Normalna raspodela (ima oblik zvona, pa se ponekad zove i zvonasta kriva) se u svakoj tački može nacrtati poznavanjem srednje vrednosti i standardne devijacije. Ukoliko nam treba da nekome kažemo rezultat merenja, ne moramo da mu šaljemo hiljadu podataka, već samo dva: srednju vrednost, i standardnu devijaciju. Na osnovu ova dva podatka možemo nacrtati crvenu liniju. I logično, što je standardna devijacija manja, to će crvena linija biti uža oko maksimuma (srednje vrednosti), što znači da će se više rezultata naći baš u tom prostoru, koji je i prostor najveće verovatnoće.
6. Stvaranje krize
Dobra teorijska razmatranja praktičnih problema moraju da uključe u sebe i realnije ishode. Pretpostavka našeg modela o dužini igle (da je ona tačno polovina širine daske) je surova i totalno nerealna. Takođe, naći deset hiljada igala potpuno iste dužine nije realno. Zapravo, i jedan i drugi tip “greške” je potpuno normalan: u procesu proizvodnje igle uvek će biti nepravilnosti. Statistika nam omogućava da vidimo kako te varijacije dužine utiču na konačan ishod.
Pogledajmo prvo kako variranje dužine igle, pod pretpostavkom da su sve igle iste (tačne ili pogrešne) dužine, utiče na grešku konačnog rezultata. Sledi grafik gde je hiljadu puta bačeno hiljadu igala, a dužina svih igala je promenjena za procenat sa horizontalne ose:
Ovo je divan grafik iz klase sve jasno kao beli dan: greška rezultata praktično monotono prati grešku dužine igle.
Pogledajmo sada kako promene dužine jedne igle utiču na standardnu devijaciju, odnosno pouzdanost konačnog rezultata. Sledi grafik gde je hiljadu puta bačeno hiljadu igala, pri čemu je dužina svake pojedinačne igle slobodno varirala u granicama procenta sa horizontalne ose, (1-fiksni procenat,1+fiksni procenat):
Opet imamo lepu linearnu zavisnost; slučajne razlike u dužini igle od već ±10% dovode do ozbiljnog povećanja rasipanja rezultata: standardna devijacija se povećava duplo. Ovo je tipičan rezultat koji je praktično primenljiv: za određeni broj bacanja određenog broja igala možemo sa sigurnošću da očekujemo neku standardnu devijaciju. Ako ona izostane, ako bude značajno različita, imamo sistemski problem u procesu proizvodnje koji valja istražiti.
7. Lazarini, nismo te zaboravili
Sve je dakle, u redu. Model je dobar, analiza pokazuje odlične rezultate. Pokušajmo sada da reprodukujemo Lazarinijev eksperiment. Prethodna piča nas je opremila znanjem, pa znamo da treba bacimo Lazarinijevih 3408 igala određeni broj puta, recimo hiljadu:
Nema šanse. Model daje grešku od 0,14%, ništa ni blizu Lazarinijevog rekorda.
Ali. Ako pogledamo pojedinačne rezultate, vidimo frapantnu stvar: Lazarinijeva tačnost je dostignuta u pojedinim slučajevima. I to u ogromnih (za tako dobru tačnost) 1%! Kada detaljnije pogledamo problem, videćemo da se takva tačnost pojedinih rezultata ne dobija za bilo koju dužinu igle, ni za bilo koji broj igala. Dakle, Lazarini je učinio tri stvari: odabrao je tačno određenu dužinu igala, odabrao je tačno određeni broj igala, i, na kraju, odabrao je tačno određene rezultate. Svako pojedinačno činjenje od ova tri je statistički nedozvoljeno; sva tri su težak statistički zločin.
Nije Lazarini jedini, naravno. Studenti biologije na vežbama ubijaju tek rođene mušice pogrešne boje očiju. Fudbalski klubovi mahnito reaguju na greške sudija… ali tek kada se dese na njihovu štetu. I tako dalje.
Toliko za danas. Konačno, čemu nas je statistika naučila? Što više igala bacimo, dobićemo tačniju vrednost; i dodatno, što više puta bacimo igle, veća je šansa da dobijemo tačniju vrednost.
Ali… zar to isto ne važi i za pornografiju?
Aaaa! Znači statističke greške koje prave “eminentne” kuće prilikom ispitivanja (golog) biračkog tela su ili Duletova ponornografija ili Super-Mariova analiza rezultata.
Čista pornografija: jebanje u zdrav mozak.
Triput sečem i opet kratko.
Кад смо цимер и ја ово радили, било је у виду обичног задатка, мало закомпликованог јер се радило о бацању шибице кроз решетку, па хоће ли да пипне или не. Закомпликованог, јер шибица уопште не мора да буде паралелна са равни решетке, тако да немамо само угао између ње и шипки, него и нагиб – и опет је у резултату јасно фигурирао број π.
Е сад, то “у виду задатка”, то је класични математичарски лов на таленте. Подметну тако неку класичну ствар по принципу “шта дете зна шта је триста кила”, па ако неко реши, реши. Руси су редовно на математичким олимпијадама потурали тако, као задатке, недоказане теореме и проблеме старе деценијама. И виђе врага, сваких неколико година би се појавио неки клинац који би нагазио на ту мину и предао је растављену па састављену.
Ал’ ово је вероватноћа. Што рече др Војислав Марић, “вероватноћа је наука а статистика је метод”. Или, још боље, ВИБ:
статистика, наша дика
што пожелиш,
то наслика
Teško da se išta matematičko može kvalifikovati za nauku, ali hajde, nek’ im bude.
To su ove naše eminentne kuće, sa uzorcima od celih hiljadu građana…
Ако могу историја, социологија, психологија итд, шта фали вероватноћи… но, то ме се не дотиче, ја сам биоматематичар…
А еминентне тровачке куће испитују лекове на пар стотина плаћених добровољаца (обично студената или робијаша), и још оставе у резерви пара за адвокате ако њихови тзв. “лекови” побију нешто јадника чији ближњи после успеју да докажу да је то баш од тога.
O čemu se radi u toj zavrzlami?
Prosto i jednostavno. Puno se baviš matematikom. Teorijski, praktično, apstraktno (a kako drugačije?), bilo kako, ali puno, puno, puno.
I jednog se jutra probudiš i kažeš “život, bre, nije reka! što sam bio, bio sam i neću više da budem matematičar!” i još dodaš “neću, bre, ništa da budem!”.
I tako, kad te drugi pitaju “šta si?”, a ti lepo odgovoriš “bio matematičar”.
биоматематичар?
Prvo bije pa onda sex, ustvari prvo bije pa onda sabira.
Тако некако… а оно “пуно, пуно, пуно” сад више дође на “празно, празно, празно”. Испозаборављало се, зарђало се, прешло се у програмере…
Ima još jedna posledica biomatematičarenja, kada su druga X pitali kako stoji sa tim, a on kaže: “sve više manje”.
Ali više manje nego više.