Jakuzzi backtest

A statisztikai modellezés is pont olyan, mint nagyreményű életünk: összeszeded minden addigi tapasztalatodat, azok alapján hozol egy döntést, majd azt, hogy a döntés milyen hatással volt sorsodra, egy bizonyos idő után értékeled, és ez alapján fogsz legközelebb utat választani már újabb tapasztalatokkal a batyuban. Amikor mi nekifogunk egy statisztikai modellezésnek ugyanezt a pályát járjuk végig: 1) összeszedjük az adatok, agyalunk rajta, hogy mit is akarunk ezzel kezdeni, mire van szükségünk, mit és hogyan tudunk előrejelezni vagy bármilyen modellkörnyezetben fontos összefüggést felfedezni. 2) Megkeressük azt a modellt, ami az adatsokaság alapján a legjobbnak tűnik, és becslést készítünk, akár előrejelzünk. 3) Visszateszteljük az előrejelzést / a modellt, amikor már eltelt az előrejelzés időintervalluma vagy már szignifikánsan több adat áll a rendelkezésünkre. A Fonaton rendszeresen van (bármilyen statisztikai mélységben is) az első és a másodikra példa, de visszatesztelés (szakzsargonban inkább az angol backtest használatos itthon is) jóval kevesebb. Ebben az újabb szezonértékelőnek felfogható posztban az elmúlt egy év posztjainak érdekesebb jóslásait fogom backtestelni – hol mennyire járt messze a Jacuzzi vagy bárki a megvalósuló jövőtől, és mi az, amin esetleg lehetne javítani.1) A nyári ablak pénzmozgásai

Az első könnyedebb példát már láthattátok az idei igazolásos körkérdés posztban. A tavalyi körkérdésben hármotok becslései is bizonyos korábbi tapasztalataitok plusz az elérhető játékosinformációk, stb. alapján született meg. A szürkeállományotokban végbemenő folyamatokról persze nem a matek óra, sokkal inkább a biosz ugrik be elsőre, de ott, az agyban, pont egy olyan adatbányász módszer ment végbe tavaly – és idén is többeteknél -, amit ma neurális hálók néven próbál megérteni a statisztika tudománya.

A backtest, vagyis az utólag megvalósuló tény itt a két fekete oszlop. Például a kiadást jócskán felüllőtték a srácok, amiből egy óvatosabb igazolási politikára következtethetünk, és alkalmazhatjuk őket egy ugyanilyen ablakra. Idén persze más a helyzet – infláció, BL, tudjátok – de ez a kis hatás érződni fog a mi várakozásainkon is, mikor idénre 160 helyett 140 milliót tippelünk.

Végeztünk egy “modellezést” tavaly, megtapasztaltuk a valóságot is később, és újabb döntési helyzetben már egy bővült tapasztalati séma ad nekünk döntési alapot. Ebből áll a statisztikai modellezés, és ennek a folyamatnak egy nagyon fontos része a backtest.

2) Delphoi Jakuzzi

Dolgozott ám a mi lebenyünk is tavaly nyáron. Elég vicces ezen jóslatok némelyikét visszaolvasni, de szintén nagy okulásokra (és derültségekre) adhatnak okot. Ezekből szemezgetek néhányat:

Álomszezon tekintetében McAllister vitte a pálmát közepes stohlbucis szcenáriójában: Wenger kupa ftw (és a SZARt is gyalázzák egyre többen). A bajnoki címet sajnos mindenki érezte, hogy teljesen elérhetetlen. Realitások tekintetében meglepően sok minden bejött: a top4-et mindenki érezte, persze nagyrészt bízva Kloppék és az FSG egyre gyümölcsözőbb kapcsolatában plusz az alacsony meccsszámban. “Utolsó pillanatos negyedik hely” – McAllister tényleg ivott valami látófolyadékot (vagy szívott, evett, szem alá tett). ‘Bokor viszont a tarokk kártya mind az öt színét ütötte itt:

  • Zlatan-Mou párosa eléggé beragad az első félévben
  • Spurs sima top4
  • a Leicester eljut odáig a BL-ben, mint Wengerék
  • “szakad utánunk a beton” – decemberig így érezhettük.

Realitás címszóhoz betenném még az idő közben kollégává avanzsált Lackó kolléga talán februári jóslatát a kommentmezőben, mikor mindenki épp a legmélyebb depresszióban szívta a taknyát: “Mondok egy boldot: az Arsenal idén kicsúszik a top4-ből.” Thanks lad, kérünk még ilyen szép meglátásokat!

Taktikai jóslatoknál természetesen guthmate és Szücsi tündökölt: luxusbuszok és Guardiola viszonylag könnyebb feltörése (valóság: veretlenség a rangadókon, underdog foci rulez), 433 egyre gyakrabban (valóság: már túlságosan is beleszerelmesedett a stáb, és nem mert máshoz nyúlni, csak ritkán), irdatlan tempó, sosem látott erősségű presszing (valóság: atom volt, de kifulladtunk télre).

Amiben lyukra futottunk az szerénységem Studridge-ba (féltve) vetett hite, illetve, hogy majd a sérüléshullámok a homogénebb képességű keret és a kisebb terhelés miatt elkerül majd minket. Óvatosabban tennénk ilyen kijelentéseket, de továbbra is bízunk benne, hogy valami gyógyszert találunk a problémákra ezen a nyáron.

Gólszám. Igen, igen, macca gyalázott, a 78-at telibeverte!

Viszont! A felújított Anfield első gólszerzője? Firmino, és a győztes adatbányász GlenTheDataMiner. (Hát kurvára nem Morenotól jött a gólpassz, de ez már a dicsőség homályába vesző részlet.)

A legjobb igazolásra a Mané-Wijn-Matip vonallal senki sem trafált mellé, de Grujics dupla említése utólag megmosolyogtató. McA Markovics-tippje nagy bánatra nem jött be. Még külföldön sem.

3) 11tegen11 és az xG modellek

Az a bizonyos xGoal modell már jó párszor felbukkant nálunk. A szerzett gólok számát próbálja becsülni ilyen-olyan módszerekkel, és ezt felhasználni előrejelzésekre. Az egyik ilyen felhasználása, mikor Monte Carlo szimulációzunk vele, és az év végi bajnoki tabellát próbáljuk megjósolni. Egyik, twitteren legaktívabb alkalmazója 11tegen11, tőle vettem ebben a posztban 11 forduló után az előrejelzését a bajnoki címre.

Ott is kifejtettem, hogy egy ilyen MCMC módszert 11 meccs után elég vakmerő használni, legalább 19 fordulót érdemes vele várni, ha éven belüli előrejelzésre vágyunk. Ez a vakmerőség igazolódott is, hisz a 19. fordulónál mi már kőkeményen a földbe voltunk fúródva, és az itt 4.-5.-nek jósolt Chelsea-Spurs aztán a már ismert kimenetel szerint lett a dobogó első két fokának megérdemelt helyezettje.

Ez a modell backtest inkább arra világít rá, hogy 11 periódus adataiból a következő 27-et előrejelezni egyszerűen nem szabad. Bármennyire is jó mögöttes xG modellel rendelkezünk, ha ennyire kevés adatra építünk egy ilyen hosszú predikciót, akkor az nagyon bizonytalan lesz. Sokkal több adat (múlt évek), és további adatsémák felkutatása (bérek görgetett növekedése, meccsszám, költések, tavalyi meccsek, stb.) indokolt ahhoz, hogy a 11. fordulónál bármit is mondhassunk.

4) A Klopp statisztika

Így neveztem el azt a jelenséget, mely szerint a Klopp alatti Liverpool felkészülési napjainak és szerzett pontjainak görgőátlaga nagyon erősen összefügg, erősebben, mint mondjuk BR idején vagy más angliai csapatoknál. A tavasz eleji posztban boncolgattam, hogy a januári földbe állás részben magyarázható a meccssűrűséggel, részben viszont elválni látszott a csapat a Klopp-statisztika trendjétől. Feltettem a költői kérdést: vajon elválunk-e tényleg? A válasz pedig: talán inkább igen.

A modell 79-81 pontot jelzett előre, de ugye csak 76 lett. Btw ez az előrejelzés 12 fordulóval a PL vége előtt született, amin egy győzelemmel sikerült csak mellé lőni, tehát nem is volt ez olyan rossz. De érezhetően valami dimenzió itt még hiányzik ahhoz, hogy jól tudjuk prediktálni a szerzett pontjaink jövőbeli görgését. Hát persze, nehogy már egy változó (felkészülési napok száma) megmondja ezt nekünk tökéletesen. Klopp még mindig nagyon közel van ehhez  a trendhez, de remélhetőleg ez az “elválás” a BL-évben majd pont a másik oldalra fordul át jövőre.

+1) Pulis Magic

Levezető (házi feladat – megoldással) példa: Pulis fantasztikus mutatóira illesztettem itt egy regressziós modellt, ami azt mondta (73% magyarázottsággal), hogy a rekord 40 pontjuk mellé, amit 32 meccsen szereztek, a maradék 6-on mindössze 2.2 egységet húznak be. 3 lett a valóság, not bad. Ezért kell a hajrában a 40 pontos álomhatárt elérő kiscsapatokkal összefutni, és nem a megvadult kiesőjelöltekkel.


Remélem, ez a kis visszatekintő élvezetes idényzárót adott a kommunának, ettől a héttől már gőzerővel készülés a következő idényre. Nekünk pedig előrejelzésekben és szebbnél szebb stat modellekben gazdag szezont kívánok!