Gyönyörű adatok, gyönyörű statisztikák

315 – ezzel együtt ennyi bejegyzést írtunk már. De vajon elárul-e bármit ez a szám? Mond-e valamit a látogatottságunkról, a posztok minőségéről, vagy épp a kommentek milyenségéről? Nagyon hasonló kérdéseket tehetünk fel a focit körülvevő adatokkal és statisztikákkal szemben is. Az emberek négy csoportja különíthető el ezekkel kapcsolatban: az utálkozók, a szkeptikusok, azok, akik nem értik a lényegét, és azok, akik halálosan komolyan veszik. Én ez utóbbiba tartozom. A keddi poszt után pragmatikusabb hangot ütünk meg.

Mielőtt nekirugaszkodnánk ennek a megosztó témának, érdemes kicsit megértenünk az adatok tágabb környezetét, ugyanis a jelenség nem csak a focit érinti: egy egyetemi munkám kapcsán volt szerencsém komolyabban megismerni az IBM termékeit, jövőt érintő elgondolásait. Hogy miért is innen kezdem? A világ második legértékesebb cégének kínálatában ma főként üzleti analitikai és vállalati működést optimalizáló szoftverek találhatóak: programok, amik egy halom adatból kiszűrik a lényeget. Ismerős, ugye?

És hogy mennyit is kell szűrnünk: bármennyire is hihetetlen, de 2011-ben annyi adat keletkezett, mint az elmúlt 5000 évben, a Twitter és a Facebook például napi 17 terabájtot termelt. Életünket szenzorok, okostelefonok, táblagépek veszik körül, de adatot generálnak a sütők, mosógépek, és az autók is.

Katt a nagyobb méretért!

Hasonló események játszódtak le a foci világában is: hihetetlen méretűre duzzadt az elérhető statisztikák mennyisége, elég csak az általunk ingyen is elérhető Guardian Chalkboardsra gondolni. Visszatérve a 2011-es adatmennyiségre, azért egy probléma akad – amely egyúttal a foci problémája is: egy apró, kicsike, gonosz hiba a mátrixban, hogy ezen adatok 80%-a strukturálatlan – de ott van köztük a mi bajnokcsapatunk adata.

De tulajdonképpen mi közünk nekünk ehhez az egészhez? Miért van erre szükség?

A bevezetőben említett négy csoport egy dologban azért egyetért: a klubok kretének. Egytől egyig. Idióták. Nincs realitásérzékük. Egy zöldséges jobb üzleti érzékkel rendelkezik, mint ők. Simon Kuper és Stefan Szymanski Soccernomics című könyvükben világosan rámutatnak erre: 1978 és 1997 között az átigazolási kiadások csupán 16%-a adott magyarázatot a csapat helyezésére, azaz 84%-ban tök irreleváns volt, hogy ki hogyan költekezett! Többek közt arra is felhívták a figyelmet, hogy emberi természetünk jelentősen hozzájárul ehhez: a brazilokat például többre értékeljük, csak azért, mert brazilok: a boldogság, a szamba, a karnevál, a joga bonito kötődik az országukhoz, és figyelmen kívül hagyjuk, hogy ettől még rossz játékosok is élnek ott. Vagy ami még viccesebb: állításuk szerint egy meg nem nevezett angol klub gyanút fogott, miután megfigyelői folyamatosan szőke játékosokat ajánlgattak. A magyarázat egyszerű volt: ha 22 ismeretlent figyelünk, jó eséllyel a lobogó szőke hajút fogjuk megjegyezni magunknak. Egy Excel-tábla nem követ el ilyen hibát.

“Minden tökéletlen piac lehetőség valaki számára.”

Ugyebár a bökkenő itt az, hogy amióta a klub egy vállalat, a gazdagabbak lépéselőnyben vannak (megjegyzem, egy újabb olyan pont, ahol tiszta párhuzam mutatkozik a foci és az üzleti világ közt): az elcseszett üzlet nem küldi padlóra őket, egyszóval szinte következmények nélkül igazolhatnak. Ahogy a Brad Pitt által játszott Billy Beane fogalmaz scout-stábjának: “if we try to play like the Yankees in here, we will lose to the Yankees out there.” Ez pedig igaz a Liverpoolra is: nem tudunk versenyezni egy Chelsea vagy egy City anyagi tartalékaival, de még az adósságtól sújtott United pénzével sem. Ha megpróbálunk, biztosan elbukunk, sőt, továbbmegyek: aki versenyezni akar velük, az egyenesen nemet mond az ésszerűségre.

Költenek, de mire?

A Sabermetrics, azaz a statisztika-alapú átigazolási politika fociba történő átültetése a Liverpool számára tehát nem opcionális lehetőség, nem valami vicces amcsi elmélet, aminek adhatunk egy esélyt. Ez ordenáré nagy tévedés. Ez ugyanis az egyetlen lehetőség. Nekünk ez létkérdés.

Érdemes egyébként arra is felhívni a figyelmet, hogy nem csak az elittől leszakadozó klubok számára jelenthet új esélyt a rendszer: ha végigtekintünk Európa legjobb csapatain, megrökönyödve tapasztalhatjuk, hogy szinte alig van köztük nyereséges. Ennek egyik legfőbb oka az irracionális transzferpolitika. A már említett Kuper-Szymanski szerzőpáros az S&P500 500. tagját, a TIMET nevű amerikai vállalatot (repülőgépipar egyik beszállítója) hozza példaként: 2008-ban 1,15 milliárd dolláros bevétele elenyésző a lista első helyén akkor tanyázó Exxonéhoz képest (400-ad része), de még így is több, mint a kétszerese a világ legtöbb bevételét produkáló focicsapatához, a Real Madridhoz képest. Belátható, hogy van mit javítani.

Vita, vita, vita, vita

Jelenleg talán a legnagyobb vita akörül zajlik, hogy ott vannak-e a válaszok a számok közt, mert az elmélet szerint igen: minden és mindenki leírható számokkal, egyenletekkel és változókkal. Ennél jóval fontosabbnak tartom, – sőt az adatmennyiségek alapján nem is értem, miért ez előbbit firtatják – hogy a helyes kérdést tegyük fel. Hány poszt jelent meg ezen a blogon? A válasz: 315. Akkor ez egy jó blog? A válasz: ez rohadtul nem derült ki (egyébként igen). Mégis, csak számok alapján be tudnám bizonyítani, hogy jó ez a blog, feltéve, hogy a megfelelő adatokat figyelem.

A rosszul feltett kérdések egyébként érdekes szerepet töltenek be a foci világában: már-már bizarr módon ragaszkodunk hozzájuk, ráadásul egyenesen érdekesnek találjuk őket (ez alól én sem vagyok kivétel). Tipikusan ilyen az amúgy nagyon jól hangzó, ám teljességgel irreleváns “X csapat megnyerte a legutóbbi Y számú mérkőzését a Z csapat ellen.” típusú adat, amely ráadásul rendelkezik egy olyan enthümémával is, amely azt sugallja, hogy mindenképp a több győzelmet felvonultató csapat fog győzni. De most komolyan: milyen relevanciával rendelkezik, hogy 60 éve megvertük a Boltont 6-0-ra? Vagy akár tavaly 1-0-ra?

Ezen a ponton tehát érdemes az adatok használhatóságát kétségbe vonók figyelmét felhívni arra, hogy bizonyos mértékig igazuk van: az elénk tálalt hangzatos tények egy jelentős része szemfényvesztés (a jobb fajtából), amelyek alapján nem lehet komoly döntéseket hozni. Persze tényszerűen igazak, de tökéletesen irrelevánsak.

Visszatérve a problémákra. A Bill James által kidolgozott Sabermetrics bizonyítottan működik a baseballban, azonban a baseball egy jóval könnyebben elemezhető sport, mint a foci: adott egy dobó és egy ütő, alapvetően az ő párharcuk befolyásolja a játék kimenetelét, ergo egy rögzített helyzetről beszélünk – akárcsak egy szabadrúgás, vagy tizenegyes a fociban. De ácsi, a 90 perc hány százalékát érintik a rögzített helyzetek? 5? És a többi? A probléma itt az, hogy a labdarúgás egy olyan többváltozós függvény, amiben jelen pillanatban még csak sejtéseink vannak a figyelendő értékekről. Egy sokat passzoló játékos elsőre minőségi vételnek tűnhet, de egy rakás kérdést fel kell tennünk, hogy kiderüljön, tényleg az: gyorsan passzol? Hasznosak ezek a passzok? Tud szerelni? Hány megelőző szerelést produkál meccsenként? Mekkora területet ural? Lőni tud? Végig tud játszani 90 percet? És folytathatnánk a sort.

Végezetül egy gyakori félreértésre kell felhívnom a figyelmet, ami Billy Beane-nek is feltűnt: az emberek egy jelentős része azt hiszi, hogy a sabermetrics alkalmazásával nem kell pénzt költeni, sokat meg aztán pláne nem. Ez tévedés. A rendszer megtalálja a mások számára rejtve maradó tehetségeket, de az árat számtalan tényező alakítja: egy makacs eladó, a “hú, ez egy nagy klub, húzzuk le őket rendesen”-jelenség és még vagy egy tucat elem akadályozhatja meg, hogy olcsón jót vegyünk.

A körülöttünk levő adatok elemzése és az ezek alapján történő döntés egy világméretű jelenség, amely alól a foci sem bújhat ki. Nyilvánvaló, hogy jelenleg még nem tökéletes, de nem értem azokat, akik ellene vannak, különösen nem azokat, akik a foci varázsának elvesztésétől félnek. A statisztikák csak valószínűségeket adnak meg, nem konkrét eseményeket. Egy morbid példával élve: Ryan Shawcross bűnlajstroma és játékstílusa alapján várható volt, hogy eltöri egyszer valaki lábát, de nincs az a számsor, ami megmondta volna, hogy az Ramsey-é lesz. Hogy nagy szavakat használjak: az emberiség öntudatra ébredése óta arra törekszik, hogy megértsen maga körül mindent. Úgy vélem, ezek közé tartozik az is, hogy miért ikszeltünk a Stoke-kal, vagy hogy miért nem megy Stewart Downingnak. A statisztikák és adatok erre képesek választ adni, ha jól kérdezünk, ezt pedig egyenesen csodálatosnak tartom. A Liverpool lépéshátrányban van jelenleg egy olyan versenyben, amit semmiképpen sem nyerhet meg. Nekünk kell nyitni az új felé, a statisztikák felé. Mindenkinek megvan a joga, hogy ne szeresse ezt, de hogy elutasítsa? Ez maradi gondolkodásra vall.