Data-analytiikka ja edistyneet tilastot jääkiekossa

3 viestiä siirrettiin ketjuun: Tappara roster 2020-21

Mielenkiintoinen juttu.

Slovakialaisessa laitahyökkääjässä Pavol Skalickyssa ei ollut maajoukkuekokemuksesta huolimatta paljonkaan sellaista, miksi hyvän suomalaisen liigajoukkueen olisi pitänyt hänestä kiinnostua.
Raumalaisten tilastoanalyytikko Simo Teperi totesi urheilujohtaja Kalle Sahlstedtille, että datan perusteella tämä Skalicky on oikeasti hyvä pelaaja.
Tarjolla olleista tilastoista piirtyi kuva, jonka mukaan Skalicky pelasi tehojaan paremmin. Data pystyi mallintamaan ennusteen, jonka mukaan slovakialaisella on potentiaalia myös tehoihin. Ennen kaikkea vaikutti siltä, että Skalicky on voittava kiekkoilija.

Maksumuurin takaa loput.

9 tykkäystä

Olipa mielenkiintoinen, kiitos tästä. Olisi mennyt ohi muuten.

Miten vastaava siis toteutetaan muissa tiimeissä? Ostetaan osaaminen ja analyysit ulkoistettuna? En jaksa uskoa, etteikö hankinnoissa tehtäisi data-analyysiä. Jos näin on, niin aika neppailua seurojen toiminta Liigassa. Kyllähän tuosta on varmasti suuri apu pelaajien esiharavoinnissa.

Samalla Teperi tuossa kumosi uskomukseni siitä, että seuroilla olisi parempaa dataa tarjolla Wisehockeyn kautta. En oikein ymmärrä, miksei tuota dataa voisi tuoda rajapinnan kautta saataville. Siellähän pitäisi olla kuitenkin saatavilla pelaajalokatiot ajan funktiona jne.

Tämä alkoi kiinnostaa ihan tämänkin palstaan olennaisesti linkittyvän Tapparan tiimoilta. Varmasti, tai vähintään toivottavasti, omista peleistä tehdään tilastoanalyysejä pelaajittain. Entä sitten tuo pelaajarekrytointipuoli, mitä siihen prosessiin kuuluu? Onko vain pelaaja-agenttien ja kontaktien varassa? EP? :joy:

1 tykkäys

On seuroille huomattavasti parempaa dataa tarjolla kuin julkisesti, mutta voisi se silti paremmallakin tolalla olla. Mutta kyllä sieltä jotain ihan käyttökelpoistakin sentään saa, toisin kuin nämä mitä on yleisölle saatavilla.

4 tykkäystä

Veto kaarelta on odotusarvoltaan parempi, kuin veto viivasta. Ja veto viivasta on odotusarvoltaan parempi, kuin veto omasta päästä. Kärjistäen, en tiedä kuinka moni asia tuolla noilla vaikuttaa tilastointiin.

https://tappara.co/t/tappara-roster-2021-22/21498/283?u=hippa

Virran tilastot 4 vetoa läheltä yksikään ei kohti maalia.
Austin 11 vetoa joista 1 parhaalta alueelta(ohi) loput kauempaa ja niistä 3 kohti maalia ja yksi maali.

Jos noilla tilastoilla on todennäköisempää että Virta tekee maalin niin on kyllä kummallinen laskukaava tuossa maaliodottama tilastossa.
Edit. @Henkka jos kommentoisi kun tunnut olevan perillä tuosta tilastosta.

Tuosta kannattaa aloittaa. Jani Pellisen Gradu.

Ei tuollakaan mitään täydellistä mallia luoda, koska esim. syöttö-dataa tai maskipelaajan vaikutusta ei vielä ole saatavilla, mitkä vaikuttaa maalitodennäköisyyksiin pirusti. Mutta jospa älykiekko joskus antaa nekin julkisesti ulos. Tiimeillähän se käsittääkseni on saatavilla Wisehockeyn avulla, mutta tämä lienee liian arvokas salaisuus vielä annettavaksi julkiseksi.

Eli tuossa maaliodottama tilastossa ei pakki voi lähtökohtaisesti saada ikinä parempaa lukemaa kuin hyökkääjä. Jos tuolla veto etäisyydellä on niin iso vaikutus että 3 kertaa enemmän vetoja ja paremmasta maalia kohti suuntautumisesta huolimatta Austin saa Virtaa huonommat lukemat.

Taitaa Patrik Laineellakin olla aika huono tuo maaliodottama kun hänen maalinsahan tulee monesti aika kaukaa tai pienestä sektorista. Eli parhaan maalintekosektorin ulkopuolelta.

Kyllä siellä on noin 7,5 kertainen osumistodennäköisyysero High- ja Low-dangerien välillä. 2 maalipaikkaa high-danger-alueelta, ohilauottunakin, vastaa 15 vetoa viivasta. Tämmöisiä eroja löytyy NHL:n yleisistä tilastoista, jotka ovat julkisesti saatavilla.

Laine nimenomaan lyö nämä odottamatilastot yli kaksinkertaisella osumatarkkuudella kaukoetäisyydeltä. Tämän tiedämme olevan taitoa ja kyseessä on poikkeusyksilö. Nämä poikkeustapaukset on asia erikseen.

Pakki voi kyllä saada parempia todennäköisyyksia/odottamia, ajamalla lähemmäksi maalia. Pelissä tämän prosenttien ostamisen näkee hyvin siinä, miten kannattaa ottaa pari-kolme potkua lähemmäs (karvaajan/blokkaajan sen salliessa) ja vetää vasta sitten. Vaikutus on merkittävä, noin 2,5-kertainen.

Samalla tavalla laukaisuprosentti kasvaa 2,5-3 kertaiseksi jos medium-sektorilta saa täplänsä “siirrettyä” lähisektorille. Pelitavallisesti silti kannattaa pelata monipuolisesti, koska pelkästään lähisektoriin paikat rakentamalla myös vastustajan puolustamisen helpottuu, kun muuta ei edes yritetä.

Koko keskustelu alkaa siitä, että joku väitti ettei Patrik Virta ole päässyt edes maalipaikoille. On päässyt. Tässä ollaan nyt jo aika kaukana siitä. Jos Virran maalintekotaitoa pitää vielä epäillä, niin muistututtaisin kurkkaamaan kuka teki Tapparasta viime kaudella eniten maaleja.

2 tykkäystä

Tässä yksi parhaimpia kuvaajia 6 vuotta vanhasta artikkelista.

Fenwick-laukaisuprosentit eri laukaisutyypeittäin. Fenwick on siis laukaukset maalia kohti + ohilaukaukset. Blokkia päin ammuttuja ei lasketa Fenwickiin, mikä erottaa sen Corsista. En ole koskaan pitänyt Corsia järkevänä tuon asian takia.

Tuosta näkee esim hyvin sen, miten rannelaukaus siniviivalta (18m = 60 feet etäisyys) on jotain 1% luokkaa mennä maaliin. Mutta kun polkaiset lähemmäs noin 10m (33ft) etäisyydelle, niin osumaprosentti viisin(!)kertaistuu. Näitähän Austin juuri tekee, ei se mistään viivalta maalejansa ampunut, vaan hiipi lähemmäs. Tässä on merkittävä ero tyhmän ja älykkään pelaamisen välillä. Kyllä minä ainakin haluaisin joukkueeni vetävän viisinkertaisesti vaarallisempia laukauksia ja koittaisin AV:lla nimenomaan painostaa vastusajan vetämään omat vetonsa huonon prosentin paikoista. jne. samat prosenttien voittamiset sitten lähempänä maalia.

Kaikista parhaiten osumaprosenttinsa kauempaa (vaaleansininen käyrä) näyttää säilyttävän tuurikimmoke (deflections). No onhan se nähty, pahimpia maalivahdille. Tuurikimmokkeen ja ohjurin osumaprosentti kasvaa sitten jyrkimmin lähimpänä maalia.

5 tykkäystä

Corsi sai aikanaan melkoisen hypen ympärilleen, kunnes huomattiin, että pelaajat laukovat vain saadakseen Corsin paremmaksi. Sopimusneuvotteluissa käyttettiin sitten hyvää Corsi-lukemaa aseena.

Veikkauksen artikkelissa on luotu varjosarjataulukko Liigan joukkueista. Onkohan taustalla näitä edistyneitä tilastoja? Tappara on arvostettu kolmenneksi parhaaksi.

Tappara on ollut alkukaudella pelillisesti varsin hyvä. Pistepotti on kuitenkin karttunut melko rauhalliseen tahtiin. Joukkueen viimeistely on toiminut hyvin, mutta maalivahtipelissä on ollut nähtävissä haparointia. Tämä on maksanut tamperelaisille joitain pisteitä. Kauden edetessä kiekko alkanee tarttua paremmin myös Tappara-vahdeille.

1 tykkäys

Viesti siirrettiin ketjuun: Vedonlyönnin apuvälineet

Veikkauksen sivuilla on ihan mielenkiintoiset tilastot maalivahteihin liittyen. Tilastoissa käytetään GSAx -arvoa, joka on xG:n rinnastettava arvo maalivahdeille. Lyhenne tarkoittaa siis arvoa “Goals Saved Above expected” ja kuvaa, kuinka paljon maalivahdin torjumien vetojen kerryttämä maaliodottama (odotetut maalit) poikkeaa maalivahdin päästämistä maaleista (xGA-GA). Suurempi arvo on siis teknisesti parempi.

1.1-14.3 arvot ovat seuraavat:

# Nimi Joukkue GSAx
1 Artjom Zagidulin Lukko +9
2 Nick Malik KooKoo +7
3 Oskari Salminen Jukurit +6
4 Andrei Karejev TPS +5
5 Eetu Laurikainen HPK +5
6 Eero Kilpeläinen KalPa +4
7 Stanislav Galimov Kärpät +3
8 Michael Garteig HIFK +2
9 Patrik Bartosak Pelicans +2
10 Christian Heljanko Tappara 0
11 Marek Langhamer Ilves -4
12 Rasmus Reijola Sport -8
13 Konstantin Shostak JYP -11
14 Niclas Westerholm SaiPa -13
15 Konstantin Volkov Ässät -15
3 tykkäystä

Noista maaliodottamatilastoista kyselisin eilisen pelin innoittamana. Huomioidaanko niissä puolustavaa joukkuetta ja niiden pelaajia mitenkään? Siis sijoittumista, etäisyyttä hyökkääjään jne.?

Ei ainakaan liigaplotissa. Pelaajapositiot tai itse pelitilanteet eivät ole julkisesti saatavilla olevaa dataa.

Inputit tähän malliin ovat (muistista):

  • laukaisupositio
  • laukaisevan pelaajan kätisyys
  • maalin “visuaalinen kulma” laukaisun näkövinkkelistä ja kulma keskilinjasta
  • ns. tilannenopeus (kuinka paljon edellisestä pelitapahtumasta on aikaa toisessa päädyssä, kuinka nopeasti tilanne “elää” → läpiajot)
  • reboundit (peliaika + kahden laukauksen välinen kulma)
  • ylivoima
  • paikkakunta ja laukauksen torjuva maalivahti
2 tykkäystä

Osa noista läheltä tulleeksi merkityistä laukauksista luo tässä tapauksessa “ilmaa” julkisen datan perusteelta laskettuun odotusarvoon, etenkin kun ne täyttävät tuon mallissa käytetyn reboundin määritelmän. Malli arvottaa tilanteet vaarallisiksi, vaikka todellisuudessa kiekko on ollut niin lähellä maalivahdin patjaa tai puolustavaa pelaajaa, että maalin syntymisen todennäköisyys pienenee jopa huomattavasti.

Tämä on yksi maaliodottamamallien tulkitsemisen hankaluuksista. Julkisen datan pohjalta rakennetut mallit saavuttavat hyvän ennustekyvyn koko kauden mitalla tai vaikkapa useamman ottelun pätkissä, mutta yksittäisessä ottelussa saattaa tulla enemmän poikkeamaa jos pelissä tapahtuu paljon tilanteita, joissa puuttuva konteksti vaikuttaa merkittävästi maalin todennäköisyyteen.

Esimerkiksi läheltä tulevan laukauksen vaarallisuudessa on todellisuudessa paljon varianssia riippuen siitä, tuleeko laukaus aivan maalivahdin varusteiden äärestä vai sivuttaissyötön seurauksena lähes tyhjän maalin edestä. Julkinen data ei tietenkään tällaista erottelua (ainakaan vielä) mahdollista, joten mallin ennusteet keskiarvoistuvat. Tämä toimii hyvin isolla otannalla, sillä edellä kuvatut tilanteet ovat enemmän tai vähemmän ääriesimerkkejä, mutta yksittäisen ottelun tai laukauksen odottama saattaa tämän johdosta vaikuttaa yli- tai aliarvioidulta.

Sama ongelma ilmenee myös hienojakoisempaa dataa käyttävissä malleissa, mutta vaikutus on pienempi. Jalkapallon puolella (jossa löytyy paljon valmiimmin julkisesti käytettävissä olevaa dataa esimerkiksi laukauksia edeltäneistä syötöistä ja pelaajien sijainneista) on tehty paljon vertailuja yksinkertaisen ja hienojakoisen datan perusteella koulutettujen mallien ennustekyvyn välillä.

Yhdessä tällaisessa vertailussa pelkistetty malli ja edistyneempää dataa hyödyntävä malli ennustivat paremmin tulevia maalimääriä kuin aikaisempien otteluiden toteutuneet maalit, mutta noin puolen kauden kohdalla tuo yksinkertaisesti laskettu ennuste alkoi pärjäämään paremmin kuin pelkistetty malli. Edistyneemmän datan mallin ennustekyky taas säilyi loppuun asti parempana kuin toteutuneiden maalien perusteelta tehty ennuste.

Edellä mainittujen seikkojen perusteella olen seurannut hieman huvittuneena Jatkoajalla käytävää keskustelua, jossa eräät TPS-kirjoittajat keikistelevät eilisen ottelun maaliodottamasuhteella ikään kuin jonkin tilastojen Graalin maljan löytäneenä julistaen itsevarmasti sitä, ettei tulos enää jatkossa tule poikkeamaan pelitapahtumista näin merkittävästi. Vaikka Liigaplotin malli ei olekaan yksinkertainen, on se julkisen datan puutteiden rajoittama, ja mielestäni on melko jälkijättöistä maalata pelinkuva TPS:n hallinnaksi vaarallisten tilanteiden osalta pelkästään tuon maaliodottamasuhteen perusteella. Kyllä niitä ottelujakin kannattaa katsoa.

14 tykkäystä

Tietääkö joku mistä nuo maaliodottamat Liigan joukkueiden osalta nähdään?

Tietääkseni ei oikein ole muuta saatavilla kuin Pellisen tekemä Liigaplot -twitter, josta nuo voisi poimia erikseen. Wisehockeyn kautta lasketaan Telialle lukuja, ja uskoisin, että Eirtovaaralla on omat tilastomallinsa ko. tilastojen laskemiseen.

Jos haluat itse harrastaa, data on saatavilla laukaisukartoista, jotka toimivat Liigan sivuilla rajapintojen kautta. Muistaakseni tuo data menee vuodelle 2014 asti. Voit luoda tuon datan perusteella Pellisen mallia vastaavan mallin (Pellisen gradu on julkisesti saatavilla) ja laskea nuo itse, tai sitten hyödyntää esimerkiksi jotain valmista koneoppimiskirjastoa.

1 tykkäys