Data-analytiikka ja edistyneet tilastot jääkiekossa

Joku tilastorunkkari osaa varmaan antaa kattavamman analyysin, mutta corsiin taidetaan ottaa mukaan kaikki laukaisuyritykset, eli blokatut laukaukset, maalia kohti menneet laukaukset ja ohi menneet laukaukset tasakentällisin. Sitten siitä vähennetään omaan päähän tulleet vastaavat ja näin saadaan corsi-lukema. Jos en ihan väärin tulkitse, niin se vedenjakaja on 50%: <50% kertoo siitä että omiin menee enemmän kun hyökkäyspäähän, ja yli 50% kertoo siitä että ollaan ko. tapahtumissa voiton puolella.

Ei corsikaan ihan aukoton tilasto ole, mutta kyllähän se käytännössä kertoo jotain siitä kumpi joukkue pitää kiekkoa ja/tai on enemmän hyökkäyspäässä kun pelaaja X on kentällä, noin karkeasti tiivistettynä.

Edit: Sen verran tarkennan, että tuo Corsi% lukema saadaan siis kaavalla Corsi for eli oman joukkueen laukaisuyritykset / (Corsi for + Corsi against), eli kuinka iso osa kaikista laukaisuyrityksistä tapahtuu sinne vastustajan päätyyn.

3 tykkäystä

Ennen älykiekkoa ei jääkiekossa ollut pelivälineen hallinnnan tilastoa (vrt. jalkapallo) joten keksittiin laukaisuhallinta kuvaamaan vähän samaa asiaa. Corsi on jonkun valmentajan keksintö ja keksijänsä sukunimi.

Ulkomuistista näin.

1 tykkäys

Innostuin yöllä googlaileen itekin vähän syvällisemmin täst Corsista, ja wikipedia kerto näin:

The Corsi number was named by Tim Barnes, a financial analyst from Chicago working under the pseudonym Vic Ferrari. He had heard former Buffalo Sabres general manager Darcy Regier talking about shot differential on the radio, and then proceeded to develop a formula to accurately display shot differential. Ferrari originally wanted to name it the Regier number, but he didn’t think it sounded right. He then considered calling it the Ruff number after former Buffalo Sabres head coach Lindy Ruff but he didn’t think that was appropriate either. Ferrari ended up searching Buffalo Sabres staff, found a picture of Jim Corsi, and chose his name because he liked Corsi’s mustache.

Eli tästäkin voimme kiittää viiksiä. :mikki:

7 tykkäystä

Corsi on keksitty (Buffalon ex vahti Jim Corsi) aikakaudella jolloin ei ollut niin edistynyttä statistiikkaa tarjolla kuin nyt. Menetelmässä on tiettyjä aukkoja ja sitä ei minusta pitäisi käyttää yksittäisen pelaajan analysoinnissa ollenkaan.

Kyllä se nyt yksilöstä kertoo paljonkin jos tilasto osoittaa että omissa rytisee keskimääräistä vähemmän jos on kentällä. Tai toisessa päässä soi enemmän kun on kentällä.

Vaikuttaahan tuossa joukkueen pelitapakin. Jos joukkueen tyyliin kuuluu laukoa ahkerasti vähän joka paikasta, luku kasvaa mutta niiden laukausten laatu ei välttämättä ole erityisen hyvä. Ja jossain toisessa joukkueessa voidaan laukoa säästeliäämmin (vain oikein hyvästä paikasta) vaikka kiekko olisi joukkueen hallussa paljonkin.

silti torjuntaprosentti huipputason veskareilla on
88-92% eli pyöreesti joka kymmenes veto uppoo.

1 tykkäys

No ei kai semmosta tilastoa olekaan joka kertois yksittäisen pelaajan tekemisestä kaiken, mutta näen silti että Corsille on paikkansa yhtenä tilastona joiden perusteella arvioidaan pelaajia. Varsinkin jos/kun vertaillaan lukemia esim. suhteessa joukkueen muihin pelaajiin, paljonko Corsi% on tietyllä ketjukoostumuksella ja niin edelleen.

1 tykkäys

Otetaan esimerkkinä eilinen Sport peli jossa Bloodin pakkiparina oli Otso. Otso laukoi 10 kertaa. Jokainen näistä oli erittäin kaukana maalintekosektorilta. Jokainen laukaus kuitenkin laskettiin mm. Bloodin ja kaikkien muiden kentällä olijoiden corsi lukuihin.

Sasha on rankattu yhdeksi NHL:n parhaimmaksi ja jopa parhaimmaksi kahden suunnan hyökkääjäksi. Silti hän on Corsi tilastossa oman joukkueen 14. Kertooko tämä enemmän tilastosta vai Sashan taidoista?

@TeroJ Ihmiset rakastaa tarttua yhteen lukuun jota sitten pidetään kaiken mittarina. Aikaisemmin se oli +/- ja nyt on alkanut nousemaan Corsi esiin. Muutenkaan lukuja ei saa tulkita suoraan vaan pitää ymmärtää miten ao luvut muodostuvat ja taustat johon sitä sovelletaan.

3 tykkäystä

Ei Corsiin yleisesti (enää) yksin tartuta. Suomessa osin pakko, kun tarjolla on vain osa lasketusta tiedoista, mutta maaliodottamaa ja muuten kokonaisuutta katsellessa myös mm. maalipaikkojen vaarallisuus (low danger, medium danger, high danger) ja joukkuekaverien vahvuus ovat keskeisiä.

Corsissakin toki on olennaista se, että Bloodin pelatessa 20 tuollaista peliä laukauksen etäisyys tasoittuu. Ts. tulee myös läheltä lauottuja. Eli otanta merkitsee paljon.

***"

Plusmiinuksen heikkoudesta oli vasta hauska juttu. En muista tarkkoja lukuja, mutta esim. Crosbyn tämä kausi pomppasi selkeästä miinuksesta selkeään plussaan kun tyhjään päästetyt maalit ja av-maalit otettiin pois.

1 tykkäys

Siis hetkinen, vaikuttaako NHL:ssä todella av-maalit +/- -tilastoon?

Edit. Vai oliko se hauska siksi, että Crosby oli “muka” plussalla?

Kyllä, jos vaikka pelaa yv:tä yhdellä pakilla ja neljällä hyökkääjällä, ja päästää av-maalit, tulee miinus. Samoin jos päästää pelatessaan ilman veskaa. Hauskaa on se, että lukeman pitäisi muka kertoa jotain merkittävää pelaajan kyvykkyydestä tasakentällisin, mutta osa yv:sitä ja tuollaiset ratkaisuhetkien riskinotot, taktikointi vaikuttavat merkittävästi.

Kyllähän suomessakin yv-viisikko saa miinuksen jos vastustaja tekee alivoimamaalin, samoin ne alivoimapelaajat saa plussan. Yv-viisikko ei kuitenkaan saa plussia eikä alivoimanelikko/kolmikko saa miinuksia, ei suomessa eikä NHL:ssä.

NHL:ssä ilman maalivahtia pelatessa tilanne lasketaan 5vs5 peliks (jos kukaan ei ole jäähyllä), koska pelaajien lukumäärä jäällä pysyy samana. Näin ollen siitä tulee normaalit ± merkinnät maalin syntyessä. Mutuilen tosin että siirretyn rangaistuksen syntyessä tilanne taitaa olla eri?

Osaako joku sanoa lasketaanko suomessa tuo tasoituksen hakeminen ilman maalivahtia 5vs5 peliks vai ei?

Jani Pellinen on päräyttänyt aiheesta oikein gradun. Jos joku tuntee miestä, niin pyytäkää jäseneksi - voisi saada tämä keskustelu uutta potkua!

Maalitodennäköisyyksien mallintaminen jääkiekossa (2019)

https://jyx.jyu.fi/handle/123456789/62953

5 tykkäystä

Telian uusi Momentum-tilasto tuntuu ainakin intuitiivisesti toimivalta. Se antaa samankaltaisen tuloksen pelin hallinnasta kuin oma perstuntuma.

Momentumin sisältöä (muuttujia) ei hirveästi lähetyksissä pureta. Ehkä se on joskus jossain täsmällisesti avattu, mutta minun silmiini ei ole sattunut. Ja tuntuu, että studiohenkilöstökään ei ole mittarin sisällöstä aivan perillä, sillä he sitä melko yleisellä tasolla kommentoivat - ja ehkä se on tarkoitustukin, muuten voisi mennä toisaalta-toisaalta-selittelyksi (eli että toisaalta vastustaja A ampuu paljon mutta pitää vähän kiekkoa, mikä ei tässä ole se pointti).

Joka tapauksessa Momemtum sisältää ainakin kiekonhallintaa ja laukaisupaikkojen laatua. Tällainen eri tekijöiden summa antaa huomattavasti paremman kuvan pelistä kuin esim. pelkät laukaukset tai pelkkä kiekonhallinta.

Natural Stat Trick -sivusto on lisännyt tilastoihinsa myös maaliodottaman. En tosin ole vielä ehtinyt vertailla, kuinka kartalla vaikuttavat olevan. Osa Twitterissä pyörivistä P-Amerikan todennäköisyyslaskijoista ainakin tuntuu poikkeavan kovasti ammattimaisista suomalaisista vedonlyöjistä jne., noin yleisesti. Maaliodottamassa on tällä hetkellä hyviä ja huonoja tekijöitä. Kaikki eivät ylireagoi laskemalla liian suuria lukemia yksittäisistä tapahtumista.

1 tykkäys

En löytänyt parempaa ketjua ensimmäiselle viestilleni, joten sijoitetaan se tänne.

Liiga tarjoaa edistyneissä tilastoissaan laukaisuhallinnan osalta Corsin ja Corsi closen niin joukkue- kuin pelaajatasolla. Tämä on luonnollisesti parempi kuin ei mitään, mutta näiden kahden tilaston ennustavuus joukkueiden pelisuoritusten osalta ei ole korkein mahdollinen ja halusinkin selvittää, pystyisinkö keräämään muita NHL:n analytiikasta tuttuja tunnuslukuja kotoisesta sarjasta. Erityisesti ns. korjatut versiot (score-adjusted) Corsista ja Fenwickistä kiinnostivat, sillä näiden toistettavuus ja korrelaatio joukkueen tulevan maalisuhteen ja voittoprosentin osalta ovat huomattavasti parempia kuin muut laukaisuhallintaa kuvaavat tilastot. Analyytikko ja visualisaatioekspertti Micah McCurdyn tekemän tutkimustyön perusteella juuri korjattu Corsi-lukema omaa suurimman ennustavan voiman kyseisten mittarien osalta. Close-tilastot vaikuttavat sen sijaan olevan jopa huonompia kuin perusversiot.

Itse korjaus perustuu olettamukseen, että joukkueet pelaavat eri tavalla riippuen pelitilanteesta ja näin laukaukset ovat eriarvoisia, sillä tappiolla olevat joukkueet laukovat yleensä enemmän kuin johdossa olevat joukkueet ja toisin päin. Erottelu tehdään myös koti- ja vieraslaukausten osalta, sillä vierasjoukkueet laukovat keskimäärin vähemmän. Laukauksille lasketaan siis pelitilanteesta ja kotiedusta riippuen korjauskertoimet, jotka painottavat niiden yleisyyttä tai harvinaisuutta lopullisessa laskukaavassa. Korjauksen teknisestä toteutuksesta voi lukea lisää täältä.

Noin viikon koodaustyön jälkeen tuloksena oli skripti, joka raapii Liigan otteluseurannoista kaikki laukaukset ja asettaa niille kontekstin pelitilanteen osalta aina kauteen 2014-15 saakka. Julkisesti saatavilla olevasta datasta pystyy valitettavasti muodostamaan vain joukkuekohtaisia tilastoja, sillä pelaajien jäälläoloaikojen selvittämiseen tarvittaisiin pääsyä Liigan tilastopalvelun rajapintaan. Täydellistä tarkkuutta kenttätilanteesta ei voida myöskään saavuttaa tällä metodilla, sillä otteluseurannassa ei esimerkiksi erotella 2+2 -jäähyjä pelaajan kahdesta samanaikaisesta rangaistuksesta, mutta nämä tilanteet eivät ole tarpeeksi yleisiä muuttamaan kokonaiskuvaa. Lopullisessa datassa huomioitiin vain 5v5-laukaukset, jotka eivät ole tapahtuneet maalivahdin ollessa pois kentältä. Lisäsin myös koti- ja vieraserottelut lukujen perusversioiden osalta.

Yleinen trendi on, että huonoimmat korjatut Corsi- ja Fenwick-joukkueet sijoittuvat sarjataulukon alapäähän Sportin ollessa ainoa poikkeus. Kauden mittaan laukaisuhallintatilastoja dominoinut KooKoo on kaikin osin vakuuttava ja on kirjoitushetkellä parhaat korjatut lukemat kirjauttanut joukkue koko datassa. HIFK pääsee lähelle, mutta erityisesti vierasotteluissa laukaisunhallinta putoaa verrattuna KooKoon lukemiin. Kärpillä on kolmanneksi paras lukema, mutta suoriutuminen vierasotteluissa on ollut tasaisempaa kuin HIFK:lla. Edelliskauteen verrattuna suurin häviäjä laukaisunhallinnassa on HPK, joka putosi kärkisijaltaan alempaan keskikastiin menetettyään suuren osan mestaruusjoukkueen tärkeimmistä palasista.

Tapparan osalta merkittävin havainto ja samalla ehkä silmiinpistävin seikka koko taulukossa on Liigan suurin ero laukaisunhallinnassa koti- ja vierasotteluiden välillä. Tämä ei sinänsä ole ihmeellsitä, jos miettii Tapparan varmistelevaa ja riskejä välttävää tyyliä puolustaa vierasjohtoa, mutta kontrasti vaikuttaa silti yllättävän suurelta. Tapparan Corsi-lukema hyötyy muuten kaikista joukkueista eniten korjauksista, mikä kuvastaa tutuksi tullutta eroa joukkueen pelitavassa riippuen siitä, ollaanko johdossa vai tappiolla.

19 tykkäystä

Toinen liigakiekkoilun tilastoevankeliumista puuttuva osuus on maalipaikkojen laskeminen (low, medium ja high danger chances). Onneksi kirjoittamallani skriptillä onnistuu myös laukausten sijaintidatan kerääminen otteluseurannoista.

NHL:n puolella maalipaikkatilastot pohjautuvat pitkälti analytiikkasivusto War on Icen tekemiin laskelmiin siitä, kuinka suuri todennäköisyys laukauksella on mennä maaliin riippuen sen sijainnista. Tulosten perusteella oli mahdollista määrittää kolme sektoria, joiden välillä laukauksen vaarallisuus poikkeaa merkityksellisesti. Tarkkasilmäinen katsoja voi huomata yhtäläisyyksiä Telian lähetyksissä käytettyyn laukaisusektorigrafiikkaan.

Jokaiselle laukaukselle asetetaan numeroarvo yhdestä kolmeen sektorin perusteella. Jos laukaus voidaan tulkita reboundiksi tai nopeasta vastahyökkäyksestä tulleeksi, arvoon lisätään yksi. Jos laukaus on blokattu, arvosta vähennetään yksi. Reboundiksi tulkitaan laukaus, joka on tullut kolmen sekunnin sisään edellisestä laukauksesta ja nopeaksi vastahyökkäykseksi tulkitaan laukaus, joka on tullut neljän sekunnin sisään vastustajan edellisestä laukauksesta. Lopputuloksen perusteella laukaus voidaan arvottaa matalan (1), keskitason (2) tai korkean vaarallisuuden (3>) maalipaikaksi. Keskitason ja korkean vaarallisuuden maalipaikat voidaan laskea yhteen maalipaikkatilastoksi (scoring chance).

Taulukoissa ensimmäiset kolme saraketta viittaavat laukaisumääriin eri sektoreilta. Neljä viimeistä saraketta kuvaavatt maalipaikkojen (2>) ja korkean vaarallisuuden maalipaikkojen (3>) määrän sekä näiden prosentuaalisen osuuden joukkueen laukauksista kaikilta sektoreilta.

Maalipaikat tasakentällisin (5v5)

Sijoitus Joukkue Low Med High Scoring chances High danger chances Scoring chance% High danger chance%
1 Kärpät 1131 551 333 881 357 43,7 % 17,7 %
2 Tappara 775 531 303 824 316 51,2 % 19,6 %
3 Ilves 768 481 297 759 309 49,1 % 20,0 %
4 Lukko 860 564 282 816 296 47,8 % 17,4 %
5 KooKoo 1081 595 380 982 397 47,8 % 19,3 %
6 HIFK 889 551 339 889 368 50,0 % 20,7 %
7 HPK 838 490 256 736 272 46,5 % 17,2 %
8 JYP 1000 562 293 856 308 46,1 % 16,6 %
9 KalPa 889 476 278 752 288 45,8 % 17,5 %
10 Ässät 935 432 291 733 305 44,2 % 18,4 %
11 TPS 841 416 229 650 240 43,7 % 16,2 %
12 SaiPa 754 471 250 707 264 47,9 % 17,9 %
13 Pelicans 972 388 261 648 267 40,0 % 16,5 %
14 Jukurit 919 390 218 626 229 41,0 % 15,0 %
15 Sport 896 508 245 752 262 45,6 % 15,9 %

Korkean vaarallisuuden maalipaikat ja maalipaikkatilasto korreloivat melko hyvin sarjasijoituksen kanssa. Tasakentällisin neljä eniten vaarallisia maalipaikkoja luonutta joukkuetta ovat KooKoo, HIFK, Kärpät ja Tappara. Kun huomioidaan myös keskitason vaarallisuuden maalipaikat, pysyy järjestys muuten samana lukuun ottamatta JYPin siirtymistä neljänneksi Tapparan edelle, ja voidaan huomata KooKoon johtavan tätä tilastoa melko ylivoimaisesti. Huomattavaa on myös se, että kärkijoukkueista Tappara ja Ilves laukovat selvästi vähiten ulkosektorilta ja kaikista joukkueista vain SaiPalla on vähemmän matalan vaarallisuuden laukauksia.

Laukaukset tasakentällisin (5v5) - Tappara

Nimi Laukaukset Scoring chances High danger chances Scoring chances% High danger chances%
Niko Ojamäki 141 93 30 66,0 % 21,3 %
Charles Bertrand 162 92 30 56,8 % 18,5 %
Patrik Virta 98 76 30 77,6 % 30,6 %
Jere Karjalainen 104 75 26 72,1 % 25,0 %
Anton Levtchi 84 64 26 76,2 % 31,0 %
Kristian Kuusela 75 52 21 69,3 % 28,0 %
Olavi Vauhkonen 55 41 19 74,5 % 34,5 %
Tyler Morley 62 39 17 62,9 % 27,4 %
Sami Moilanen 48 36 27 75,0 % 56,3 %
Otto Rauhala 42 35 21 83,3 % 50,0 %
Jarkko Malinen 41 31 14 75,6 % 34,1 %
Matias Lehtonen 45 31 10 68,9 % 22,2 %
Teemu Suhonen 110 28 8 25,5 % 7,3 %
Juhani Jasu 33 24 11 72,7 % 33,3 %
Steven Iacobellis 21 16 3 76,2 % 14,3 %
Valtteri Kemiläinen 107 13 4 12,1 % 3,7 %
Alexander Ytterell 80 10 4 12,5 % 5,0 %
Patrik Puistola 14 9 5 64,3 % 35,7 %
Jere Rouhiainen 41 8 1 19,5 % 2,4 %
Ben Blood 72 7 4 9,7 % 5,6 %
Toni Utunen 27 6 2 22,2 % 7,4 %
Tuukka Mäntylä 41 3 1 7,3 % 2,4 %
Veli-Matti Vittasmäki 58 3 1 5,2 % 1,7 %
Lassi Vanhatalo 2 2 0 100,0 % 0,0 %
Mikko Pukka 6 1 1 16,7 % 16,7 %
Kasper Simontaival 3 1 0 33,3 % 0,0 %
Adam Polasek 33 1 0 3,0 % 0,0 %

Tapparan osalta yksittäisten pelaajien maalipaikkajakauma ei varmaan tarjoa mitään kovin yllättävää. Hyökkääjät laukovat pitkälti hyviltä sektoreilta Bertrandin poiketessa tästä eniten yllättävine laukauksineen. Rauhalan ja Moilasen korkean vaarallisuuden maalipaikkojen suuri osuus selittyy todennäköisesti maalinedusruuhkista ja ohjauksista syntyvistä laukauksista

10 tykkäystä

Onko meillä jäsenistössä tilastojen harrastajia? Jäin Tapparan osalta miettimään pelaajiston miinusmaaleja per minuutti 5vs5 peliaikaa. Taulukkolaskimella tuo menisi, mutta josko jollain olisi data valmiiksi oikeassa muodossa? Tai onko kenties jossain päin nettiä joustavampi tilastosivusto Liigaan?

Tällainen ajatus tuli toistuvista halvan oloisista maaleista ja toisaalta tiettyihin pelaajayksilöihin, erityisesti pakkeihin, kohdistuvasta kritiikistä.