Kuten varmasti huomasitte, palveluntarjoajallamme OVH:lla hajosi systeemit isosti tänä aamuna noin klo 07:30. Tappara.co ja sadat muut sivut eivät ole tänään toimineet ollenkaan.
Järjestelmä on nyt heräilemässä henkiin. Tarkkailemme tilannetta ja tiedotamme myöhemmin tarkemmin mikä on tilanne.
Noniin, tilanne näyttäisi stabiloituneen. Lyhyt tarina siitä mitä tapahtui.
Tappara.co:n ja parin sadan muun serverin data on tallennettuna klusteriin jossa on 200kpl 2 teratavun levyjä. Tallennustekniikan pitäisi olla äärimmäisen luotettava, koska kaikki data tallennetaan levyille kolminkertaisesti. Tämä oli itseasiasa yksi ostoperuste miksi OVH vaikutti erinomaiselta palveluntarjoajalta sivuille. OVH on Euroopan suurin ja maailman 3-4. suurin serveritoimittaja.
OVH:n virallinen versio tarinasta on se, että kun he vaihtoivat klusterista yhden mekaanisesti vioittuneen levyn (tämä on normaalia, ovat kovassa käytössä), järjestelmä ilmoittikin datakorruptiosta ja ajoi koko klusterin alas. Eikä se suostunut käynnistymään, koska datan eheys ei ole 100% tasolla.
OVH:lla kesti tunti tolkulla saada korjaustoimet käyntiin ja tiedotus asiasta oli luokatonta. Henkilöstä ei saanut kiinni tukipyynnöillä tai puhelimella. Kaikki palvelimet jotka käyttivät ko. klusteria olivat nurin. Suomesta tunnetuimpia meidän lisäksi mm. Kainuun Sanomat. Vasta ilta seitsemältä alkoi tosissaan tapahtua, kun OVH kutsui puolen Euroopan tekniikan väkensä tutkimaan tilannetta ja tekemään korjaavia toimia. Sivut heräsivät henkiin vähän puolen yön jälkeen.
Tässä on kuitenkin vielä pieni epäilys siitä, onko kaikki datamme 100% kunnossa, koska OVH:n tiedottaminen asian tiimoilta on ollut epäselvää. Meillä on luonnollisesti viime yön klo 04:00 ajettu varmuuskopio hyvässä tallessa, mutta toivottavasti sitä ei tarvitse käyttää.
Sillä välin Tappara kylvetti HIFK:n Nordiksella 2-4, hyvällä peliesityksellä.
EDIT: Odotamme OVH:n loppuselontekoa asiasta, taloudellisia hyvityksiä (99,99% SLA lupaus rikkoutui reilusti) ja mietimme pysymmekö heidän asiakkaina jatkossa.
Vai korruptio iski. Ja Suomen kun piti olla vielä yksi vähiten korruptoituneista maista. Jaa niin, ei se OVH taida suomalainen ollakaan vaan Ranskasta, sehän selittää.
Kyllähän tälläinen kyrsii, eikä tainnut olla ensimmäinen tilanne kun systeemin piti olla luotettava. Merkit ei kovinkaan hyvät! Varmaan tosiaan täytyisi miettiä luotettavuutta!
Ei tämä eilistä lukuunottamatta ole mitenkään huonosti toiminut. Verkko OVH:lla on ilmeisen hyvä, koska olivat alkuviikosta maailman isoimman palvelunestohyökkäyksen kohde ja hyvin toimi.
Serverit on sellaisia, että halpa hinta, teho, luotettavuus - valitse kaksi.
Katsotaan nyt miten jälkipyykin hoitavat. OVH on iso ja tällä alalla iso koko on etu mm. verkkoinfran kannalta. Joku pieni ja ketterä talo voi tarjota parempaa palvelua, mutta niiden verkko on yksi metrilaku joka menee kerrasta poikki.
Jengi ei ihan oivalla paljonko palvelimien luotettavuus maksaa, koska joku Google toimii aina. Luotettavuus saavutetaan palvelua hajauttamalla ja monistamalla, eli systeemit toteutetaan globaalisti moneen kertaan, niin että joku purkki toimii aina.
Nykyisellään palveluvarmuuteen on pyritty ostamalla VPS palvelin, eli tämä palvelin on virtuaalinen yksikkö isomman koneräkin sisällä ja tätä voidaan siirtää fyysisestä raudasta toiseen ilman, että edes huomaamme (korkeintaan pieni käyttökatkos). Toinen varmuutta parantava tekijä on tuo tallennus, eli meillä ei ole yksittäinen kovalevy vaan kaistale tuollaisesta klusterista jossa kaikki data tallennetaan kolmeen kertaan. Eilen vaan sitten hajosikin koko klusteri.
Enkä tuota tekniikan hajoamista niinkään kritisoi. Härvelit on päällä 24/7 isolla kuormituksella, joten kyllä niitä hajoilee. Konesalit on Pirkkahallin kokoisia laitoksia, joten kyllä siellä vahinkojakin sattuu. Mutta tapa jolla OVH hoisi ja koordinoi korjaustoimet ei mielestäni ole tyydyttävä ja rasistisesti sanottuna hyvinkin ranskalainen.
Vaihtoehtojahan riittää. UpCloud olisi Suomalainen, Saksalainen Hetzner investoi Suomeen ja rakentaa konesalin, sitten on tuo meidän vanha koti Digital Ocean joka on hyvä mutta laskuttaa tuplasti.
Saatan muistaa väärin, mutta eikö muutamia päiviä sitten ollut saman suuntainen tosin pienempi ongelma, josta ennakoitiin, että saattaa tulla pahempaakin?
Olen ollut tyytyväinen tähän pohjaan (alku kauhistuksen jälkeen) ja minulla ei ole mitään sitä vastaan, että tällä jatketaan, mikäli ongelmat loppuvat.
Luotan tässäkin asiassa 100%:sesti ylläpidon harkintaan!
Mites Azure/ Amazon? Niillä ainakin riittäisi hajautusta isompiinkin ongelmiin. Noilta hoituisi myös autoscale että yöt voisi pyörittää nuhapumpul ja kun otteluseuranta on käynnis tai kipinävuorot alkaa löisi alusta lisää rautaa alle automaattisesti.
Tämä on hyvä ehdotus, jota olen itsekkin miettinyt. Amazon/Google/Microsoft ainakin tarjoavat näitä skaalautuvia palveluita, mutta itsellä ei ole niistä mitään kokemusta. Meidän trafiikki on tosiaan vaihtelevaa ja öisin aina lähes nollassa. Olen ymmärtänyt että nämä ovat kuitenkin aika kalliita, korkean käyttövarmuuden palveluita.
Pitää tutkia. Löytyykö jäsenistä back-end guruja?
P.S. Ja sitten pitää muistaa, ettei tässä mitään ydinvoimalaa pyöritetä vaan harrastetoimintaa.
Eilinen ei liittynyt ohjelmistoon mitenkään. Muutama päivä takaperin tosiaan löydettiin bugi, raportoitiin ja kehittäjät korjasivat. Taidan jatkossa ajella päivityksiä entistäkin harvemmin. If it ain’t broken jne.
Noh ainakin siellä toimitusjohtaja itse jalkautui vetämään pelastusoperaatiota ja siitä tiedottamista. Ilmainen kuukausi tulee kompensaationa - laskutushan niillä toimii kyllä, kun VISA vingahti eilen kriisin keskellä . Eli ainakin 2kk menee täällä ja mietiskellään.