Vastaamon keskusteluista näkyy, että joukossamme on ATK-osaamista.
Koska aihe on ajankohtainen, niin on todettava että Tappara.infon edelleen olemassa oleva sivusto muodostaa kasvavan tietoturvariskin. Serverinä pyörii CentOS joka on vielä elinkaaressa, mutta muuten se hapantuu väistämättä käsiin. Henkilötiedoissa on käyttäjänimi, salasana, sähköpostiosoite.
Pähkinä asiantuntijoille purtavaksi:
Miten sinne tallentunut perimätieto arkistoitaisiin niin, että se olisi nähtävillä, mutta riskittömästi? Onko aika sanoa hyvästit ja tuhota serveri-instanssi lopullisesti?
Lähinnä olen miettinyt jotain HTML-dumppia sisällöstä, jota voisi Google hakukentän avulla pönkiä, jos niin haluaa.
Eikö tuollainen tieto muodosta henkilörekisterin, jonka säilyttäminen edellyttää aitoa tarkoitusta, mikä taasen on poistunut tai poistumassa, koska kyseistä foorumia ei enää laajasti käytetä?
Toisin sanoen, eikö kyseisten tietojen hävittäminen ole suorastaan velvollisuus?
Minulla ei ole minkään sortin ratkaisuja tarjota, mutta jonkinsortin historiaihmisenä en voi kannattaa tuhoamista, jos se suinkin vain on mahdollista.
.infoon on tallentunut vuosikausien mittainen ajankuvan Tapparan kannattamisesta ylä- ja alamäkineen. Se on arvokasta historialliasta tietoa. Ihan vilpittömästi voin sanoa, että kyllä tuosta materiaalista muutamankin kandin/gradun saisi kasaan.
Tiedon digitalisoituminen on muuten historiantutkijoiden keskuudessa ihan todellinen huolta herättävä uhka. Tulevaisuudessa ei tule löytymään vintiltä vanhoja valokuva-albumeita ja päiväkirjoja lähteiksi, vaan kaikki on salasanojen takana pilvessä piilotettuna.
Tuntematta nyt järjestelmää yhtään enempää, riippuen tietty minkä perässä ovat nyt (veikkaan että joku PHP foorumi), niin joku scriptihän tuolle kannattaa naputella joka lyö ne joko suoraan haluttuun html muotoon kuvineen, linkkineen päivineen jne, tai sitten säilytettäväksi xml:ään jossa myössä linkataan tietty aina oikeaan kontenttiin että se voidaan tarvittaessa helposti sitten parsia kun se johonkin laitetaan näkyville.
HTML nyt tietty yksinkertaisin. Tietty jos sivusta haluat täysin vastaavan kun vanha oli niin ei se enää kovin yksinkertaista enää ole mikäli tietty sivuston rakenne ja toimivuus täytyy säilyttää.
Jos nyt on tiedot kannassa, tee db:stä backuppi, poista ne “arat” käyttäjätiedot kannasta eli salasana sekä sähköposti fieldit ym vastaavat ja jätä kuten on? Kukaan ei voi logata sisään ja jos sen joku jotenkin korkkaa niin mitä sitten? Ainoat tiedot saatavilla on ne jotka jo näkyy julkisesti. YV:t sun muut tietenkin poistoon myös, kaikki mikä ei päälleppäin näy. Pidät vaan kopiota tallessa offlinessa. Tämä olisi varmasti se yksinkertisin ja helpoin ratkaisu joka kuitenkin toimisi 100%, käytettävyyskin nykyisellään säilyisi.
Tämä käy sormea heilauttamalla, pistin tuolla HTTrackilla mirrorin lataantumaan. Se on puksuttanut reilut 3 tuntia ja ladannut ~900 megaa (eikä loppua näy). Mutta jälki on jotakuinkin priimaa, tarkka mirror koko foorumista (kuten se vanhalla palvelimella luettavissa on).
Kun mirror on valmis, sen voi heittää palvelimelle missä pelkkä HTTPD eikä mitään muuta webbiserverisoftaa, pelkkiä HTML-filejä ja paljon.
Tuo kiskaisee kaiken mirroriin mitä old.tappara.info:ssa on linkkien takana. Ulkopuoliset resurssit säilyy sellaisinaan, esim. jQuery ladataan code.jquery.comista jne.
Ok, jättää siis vaan staattisen matskun serverille ja sillä selvä. Toimiva ratkaisu jos vaan varmasti lataa kaikki sivut. En ole aikoihin käyttänyt mutta joskus mulla oli noista mirrorointisoftista vähän epävarmoja kokemuksia, mutta siitä on se 15 vuotta eli varmaan ovat “vähän” kehittyneet
Eli @ljpp tuo on varmasti toimiva, testatkaa ihmeeessä. Jos ei niin suosittelen itse tuota databasesta kaiken herkän datan strippaamista ja jätät linjoille sellaisenaan.
Itselläkin ekana mieleen tuli että kaikki sensitiiviset kolumnit nulliksi, mutta mahtaisiko kanta sitten enää toimia. Kolumnien droppaaminen varmastikin rikkoisi kaiken.
Joo ei niitä dropata pois voi, ylikirjoittaahan ne tarvitsee. salasanat ja mailit vaan jollain 1@whateva.com2@whateva.com piiloon ja passut yhdeksi geneeriseksi sanaksi. Tuonhan ajelee php:llä sinne kantaan helposti sisään, varmaan vaikka phpmyadminiin on tässä tapauksessa pääsy luulen.
Onko tuossa järkeä? Aika kallista hupia meinaa amazonissa tollasta hostata. Tietty jos lätkit cloudflaren taakse tyyliin “cache everything” ja kun kaikki on staattista voi kulutus olla kohtuu rauhallista. Mutta itse katselisin jonkin Scalewayn suuntaan tässä tapauksessa, selviät paljon halvemmalla.
1).En ole laskelmaa tehnyt, mutta yllättyisin jos olisi kallista. Siellä on jo kymmeniä gigatavuja tämän foorumin dataa.
2) Pointti on päästä eroon ylläpidettävästä infrasta. Joku shared hosting voi tulla kysymykseen, mutta ei Scalewayn purkki.