TEHTÄVÄ: Tappara.infon arkistointi tai tuhoaminen

Vastaamon keskusteluista näkyy, että joukossamme on ATK-osaamista.

Koska aihe on ajankohtainen, niin on todettava että Tappara.infon edelleen olemassa oleva sivusto muodostaa kasvavan tietoturvariskin. Serverinä pyörii CentOS joka on vielä elinkaaressa, mutta muuten se hapantuu väistämättä käsiin. Henkilötiedoissa on käyttäjänimi, salasana, sähköpostiosoite.

Pähkinä asiantuntijoille purtavaksi:

Miten sinne tallentunut perimätieto arkistoitaisiin niin, että se olisi nähtävillä, mutta riskittömästi? Onko aika sanoa hyvästit ja tuhota serveri-instanssi lopullisesti?

Lähinnä olen miettinyt jotain HTML-dumppia sisällöstä, jota voisi Google hakukentän avulla pönkiä, jos niin haluaa.

6 tykkäystä

Veikkaisin että ainakin @Luppakorva osaa vastata asiaan :smiley: Pingasin jottei mene ohi.

3 tykkäystä

Eikö tuollainen tieto muodosta henkilörekisterin, jonka säilyttäminen edellyttää aitoa tarkoitusta, mikä taasen on poistunut tai poistumassa, koska kyseistä foorumia ei enää laajasti käytetä?

Toisin sanoen, eikö kyseisten tietojen hävittäminen ole suorastaan velvollisuus?

1 tykkäys

Itse olisin tuhoamisen kannalla.

1 tykkäys

@Rouhija

Tämä on tietysti helpoin tapa. HTML dumppaamisen vaihtoehto kiinnostaa silti, koska lopputuotteena olisi vain staattisia sivuja.

Onhan siellä mehukkaita Laine kommentteja joihin palata :yum:

3 tykkäystä

Saisko ne kaikki postaukset jotenkin kirjoitettua tähän discordin kantaan omalle alueelleen read-only tilaan?

Tähän en missään nimessä lähde. Tietokannan koko on jo nykyisellään haaste.

2 tykkäystä

Luulen että helpoin tapa on staattisen mirrorin luominen esim. HTTrack:lla tai wget:llä (wget --mirror).

Minulla ei ole minkään sortin ratkaisuja tarjota, mutta jonkinsortin historiaihmisenä en voi kannattaa tuhoamista, jos se suinkin vain on mahdollista.

.infoon on tallentunut vuosikausien mittainen ajankuvan Tapparan kannattamisesta ylä- ja alamäkineen. Se on arvokasta historialliasta tietoa. Ihan vilpittömästi voin sanoa, että kyllä tuosta materiaalista muutamankin kandin/gradun saisi kasaan.

Tiedon digitalisoituminen on muuten historiantutkijoiden keskuudessa ihan todellinen huolta herättävä uhka. Tulevaisuudessa ei tule löytymään vintiltä vanhoja valokuva-albumeita ja päiväkirjoja lähteiksi, vaan kaikki on salasanojen takana pilvessä piilotettuna.

22 tykkäystä

Jos jollain on intoa ja harrastuneisuutta, niin HTML-dumpin toimivuutta voisi demota.

Pikaisen vilkaisun perusteella Internet Archive Wayback Machine ei ole tehnyt infosta täydellistä kopiota.

1 tykkäys

Tuntematta nyt järjestelmää yhtään enempää, riippuen tietty minkä perässä ovat nyt (veikkaan että joku PHP foorumi), niin joku scriptihän tuolle kannattaa naputella joka lyö ne joko suoraan haluttuun html muotoon kuvineen, linkkineen päivineen jne, tai sitten säilytettäväksi xml:ään jossa myössä linkataan tietty aina oikeaan kontenttiin että se voidaan tarvittaessa helposti sitten parsia kun se johonkin laitetaan näkyville.

HTML nyt tietty yksinkertaisin. Tietty jos sivusta haluat täysin vastaavan kun vanha oli niin ei se enää kovin yksinkertaista enää ole mikäli tietty sivuston rakenne ja toimivuus täytyy säilyttää.

Jos nyt on tiedot kannassa, tee db:stä backuppi, poista ne “arat” käyttäjätiedot kannasta eli salasana sekä sähköposti fieldit ym vastaavat ja jätä kuten on? Kukaan ei voi logata sisään ja jos sen joku jotenkin korkkaa niin mitä sitten? Ainoat tiedot saatavilla on ne jotka jo näkyy julkisesti. YV:t sun muut tietenkin poistoon myös, kaikki mikä ei päälleppäin näy. Pidät vaan kopiota tallessa offlinessa. Tämä olisi varmasti se yksinkertisin ja helpoin ratkaisu joka kuitenkin toimisi 100%, käytettävyyskin nykyisellään säilyisi.

12 tykkäystä

Tämä käy sormea heilauttamalla, pistin tuolla HTTrackilla mirrorin lataantumaan. Se on puksuttanut reilut 3 tuntia ja ladannut ~900 megaa (eikä loppua näy). Mutta jälki on jotakuinkin priimaa, tarkka mirror koko foorumista (kuten se vanhalla palvelimella luettavissa on).

Kun mirror on valmis, sen voi heittää palvelimelle missä pelkkä HTTPD eikä mitään muuta webbiserverisoftaa, pelkkiä HTML-filejä ja paljon.

13 tykkäystä

Tuossa on näppärä ratkaisu. Mitenkäs kuvat, linkkaako nykyisiin vai vetääkö ne mukanaan tiettyyn hakemistoon mirroriin?

Tuo kiskaisee kaiken mirroriin mitä old.tappara.info:ssa on linkkien takana. Ulkopuoliset resurssit säilyy sellaisinaan, esim. jQuery ladataan code.jquery.comista jne.

2 tykkäystä

Ok, jättää siis vaan staattisen matskun serverille ja sillä selvä. Toimiva ratkaisu jos vaan varmasti lataa kaikki sivut. En ole aikoihin käyttänyt mutta joskus mulla oli noista mirrorointisoftista vähän epävarmoja kokemuksia, mutta siitä on se 15 vuotta eli varmaan ovat “vähän” kehittyneet :smiley:

Eli @ljpp tuo on varmasti toimiva, testatkaa ihmeeessä. Jos ei niin suosittelen itse tuota databasesta kaiken herkän datan strippaamista ja jätät linjoille sellaisenaan.

3 tykkäystä

Itselläkin ekana mieleen tuli että kaikki sensitiiviset kolumnit nulliksi, mutta mahtaisiko kanta sitten enää toimia. Kolumnien droppaaminen varmastikin rikkoisi kaiken.

Joo ei niitä dropata pois voi, ylikirjoittaahan ne tarvitsee. salasanat ja mailit vaan jollain 1@whateva.com 2@whateva.com piiloon ja passut yhdeksi geneeriseksi sanaksi. Tuonhan ajelee php:llä sinne kantaan helposti sisään, varmaan vaikka phpmyadminiin on tässä tapauksessa pääsy luulen.

1 tykkäys

Amazon S3 voisi olla hyvä paikka. Erittäin varma ja pystyy jakelemaan staattisia sivuja. Huoltovapaa.

2 tykkäystä

Onko tuossa järkeä? Aika kallista hupia meinaa amazonissa tollasta hostata. Tietty jos lätkit cloudflaren taakse tyyliin “cache everything” ja kun kaikki on staattista voi kulutus olla kohtuu rauhallista. Mutta itse katselisin jonkin Scalewayn suuntaan tässä tapauksessa, selviät paljon halvemmalla.

1).En ole laskelmaa tehnyt, mutta yllättyisin jos olisi kallista. Siellä on jo kymmeniä gigatavuja tämän foorumin dataa.
2) Pointti on päästä eroon ylläpidettävästä infrasta. Joku shared hosting voi tulla kysymykseen, mutta ei Scalewayn purkki.