Hyppää pääsisältöön

Pitkäaikaissäilytyksen lyhyt historia II

Tämä on kansallisten digitaalisten pitkäaikaissäilytyspalveluiden rakentumisesta kertovan blogisarjan toinen kolmesta osasta. Kerron sarjassa tapahtumista, jotka loivat pohjan digitaaliselle pitkäaikaissäilytykselle hallinnollisesti, teknologisesti sekä kyvykkyyksien osalta, ja lopulta johtivat toiminnan käynnistämiseen.

Tässä osassa kerrotaan digitaaliselle pitkäaikaissäilyttämiselle tarpeellisten teknologioiden kehittymisestä. Ensimmäisessä osassa käsiteltiin hallinnoinnin kehitystä ja viimeisessä osassa tullaan käsittelemään digitaalisen pitkäaikaissäilytyksen kyvykkyyksiä.

Standardointi 

Digitaalinen julkaiseminen on rakennettu standardien varaan. Ei liene yllätys, että myös digitaalisten aineistojen pitkäaikaissäilytyksen perusta muodostuu standardeista. Mutta tätä perustaa ei vielä 1990-luvun alussa ollut olemassakaan. Jos haluttiin esimerkiksi kuvata pitkäaikaissäilytyksen toiminnallinen kokonaisuus ja sen osallistujat, ei ollut olemassa mitään valmista mallia, jota olisi voitu soveltaa. Suuri osa pitkäaikaissäilytettävästä aineistosta oli standardoimattomissa tiedostomuodoissa, joiden määrityksiä ei ollut julkaistu. Silloin nämä tiedostot olivat avattavissa vain kyseistä tiedostomuotoa tukevalla ohjelmistolla. Hyvä esimerkki tästä oli Windows Wordin sisäinen tiedostoformaatti, joka korvattiin ISO-standardina julkaistulla OOXML:llä vasta vuonna 2008.

Esittelen seuraavaksi muutamia standardeja, jotka ovat CSC:n PAS-palvelun kannalta tärkeitä ja täydentävät toisiaan. 

Pitkäaikaissäilytyksen viitemalli  

Pitkäaikaissäilytyksen viitemalli eli OAIS (Open Archival Information System) on tätä kirjoitettaessa ISO-standardi ISO 14721:2025. Nykyinen laitos on kolmas; ensimmäinen ilmestyi 2003. ISO-standardin luonnos julkistettiin jo 1999, mutta jo ennen sen ilmestymistä NEDLIB-projekti päätti soveltaa viitemallia. Kiitos tästä ratkaisusta kuuluu Koninklijke Bibliotheekille.  

Mallin kehitti ja sitä ylläpitää edelleen avaruusjärjestöjen kuten NASAn ja ESAn yhteinen standardisointijärjestö The Consultative Committee for Space Data Systems eli CCSDS. Se on suhtautunut nihkeästi muiden tahojen tekemiin OAIS-parannusehdotuksiin. Malliin ei ole tehty sen eri laitosten ISO-standardointiprosesseissa mitään merkittäviä muutoksia CSSDSn tekemien parannusten lisäksi. 

Suomenkielinen versio ISO-standardin ensimmäisestä laitoksesta valmistui vasta 2009. Käännöstyöstä vastasi SFS:n Tietohuoltokomitea (nykyään Tietohuolto standardisointiryhmä). Työn aloittamista hidasti se, että standardi kuului Metalliteollisuuden standardisointiyhdistys ry:n eli METSTAn vastuulle, ja Tietohuoltokomitean piti saada siltä lupa käännöksen tekemiseen. Tämäntyyppiset standardivastuiden siirrot eivät ole SFSssä normaali käytäntö, mutta koska METSTAlla ei ollut kiinnostusta PAS-standardisointiin, Tietohuoltokomitea sai lopulta käännösurakan hoitaakseen.   

Ryhmätyönä tehty käännös oli työläs prosessi. Standardi oli pitkä, ja sen olivat laatineet avaruusjärjestöjen kuten NASAn ja ESAn PAS-asiantuntijat. Standardin kieliasu ei ollut sujuvinta proosaa, ja teksti oli tulvillaan uusia käsitteitä, jotka piti suomentaa. Kun työ tehtiin ennen kuin standardia oli Suomessa alettu soveltaa, käännökseen jäi ymmärrettävistä syistä vielä vähän hiomista. Mutta käännöstyöhön osallistuneet PAS-hankkeen jäsenet saivat vaivan palkaksi hyvän yleiskuvan standardista.  

Nykyinen suomalainen standardi, SFS-ISO 14721:2015 perustuu standardin toiseen laitokseen, ja sitä käännettäessä suomentajalla eli allekirjoittaneella oli onnekseen jo käytännön kokemusta OAIS-mallin soveltamisesta. Standardin viimeisintä laitosta ei aiota kääntää, koska siinä tehdyt muutokset ovat merkitykseltään vähäisiä.

OAIS-mallin ylin taso
Kuva 1. OAIS-mallin ylin taso

OAIS on PAS-toiminnan kannalta erittäin merkittävä standardi monesta syystä. Se määrittelee pitkäaikaissäilytysjärjestelmän keskeiset toiminnot ja niihin liittyvät käsitteet, sekä PAS-palvelun toimintaympäristön. Jotta pitkäaikaissäilytyksestä voitiin puhua suomeksi, suomennos oli välttämätön. 

Mallin ansiosta PAS-palvelu ja palvelua hyödyntävät organisaatiot ymmärtävät, miten PAS-palvelu toimii. Ne tietävät, mistä on kyse, kun puhutaan esimerkiksi siirto-, säilytys- ja jakelupaketeista ja näiden pakettien luomisesta. Yllä olevassa kuvassa ne ovat SIP (Submission information package eli siirtopaketti), AIP (Archival Information Package eli säilytyspaketti) ja DIP (Dissemination Information Package eli jakelupaketti). 

Kaikkien PAS-toimijoiden on tärkeää ymmärtää, että pakettien välillä ei ole 1:1 suhdetta. Vaikka Kansalliskirjasto lähettäisi tiedon tuottajana PAS-palveluun esimerkiksi jonkin kustantajan kaikki e-kirjat vuodelta 2025 yhtenä siirtopakettina, asiakkaana sen on voitava myöhemmin tilata näitä kirjoja jakelupaketteina vaikka vain yhden kerrallaan. Asiakas voi myös tilata esimerkiksi vain säilytettäviin aineistoihin liittyviä metatietoja. 

PAS-palvelun toiminnan ymmärtämiseksi on hyvä hahmottaa, että säilytyspaketit ovat loogisia entiteettejä, toisin kuin siirto- ja jakelupaketit. Julkaisua koskevat metatiedot voidaan poimia siirtopaketista ja tallentaa haettaviksi tietokantaan, jonne lisätään myös PAS-toiminnassa syntyvä metadata. Siirtopaketin sisältämät tai siihen linkitetyt tiedostot, joista julkaisu koostuu, tallennetaan riittävän monena kopiona arkiston hallinnoimiin tallennusjärjestelmiin (levyille, nauhoille ja pimeään arkistoon). Säilytyspaketti on kaikkien näiden tiedostojen sekä metatietojen yhdistelmä. 

METS, Metadata Encoding and Transmission Standard 

OAIS-mallin mukaan tietopaketteihin sisältyy varsinaisen tietosisällön (tiedostojen) ohella metatietoja, jotka mahdollistavat tiedostojen vastaanoton PAS-palveluun, sekä pitkäaikaisen säilyttämisen. Standardi ei kuitenkaan määrittele tietopaketin rakennetta, eikä CCSDS ole kehittänyt tähän tarkoitukseen standardia, joka olisi saanut OAIS-mallin kaltaisen monopoliaseman.  

PAS-palvelun tietopakettien yleiseksi rakennestandardiksi valittiin METS. Se on alun perin Kongressin kirjastolle kehitetty XML-pohjainen de facto -standardi, jonka versio 1.0 valmistui 2001. Standardista vastaa Kongressin kirjasto, mutta sitä kehittää kansainvälinen, METS-asiantuntijoista koostuva METS Editorial Board. Standardin viimeisin versio on maaliskuussa 2025 julkistettu versio 2.0. METS ei ole ainoa pitkäaikaissäilytyksessä käytetty paketointimääritys, mutta sitä käyttävät kirjastojen lisäksi myös monet muut toimijat.  

METS-määrityksen avulla voidaan pitkäaikaissäilytettävään aineistoon liittyvä kuvaileva, tekninen ja rakenteellinen metadata tallentaa koneluettavaan ja -ymmärrettävään muotoon. Siirtopaketti voi sisältää esimerkiksi PAS-palveluun siirrettävän julkaisun MARC 21 -formaatissa tai Dublin Core -muodossa olevat kuvailutiedot. PAS-palveluun viennin ja siellä tehtävien säilytystoimien yhteydessä METS-pakettiin tallennetaan lisää metatietoja eri formaateissa. Esimerkiksi migraation yhteydessä tapahtuneet sisällön tai ulkoasun muutokset sekä operaatiossa käytetyt työkalut voidaan kuvata PREMIS-standardin mukaisena metadatana.

METS-määrityksen lisäksi PAS-palvelu soveltaa Web Archive Format – eli WARC-määritystä. Sitä käytetään verkosta haravoidun aineiston paketointiin. WARC mahdollistaa esimerkiksi sellaisten teknisten metatietojen tallennuksen, joiden avulla haravoitujen tiedostojen eheys ja autenttisuus voidaan varmistaa.

PREMIS, Preservation metadata 

METS-määrityksen avulla osoitetaan, missä kohdin tietopakettia aineistoon liittyvät metatiedot sijaitsevat, ja missä formaatissa ne on tallennettu. METS ei kuitenkaan määrittele, millaista pitkäaikaissäilytykseen liittyvä metatieto on. Tätä varten on kehitetty PREMIS, jonka versio 1.0 ilmestyi 2005. Uusin versio, jota myös PAS-palvelu soveltaa, on 3.0 vuodelta 2015. 

PREMIS-formaatin kehitti amerikkalainen korkeakoulukirjastojen verkko RLG (Research Libraries Group), joka yhdistyi OCLC-kirjastoverkkoon 2006. METSin tapaan standardista vastaa Kongressin kirjasto, mutta standardia kehittää kansainvälinen The PREMIS Editorial Committee, joka:

coordinates revisions and implementation of the standard, which consists of the Data Dictionary, an XML schema, and supporting documentation. 

PREMIS-standardin määrittelemät metatiedot koskevat tallennettavien aineistojen ohella tapahtumia (kuten tiedoston migraatio tai kopiointi), toimijoita (kuka vastasi migraatiosta, millä sovelluksella se tehtiin) sekä PAS-palvelun sisäisiä käyttöoikeuksia koskien tiedostojen ja metatietojen käsittelyä.

METS- ja PREMIS-standardien soveltaminen
Kuva 2. METS- ja PREMIS-standardien soveltaminen 

Kuva 2 antaa esimerkin siitä, miten PREMIS-määrityksen mukaiset metatiedot voidaan tallentaa METS-standardia noudattavaan tietopakettiin. METS- ja PREMIS-määritysten avulla periaatteessa mikä tahansa pitkäaikaissäilytettävään aineistoon kohdistuva toimenpide, vastasipa siitä tiedon tuottaja ennen aineiston siirtoa tai PAS-palvelu säilytyksen aikana, voidaan dokumentoida. 

Teknisen metadatan formaatit 

METS- ja PREMIS-määritykset eivät mahdollista PAS-palveluun tallennettujen tiedostojen tarkkaa teknistä kuvausta. Perinteiset kuvailuun käytettävät metadataformaatit kuten MARC 21 ja Dublin Core sisältävät joitakin teknisen metadatan elementtejä kuten tiedoston koon ja tiedostomuodon, mutta pitkäaikaissäilytyksen kannalta ne eivät ole riittävän spesifejä. Teknisen metatiedon kattavaan kuvailuun on kehitetty joukko aineistotyyppikohtaisia de facto -standardeja. 

Yksi näistä standardeista on audioMD. Se on METS-yhteensopiva XML-skeema, jonka avulla voidaan tehdä tarkka kuvaus äänitiedoston teknisistä ominaisuuksista. Standardin kehitti alun perin Kongressin kirjasto projektityönä 2000-2003, mutta Ruotsin kansallisarkisto teki määritykseen merkittäviä parannuksia 2009-2010. Kongressin kirjasto otti AudioMD-määrityksen ylläpitovastuun vuonna 2011. Kirjasto vastaa myös teksti- ja kuva-aineistoille tehtyjen de facto -määritysten (textMD, MIX, VideoMD) ylläpidosta.

Kongressin kirjasto on CCSDS:n ohella merkittävin pitkäaikaissäilytyksen standardien ylläpitäjätaho. Toisin kuin CCSDS, kirjasto ottaa muiden toimijoiden ehdotukset PAS-määritysten kehittämisestä avosylin vastaan. Esimerkiksi audioMD:stä ja videoMD:stä todetaan seuraavaa:

The Library of Congress Network Development and MARC Standards Office (LoC) serves as the maintenance agency for audioMD and videoMD, although the majority of the qualitative work on the schema will come from the larger METS community and from audioMD and videoMD implementers external to LoC.

Tunnisteet 

Kaikilla PAS-palveluun siirrettävillä objekteilla on oltava yksiselitteinen, ainutkertainen ja toiminnallinen tunniste. Objekti voi olla esimerkiksi julkaisu, julkaisun osan muodostava tiedosto, tai julkaisua kuvaava MARC 21 -tietue. 

Toiminnallisten tunnisteiden avulla julkaisut ovat haettavissa julkaisuarkistoista, mutta tarvittaessa myös PAS-palvelusta, joka toimii ”hätävarana” silloin, kun aineistoa ei enää muualla ole. Tätä kirjoitettaessa esimerkiksi KAVIn digitoimien elokuvien häviöttömät alkuperäiskopiot löytyvät levytilan säästämiseksi vain CSC:n PAS-palvelusta. Elonet-käyttäjien versiot ovat toki edelleen KAVIn omalla palvelimella. 

 Kirjastojen perinteiset tunnisteet kuten ISBN ja ISSN kattavat vain murto-osan PAS-järjestelmään siirrettävistä aineistoista. Toiminnalliset tunnisteet kuten Handle ja DOI auttavat vähän, koska esimerkiksi DOI-tunnuksen on oltava yhteinen artikkelin kaikille versioille eri tiedostomuodoille. Kun arkisto luo migraatiolla tiedostosta uuden version, se ei saa antaa sille uutta DOI-tunnusta. 

PAS-palvelua hyödyntävä organisaatio tarvitsee tunnistejärjestelmän, jonka avulla se voi antaa maksuttomia toiminnallisia tunnuksia tarpeen mukaan. Tämän uuden tunnistejärjestelmän pitää kuitenkin olla yhteismitallinen perinteisten tunnistejärjestelmien kanssa. 

Kansalliskirjasto hyödyntää PAS-palvelussa kaikkia perinteisiä julkaisujen tunnisteita, mutta niitä täydentää National Bibliography Number (NBN). Se annetaan silloin, kun mikään muu tunniste ei ole käytettävissä. NBN-tunnistetta sovelletaan toiminnallisina URN-tunnuksina, jotka voivat linkittyä joko julkaisuarkistoon tai PAS-palvelussa olevaan aineistokopioon. 

Toiminnalliset tunnisteet, kuten DOI, Handle ja URN, standardoitiin jo 1990-luvun jälkipuoliskolla. Niiden käyttö yleistyi kuitenkin vasta 2000-luvulla, ja standardeista on ilmestynyt uusia, ajantasaistettuja versioita. Merkittävä haitta toiminnallisille tunnisteille on ollut Tim Berners-Leen kehittämä Uniform Resource Identifier. Se perustuu dokumentin Internet-sijainnin käyttöön tunnisteena. Jokainen voi itse tykönään miettiä, miten hyvin tämä ajatus soveltuu pitkäaikaissäilytyksen vaatimuksiin tai siihen, ettei toiminnallinen tunniste saa olla ristiriidassa perinteisen tunnistejärjestelmän kuten kirjan ISBN-tunnuksen kanssa.     

Tiedostomuodot

Tunnisteiden ohella ainoa standardoinnin osa-alue, jossa merkittävä osa työstä oli vuosituhannen vaihteessa jo tehty, on tiedostomuodot. Aikajärjestyksessä paljon käytettyjen tiedostomuotojen standardeja valmistui seuraavasti: 

  • JPEG 1992
  • HTML 1993
  • PDF 1993
  • MPEG-2 1996
  • XML 1998
  • OOXML 2008

Nämä määritykset ovat kaikki niin sanottuja avoimia standardeja. Toisin sanoen kaukana tulevaisuudessa, kun ainuttakaan PDF-tiedostoja tulkitsevaa ohjelmaa ei enää ole olemassa tai ei voi käyttää, ISOn PDF-standardin avulla on mahdollista rakentaa ohjelma, jolla arkistoon talletetut tiedostot ovat luettavissa, sillä edellytyksellä että ne ovat eheitä.  

Avoimuus ei ollut yritysten ensimmäinen valinta. Esimerkiksi MS Office-sovellusten tiedostomuodot eivät alun perin olleet julkisia. Salailu teki periaatteessa mahdottomaksi esimerkiksi Word-dokumenttien häviöttömän muuntamisen formaatista toiseen. Kritiikki pakotti Microsoftin ensin julkistamaan Wordin sisäisen tiedostomuodon, ja sitten ottamaan käyttöön XML-pohjaisen OOXML-määrityksen, joka hyväksyttiin ISO-standardiksi haasteellisen prosessin päätteeksi. 

Kaikki toimijat eivät vieläkään ole sisäistäneet avoimuuden tärkeyttä. Esimerkiksi Apple ja Google ovat ottaneet e-kirjojen tiedostomuotojensa lähtökohdaksi avoimen EPUB-standardin, mutta kumpikin yritys on tehnyt siihen dokumentoimattomia muutoksia. EPUB-tiedosto voidaan muuntaa Amazonin sovelluksella sen Kindle-tiedostomuotoon, mutta migraatioon Kindle-muodosta takaisin EPUB-tiedostomuotoon ei ole Amazonin tukemaa sovellusta. Mitään oleellista Kindle ei EPUB-standardiin lisää; oman tiedostomuodon tarkoitus on sitoa kuluttaja Amazonin tuottamaan sisältöön. Pitkäaikaissäilytyksen kannalta Kindle ja muut yrityskohtaiset, ei-avoimet tiedostomuodot ovat merkittävä haaste.  

Kansallisen digitaalisen kirjaston hankkeessa on tehty listaus säilytys- ja siirtokelpoisista tiedostomuodoista. Edelliset siirretään pitkäaikaissäilytykseen sellaisenaan, edelliset muunnetaan säilytyskelpoiseen muotoon. Siirtopaketteihin voidaan tallentaa myös muita tiedostomuotoja, mutta PAS-palvelu ei tarkista niiden oikeellisuutta eikä kohdista niihin säilytystoimia. Säilytyskelpoiset tiedostomuodot ovat standardoituja, hyvin dokumentoituja ja mitä todennäköisimmin varsin pitkäikäisiä. Siksi niiden muuntamiseen ei pitäisi tulla tarvetta ainakaan lähitulevaisuudessa. 

Johtopäätöksiä

Tärkeimmät pitkäaikaissäilytykseen liittyvät standardit kehitettiin nopeaan tahtiin 2000-luvun ensimmäisen vuosikymmenen aikana. PAS-palvelun toteuttaminen ennen vuotta 2000 olisi ollut perin hankalaa, koska kaikki tekniset ratkaisut olisi pitänyt keksiä itse. Siksi pitkäaikaissäilytys oli pitkään vain bittien säilytystä. 

Vuoden 2010 jälkeen, eli juuri sopivasti Kansallisen digitaalisen kirjaston projektin PAS-hankkeen kannalta, lähes kaikki tärkeät standardit oli luotu. Tarvittiin vain päätös niiden soveltamisesta. Mitenkään itsestään selvää ei ollut, että arkistot ja museot, tai CSC teknisenä asiantuntijana, hyväksyisivät OAIS-mallin, METSin ja Kongressin kirjaston kehittämät teknisen metadatan määritykset. Mutta perusteellisen keskustelun ja eri vaihtoehtojen arvioinnin jälkeen ne päätyivät osaksi KDK-hankkeen standardisalkkua. 

Tätä kirjoitettaessa CSC:n PAS-palvelussa on edelleen ratkaisematta hyödyntävien organisaatioiden tuotantojärjestelmien ja PAS-palvelun välinen rajapintastandardi. Käytössä on hankkeen sisäinen ratkaisu, vaikka de facto -standardeja on olemassa ainakin kaksi, SWORD ja CCSDS:n PAIS 

Valitettavasti kumpikaan näistä määrityksistä ei sovellu sellaisenaan Suomen olosuhteisiin. Standardipohjan heikkouden vuoksi PAS-palvelun rajapintamääritystä joudutaan kehittämään itse, mistä voi olla haittaa, jos CSC:n PAS-palvelua hyödyntävät organisaatiot haluavat joskus siirtää aineistoa myös muihin PAS-palveluihin. Tämä ongelma lienee teoreettista laatua; todennäköisempää on, että pitkäaikaissäilytettävää aineistoa siirretään tulevaisuudessa suoraan PAS-palveluiden välillä. Näissä aineistonsiirroissa sovellettavat tekniset ratkaisut voidaan aikanaan sopia suoraan PAS-palveluiden kesken.   

Ohjelmistot 

Integroitu kirjastojärjestelmä vs. PAS-järjestelmä

Olen kirjoittanut korkeakoulukirjastojen suurista Linnea- ja Linnea2-hankkeista kirjan Yksissä tuumin. Linnea-hankkeessa yliopistokirjastot ja muutamat tieteelliset erikoiskirjastot ottivat käyttöön amerikkalaisen VTLS-kirjastojärjestelmän, minkä lisäksi rakennettiin kaikkia kirjastoja palvellut yhteisjärjestelmä.  Hanke toteutettiin vuosina 1988-1993. Linnea2-hankkeessa VTLS korvattiin niin ikään amerikkalaisella Voyager-sovelluksella vuosituhannen vaihteessa. 

Kirjastoja palvelevan ohjelmistokokonaisuuden kehittäminen oli 1980-luvulla periaatteessa helppoa. Perinteisiä painettuja aineistoja tarjoavan kirjaston toiminnot tunnettiin hyvin; jopa niin hyvin, että kirjastoa käytettiin esimerkkinä systemoinnin oppikirjana. Kaikki kirjastojärjestelmät tarjosivat suurin piirtein samat palvelut, eikä niiden toteutuksessakaan ollut suuria eroja. 

Tämän jaetun maailmankuvan ansiosta Linnea-kirjastot pystyivät laatimaan ohjelmistovalinnan helpottamiseksi perusteelliset vaatimusmäärittelyt. Mutta edes 2000-luvun alussa toteutettu Linnea2-hanke ei esittänyt digitaalisia aineistoja koskevia vaateita. Kirjastojärjestelmissä ei vielä silloinkaan ollut digitaalisten aineistojen käytön edellyttämiä toimintoja. Niitä toteutettiin vasta julkaisuarkistosovelluksissa, joista ei Linnea2-hankkeen aikana tiedetty vielä mitään.

Hewlett-Packardin ja MITn yhdessä kehittämä avoimen lähdekoodin sovellus DSpace julkistettiin marraskuussa 2002, Cornell Universityn Fedora puoli vuotta myöhemmin, toukokuussa 2003. Näiden ohjelmistojen käyttö yleistyi vasta joitakin vuosia myöhemmin. 

PAS-toiminnan kannalta julkaisuarkistot eivät olleet ratkaisu, sillä niissäkään ei ollut pitkäaikaissäilytyksen edellyttämiä toimintoja. Yksi syy tähän on se. ettei PAS-palvelun toiminnoista ollut kokonaiskuvaa. Perinteisen kirjaston toiminnot ymmärrettiin, koska kirjastoja oli ollut olemassa vuosisatoja. Mutta PAS-palvelusta ei ollut juuri mitään käytännön kokemusta bittien säilytystä lukuun ottamatta, eikä yhteisymmärrystä palvelun toiminnoista edes perustoimintojen tasolla. PAS oli 30 vuotta sitten kuin sananlaskun elefantti, jota sokeat miehet yrittävät kuvailla, kukin omasta näkökulmastaan. Vasta pitkäaikaissäilytyksen viitemalli OAIS tarjosi PAS-toiminnan kokonaiskuvan, jollaisen esimerkiksi kirjastot saattoivat omissa IT-hankkeissaan ottaa annettuna. Ja vaikka OAIS-standardin julkaisusta on jo 20 vuotta, se ei vieläkään ole kaikille pitkäaikaissäilytyshankkeisiin ryhtyneille tuttu.  

Tätä taustaa vasten on ymmärrettävää. että kun PAS-sovellusten kehittäminen alkoi ennen OAIS-standardin julkaisua, työ alkoi toiminnoiltaan rajatuista ohjelmista, joista kukin ratkaisi pienen osan ongelmasta. 

Yksittäiset PAS-ohjelmat

PAS-ohjelmistohankkeista vanhin ja kenties edelleen tunnetuin lienee Stanfordin yliopiston 1999 käynnistämä LOCKSS (Lots of Copies Keep Stuff Safe). Sen kehittämät ohjelmistot luovat edellytykset bittitason säilytykselle tallentamalla tiedostoista vähintään kolme kopiota eri sijaintipaikkoihin. Kopioita vertailemalla voidaan havaita ja korjata bittimädän aiheuttamat ongelmat.   

LOCKSS-ohjelmisto saatiin tuotantoon 2004, ja tätä kirjoitettaessa ohjelmistolla on suuri määrä käyttäjiä, jotka ovat luoneet eri aineistoihin keskittyviä yhteistyöverkostoja. Esimerkiksi Digital Federal Depository Library Program tallentaa U. S. Government Publishing Officen digitaaliset aineistot siten, ettei niiden vaivihkainen muuttaminen jälkikäteen ole mahdollista. Tallentajaorganisaatioita on yli 30. LOCKSS ei kuitenkaan takaa sitä, että aineistojen ymmärrettävyys säilyy, tai että poliitikot ymmärtäisivät olla peukaloimatta itselleen epämieluisia julkaisuja ja tutkimusaineistoja. 

PAS-palvelu voi käyttää bittien säilytykseen LOCKSSin sijaan muita välineitä. Mutta on paljon kansainvälisenä yhteistyönä kehitettäviä ohjelmia, joita jokainen PAS-palvelu voi hyödyntää. Esimerkiksi Open Preservation Foundation on tarjoaa useita hyödyllisiä tiedostojen käsittelyyn tarkoitettuja työkaluja. JHOVElla voidaan tarkistaa arkistoitavaksi saapuvien tiedostojen tiedostomuoto, versio sekä eheys. PDF/A-tiedoston virheettömyys voidaan analysoida veraPDF-sovelluksella

Yhteisistä työkaluista huolimatta jokainen PAS-palvelu on myös kehittämishanke. Tiedostojen migraatiota varten pitää aikanaan kehittää omat välineet, koska asiakkailla voi olla omia erikoistoiveita. Kun esimerkiksi Kansalliskirjaston verkosta haravoima aineisto muunnettiin ARC-muodosta WARC-formaattiin (Web Archive Format), säilytyspaketteja rikastettiin metadatalla kirjaston toiveiden mukaisesti. Ja kun PAS-palvelua hyödyntävä organisaatio haluaa saada arkistosta aineistoa jakelupaketteina omien toiveidensa mukaisesti, tarvittava ohjelmisto pitää kehittää yhteistyönä.  

Kaikki avoimen lähdekoodin PAS-ohjelmistot eivät ole kapea-alaisia. Artefactualin vuonna 2007 julkistettu Archivematica kattaa tätä kirjoitettaessa periaatteessa kaikki pitkäaikaissäilytyksen toiminnot. Mutta sekin on vielä osittain keskeneräinen, eikä se koskaan tule täyttämään kaikkien PAS-palvelujen tai niitä hyödyntävien organisaatioiden toiveita. 

Myös CSC:n kehittämiä PAS-ohjelmistoja on verkossa kaikkien vapaasti haettavissa ja käytettävissä osoitteessa https://github.com/Digital-Preservation-Finland. Ne on kehitetty CSC:n PAS-palvelun vaatimusten mukaisesti, helpottamaan palveluun lähetettävien METS-siirtopakettien rakentamista. 

Kaupalliset PAS-ohjelmistot    

Kaupallisten PAS-ohjelmistojen perusongelma on luottamus. Kun PAS-palvelussa oleva aineisto on säilytettävä periaatteessa ikuisesti, voiko palvelu luottaa kaupallisen yrityksen kehittämään ja ylläpitämään ohjelmistoon? Mitä tapahtuu silloin, kun yrityksen toiminta vääjäämättä ennen pitkää päättyy, tai yritys luopuu PAS-ohjelmiston kehittämisestä kannattamattomuuden vuoksi? 

Ohjelmistosopimukseen kirjattu Escrow-pykälä mahdollistaa ohjelmiston lähdekoodin saamisen sopimuksen rauetessa. Mutta sovellusta käyttäneellä PAS-palvelulla ei välttämättä ole resursseja tutustua ohjelmistoon ja ryhtyä ylläpitämään sitä itse. Ja vaikka olisikin, lähdekoodi voi olla niin huonosti dokumentoitua, ettei ohjelmistoa kyetä päivittämään. Avoimen koodin ylläpitäjäyhteisön avulla voidaan ainakin periaatteessa välttyä vastaavilta pullonkauloilta. KDK PAS-hankkeessa kaupallisen sovelluksen käyttö rajattiin pois jo varhain.  

Yritys voi myös rakentaa PAS-sovelluksensa rajapinnat niin, että ohjelmiston vaihtaminen on vaikeaa tai mahdotonta. Ohjelmiston ostajalta vaadittaisiin melkoista tarkkanäköisyyttä tämän riskin torjumiseksi. 

Tiedän kirjaston, jolla on saman yrityksen toimittama kirjastojärjestelmä ja PAS-sovellus. Testatessani kirjaston näyttöluetteloa totesin, että URL-linkit kirjastojärjestelmän viitteistä arkistosovelluksessa tallennettuihin dokumentteihin käyttivät yrityksen verkkodomainia. Ohjelmistotoimittajan vaihtaminen aiheuttaa lähes varmasti sen, että nämä linkit lakkaisivat toimimasta. Vanhojen linkkien korvaaminen ohjelmallisesti uusilla on tällöin vähintään mielenkiintoinen tekninen haaste. 

Johtopäätöksiä

1990-luvun puolivälissä digitaalisten aineistojen hallinta ja pitkäaikaissäilytys sanojen nykyisessä merkityksessä oli mahdotonta, koska niihin ei ollut olemassa työkaluja. Sitten 2000-luvun alun tilanne on jatkuvasti parantunut. Aluksi kehitettiin sovellukset käyttöä varten (julkaisuarkistot), mutta sittemmin myös pitkäaikaissäilytyksen välineitä, kapea-alaisista erityisohjelmistoista laaja-alaisempiin sovelluksiin. 

KDK PAS -hankkeessa on sekä tehty omaa kehitystyötä, että käytetty valmiita sovelluksia. Käytännössä jokainen PAS-hanke joutuu toimimaan samoin, koska täysin valmista ja kattavaa PAS-ohjelmistopakettia ei voi koskaan olla olemassa, paikallisten erityistarpeiden vuoksi. Siksi jokainen PAS-palvelu tarvitsee myös ohjelmistokehittäjiä, vaikka toiminta pääosin nojaisikin avoimeen lähdekoodiin.  

Jokaisen PAS-palvelun perustana on joukko pitkäaikaissäilytyksen viitemallin ja METSin kaltaisia standardeja. Samaan ratkaisuun ovat päätyneet monet muutkin; esimerkiksi Archivematican standardisalkku vastaa melko hyvin KDK PAS -hankkeen vastaavaa. Mutta esimerkiksi METS-standardia voidaan tukea hyvin monella eri tavalla. Käytännössä tietyn ohjelmiston tuki esimerkiksi omassa hankkeessa määritellyille siirtopaketeille tulee selvittää yksityiskohtaisesti erikseen. 

PAS-palvelun käyttöönotto edellyttää paljon suunnittelua. PAS-sovelluksen käyttöönotto pitää valmistella kunnolla, ja ohjelmiston kannattaa valita vasta kun tietää varmasti, että se täyttää tarpeet. Vaatimusmäärittelyn mahdolliseet puutteet löytää ennen pitkää varmasti edestään, viimeistään siinä vaiheessa kun PAS-sovellus pitää vaihtaa toiseen.   

Juha Hakala

(Blogisarjan kolmas osa, jossa käsitellään digitaalisen pitkäaikaissäilytyksen kyvykkyyksiä, julkaistaan toukokuun lopussa.)

Kirjoittaja

Juha Hakala

 

Juha Hakala, eläkkeellä, toimi erityisasiantuntijana Kansalliskirjastossa. Hän työskenteli digitaalisen säilyttämisen parissa lähes 30 vuoden ajan aina eläkkeelle jäämiseensä vuoteen 2023 saakka. Hän osallistui standardointityöhön ISO:ssa ja IETF:ssä keskittyen tunnistestandardeihin, kuten URN, ISBN ja ISSN. KDK-hankkeessa hän vastasi standardisalkusta. SFS:n Tietohuolto-standardointiryhmän puheenjohtajana Hakala edisti pitkäaikaissäilytyksen viitemallin kääntämistä ja hyväksymistä suomalaiseksi standardiksi.

Tagit