Hyppää pääsisältöön

Perusopas

Aineistojen validointi

PAS-palvelut validoivat eli tarkastavat aineiston teknisen laadun ennen hyväksymistä säilytykseen. Aineisto validoidaan PAS-palvelun vastaanotossa tarkastamalla se palvelun määrittelyjä vasten. PAS-palvelun vastaanotossa varmistutaan siitä, että säilytykseen menevä aineisto on eheää ja käyttökelpoista ja määrittelyjen mukaisessa muodossa. Näin PAS-palvelu voi ottaa vastuun aineiston säilyttämisestä niin, että se säilyy käyttökelpoisena tuleville sukupolville silloinkin, vaikka tiedostomuodot, käytettävät ohjelmistot ja muu ympäristö muuttuisi. Validoinnissa on useita vaiheita, esimerkiksi eheydentarkastus. Seuraavassa on kerrottu aineistojen validoinnista joitakin keskeisiä asioita.

Tiedostomuotojen validointi

Aineistoon kuuluvien tiedostojen säilytys- tai siirtokelpoisuus voidaan esimerkiksi otoksenomaisesti tarkastaa validointipalvelussa ennen lähettämistä PAS-palveluun.

Tiedostomuotojen validoinnilla on useampia tarkoituksia:

  • Rikkinäisten tiedostojen havaitseminen
  • Väärintunnistettujen tiedostojen havaitseminen
  • Toteaminen, että tiedostoa pystyy käsittelemään tietyllä nykyhetken ohjelmistolla

Tiedostomuotojen säilyttämisen strategiana PAS-palvelussa on tiedostomuotomigraatiot. Se tarkoittaa, että säilytyksessä olevat tiedostot migroidaan uuteen muotoon ennen, kuin käytössä oleva muoto on katoamassa. Katoamassa olevaa tiedostomuotoa tukevat ohjelmistot katoavat muodon mukana. Näin ollen tiedostot eivät säilyisi käyttökelpoisena uusissa ympäristöissä ilman migraatioita säilytystoimenpiteinä. Vain eheälle säilytyskelpoiselle tiedostolle ilman teknisiä virheitä voidaan

  • toteuttaa migraatio uuteen tiedostomuotoon tunnetulla migraatioprosessilla
  • todeta, että tietosisältö säilyy luotettavalla tavalla tunnetuilla säilytysmenetelmillä.

Metatietojen ja siirtopakettien validointi

PAS-palvelut validoivat myös tarkasti PAS-palveluun siirrettävien siirtopakettien rakenteen sekä metatiedoissa kuvattavat metatiedot erityisesti teknisten metatietojen osalta. Kun siirtopaketit on muodostettu määrittelyiden mukaisesti, PAS-palveluiden vastaanotto osaa tulkita saamaansa aineistoa oikein. PAS-palvelulle erityisen tärkeitä metatietoja ovat tekniset metatiedot, joiden muodostamiselle on määrittelyissä paljon ohjeita. Paketointityökalut ja Fairdata PAS-palvelun sisältämä paketointitoiminto osaavat muodostaa lähes kaikki tekniset metatiedot automaattisesti aineistosta.

On myös olemassa sellaisia teknisiä metatietoja, joita ei saa aineistosta selville, ja ne tulisikin antaa erikseen paketoinnin yhteydessä. Tällaisia tietoja ovat esimerkiksi:

  • Tekstitiedostojen (esim. Plain text) merkistökoodaus
  • CSV-tiedostojen erotinmerkit

PAS-palvelun työkalut voivat tarvittaessa yrittää arvata nämäkin tiedot,mutta arvaus perustuu pitkälti todennäköisyyksiin, ja voi siksi mennä myös joissakin tapauksissa pieleen.