Aineistonhallinta ja PAS
Pitkäaikaissäilytys on aineiston sisällöntuntemuksen sekä teknisten asiantuntemuksen yhteistyötä. Tämä tuo mukaan näkökulmia, jotka kannattaa huomioida jo aineistonhallinnan suunnittelussa, jotta varsinainen pitkäaikaissäilytys aineistolle on mahdollisimman luotettavaa aloittaa ja toteuttaa.
Tällä sivulla tuodaan esiin oleellisia asioita aineistonhallintaan pitäkaikaissäilytyksen näkökulmasta. Yleisesti datanhallinnan vaiheisiin voit tutustua esimerkiksi Tutkimusdatanhallinnan itseopiskelukurssilla.
- Pitkäaikaissäilyttäminen on yhteistyötä
-
Aineiston kuvailumetatietojen tuottaminen sekä ymmärrys siitä, mitkä ominaisuudet aineistoissa ovat erityisen tärkeitä säilyttää aineistojen hyödyntäjiä varten, vaatii aineiston sisällöntuntemusta eli sen ymmärtämistä, mistä aineistossa on kyse. Aineiston kuvailun säilyminen on ensiarvoisen tärkeää, jotta ymmärrys aineiston sisällöstä pysyy ja jotta aineisto pystytään asettamaan kontekstiinsa. Tätä tasoa sanotaan semanttiseksi säilyttämiseksi, ja siinä PAS-palveluita hyödyntävät organisaatiot ovat avainroolissa.
Kansalliset PAS-palvelut tuovat pitkäaikaissäilytykseen ennen kaikkea teknistä asiantuntemusta ja teknisiä palveluratkaisuja. Tähän sisältyvät paitsi kopioiden ja tallennuslaitteiden hallinta sekä aineistojen eheydestä huolehtiminen (bittitason säilytys), mutta myös esimerkiksi asiantuntemus pitkäaikaisäilytykseen soveltuvista tiedostomuodoista ja metatietomuodoista, tiedostomuotojen teknisistä ominaisuuksista sekä teknisistä metatiedoista (loogisen säilyttämisen taso).
Looginen pitkäaikaissäilytys on hyödyntävän organisaation aineistontuntemuksen sekä PAS-palveluiden tarjoamien teknisen asiantuntemuksen yhteistyötä. Kun esimerkiksi ympäristön muuttuessa aineisto on syytä migroida tiedostomuodosta toiseen, jotta se uudessa ympäristössä pysyy käyttökelpoisena, PAS-palvelu voi tuoda tähän teknisen asiantuntemuksen ja ratkaisut, mutta mukaan vaaditaan myös hyödyntävän organisaation sisällöntuntemusta, eli ymmärrystä siitä, kuinka aineistoa voi migraatiossa käsitellä, jotta se säilyy autenttisena ja hyödynnettävänä.
Pitkäaikaissäilytys onnistuu ja aineistot pysyvät vuosikymmeniä tai vuosisatoja käyttökelpoisina PAS-palvelussa, kun huolehditaan yhdessä kaikista kolmesta säilyttämisen tasoista (semanttinen, looginen ja bittitaso).
- Näkökulmia aineistonhallintaan
Pitkäaikaissäilyttämisellä valmistaudutaan aina aineiston uudelleenkäyttämiseen. Pitkäaikaissäilytyksen tuomia näkökulmia digitaalisen aineiston hallintaan ovat teknologiarippumattomuus ja varautuminen siihen, että aineiston käyttöympäristö, alkuperäinen käyttötarkoitus, sekä jopa aineiston käytön sidosryhmät voivat muuttua ajan saatossa. Tämä tarkoittaa aineistonhallinnassa erilaisten riskien hallitsemista, avointen ja vakaiden standardien suosimista, sekä runsaat ja laadukkaat metatiedot. Metatiedot toimivat yhtenä laadunvarmistuksen keinona koska aineistoa tulee pystyä ymmärtämään myös tulevaisuudessa. Tämä on huomioitava erityisesti silloin, kun säilytysaika on hyvin pitkä.
Pitkäaikaissäilytyksen valmistelu on syytä aloittaa mahdollisimman aikaisin - jo siitä asti, kun aineisto luodaan. Säilytyksen valmistelu tukee hyvää aineistonhallintaa, johon kuuluu aineistoa kuvailevien metatietojen kerääminen ja ylläpitäminen. Pitkäaikaissäilytystä varten on otettava erityisesti huomioon pitkäaikaissäilytykseen soveltuvien tiedostomuotojen käyttö, aineiston eheyden osoittavat tiedostojen luonnista mahdollisimman aikaisin lasketut tarkistussummat sekä aineiston todistusvoimaisuutta sekä tapahtuneita muutoksia selittävä tapahtumahistoria. Aineisto on tarvittaessa normalisoitava säilyttämistä varten pitkäaikaissäilytyskelpoisiin tiedostomuotoihin.
PAS-palveluita varten aineisto kuvaillaan ja paketoidaan PAS-palvelun määrittelyiden mukaisesti siirtopaketiksi yhdessä metatietojen kanssa. Paketoinnin apuna on paketointityökalu sekä tutkimusaineistoille Hallintaliittymä. Valmis tietopaketti siirretään digitaalisesti allekirjoitettuna PAS-palvelun vastaanottoon, jossa se tarkastetaan ilmoitettuja kuvailutietoja vasten, ja että tiedot ovat oikein ja määrittelyiden mukaisia.
PAS-palvelu validoi säilytykseen halutun aineiston vastaanotossa ennen säilytykseen hyväksymistä. Hyväksytty aineisto siirretään säilytykseen. Hylätyssä aineistossa havaitut virheet ilmoitetaan käyttäjälle korjausta varten.
- Tiedostomuodot
Aineiston käytettävyyden riskien vähentämiseksi PAS-palvelut ottavat vastaan rajatun joukon tiedostomuotoja. Nämä ovat nk. säilytyskelpoisia ja siirtokelpoisia tiedostomuotoja. Aineistoon kuuluvien tiedostojen säilytys- tai siirtokelpoisuus kannattaa määritellä jo aineiston luonnin alkuvaiheessa. Näin luodaan samalla toimivia prosesseja. Katso lisätietoja Aineistojen validoinnista.
Säilytys- ja siirtokelpoiset tiedostomuodot
PAS-palveluihin säilytykseen hyväksyttyjen tiedostomuotojen arviointikriteereinä ovat mm. avoimuus, yleisyys ja yhteensopivuus. Arviointikriteerien kattava kuvaus löytyy tiedostomuotomäärittelyn liittestä B. Tiedostomuotomäärittelyn päivitystarve arvioidaan vuosittain. Päivitysten yhteydessä PAS-palveluun voidaan esimerkiksi hyväksyä uusia aineistotyyppejä tiedostomuotoineen tai vanhentuneiden tiedostomuotojen tilalle voidaan suositella uusia tiedostomuotoja.
Säilytyskelpoiset eli suositeltavat tiedostomuodot on arvioitu parhaiten pitkäaikaissäilytykseen soveltuviksi ja näitä kannattaa siten suosia aineiston luonnissa ja siirtämisessä PAS-palveluun. Siirtokelpoiset tiedostomuodot otetaan myös vastaan ja voidaan muuntaa säilytyskelpoisiksi säilytyksen aikana. Siirtokelpoiset muodot eivät kuitenkaan ole arvioitu kestävän yhtä pitkään kuin säilytyskelpoiset muodot, joten niiden käyttöä ei suositella, mikäli löytyy säilytyskelpoisessa muodossa oleva vaihtoehto. Pitkäaikaissäilyttämisen kannalta on kätevää, että tieto tai aineisto on hyvin säilyvässä muodossa. Tällöin tiedon muotoa eli tiedostomuotoa tarvitsee migroida eli muuttaa uuteen muotoon harvemmin. Tieto myös altistuu harvemmin helposti virheitä tuottavalle käsittelylle, kun se pysyy käyttökelpoisena pidempään.
Hyvin säilyvä tiedostomuoto on avoin eli se on julkisesti hyvin dokumentoitu ja myös hyvin tuettu, eli tiedostomuoto on laajasti käytössä ja sen käyttämiseksi on useita nykyaikaisia toteutuksia. Käytännössä tiedostomuotoa arvioitaessa joudutaan tekemään kompromisseja säilytystarpeiden ja optimaalisen säilyvyyden välillä. Mahdollisista kompromisseista huolimatta tiedostomuodon on täytettävä riittävästi pitkäaikaissäilyttämisen edellytykset.
Aineistotyypit
Aineiston merkittävät ominaisuudet vaihtelevat aineistotyypistä riippuen. Esimerkiksi tekstille ei ole mielekästä määritellä kestoa toisin kuin äänelle, eikä tekstin tulkintaan tarvita tietoa näytteenottotaajuudesta. Tiedostomuoto soveltuu yleensä hyvin yhden aineistotyypin säilyttämiseen. Useita aineistotyyppejä sisältäviä tiedostomuotoja kutsutaan myös säiliömuodoiksi.
PAS-palveluiden määrittelyissä aineistotyyppit ovat:
- teksti
- ääni
- elävä kuva
- kuva
- verkkoarkisto
- paikkatietoaineisto
- tietokanta
- tilastoaineisto
- tieteellinen ohjelmisto
Koska aineistotyyppi osin määrittää aineiston merkittävät ominaisuudet, tietyt tekniset metatiedot, jossa kuvataan näitä ominaisuuksia, ovat aineistotyypikohtaisia.
PAS-palveluiden pitkäaikaissäilytykseen hyväksymät tiedostomuodot löytyvät säilytys- ja siirtokelpoiset tiedostomuodot -määrittelystä.
- Tarkistussummat
Tarkistussumma on keino varmistua datan muuttumattomuudesta. Yhdenkin bitin tahaton muutos voi olla merkittävä, minkä vuoksi suuristakin datamääristä on pystyttävä havaitsemaan minimaalisetkin muutokset.
Data altistuu tahattomille muutoksille eli korruptiolle esimerkiksi dataa siirrettäessä ja laitteiden toimintahäiriöiden vuoksi. Muuttumattomuuden todentamisen ja muutosten havaitsemisen keinona voidaan käyttää tarkistussummien vertailua.
Tarkistussumma voidaan laskea datalle, aineistolle tai muulle tiedolle – usein tiedostossa olevalle datalle. Tarkistussummien avulla voidaan päätellä onko data muuttunut, jos on olemassa vertailukelpoiset eli samalla laskukaavalla muodostetut tarkistussummat eri ajoilta. Tarkistussumma ei kerro miten tai miltä osin data on muuttunut, mutta jos muutos havaitaan, korruptoitunut data (tiedosto) pitää korvata eheällä varmuuskopiolla.
Datan muuttumattomuus eli eheys voidaan varmistaa vain vertailtavien tarkistussummien laskuajankohtien väliltä. Tästä syystä tarkistussumma tulisi laskea mahdollisimman pian sen jälkeen, kun data on luotu. Varmistaminen tehdään vertaamalla alkuperäistä tarkistussummaa samasta datasta myöhemmin laskettavaan uuteen tarkistussummaan.
Ilman alkuperäistä tarkistussummaa tai siihen verrattavaa uutta tarkistussummaa ei ole mahdollista päätellä, onko data säilynyt muuttumattomana. PAS-palveluun siirrettävillä tiedostoille pitää laskea tarkistussummat. Niiden avulla aineistojen eheys tarkistetaan ennen hyväksymistä säilytykseen siirron aikaisten häiriöiden varalta. Hyväksymisen jälkeen aineiston PAS-palvelussa olevien kopioiden eheys varmistetaan säännöllisesti koko säilytyksen ajan laskemalla tarkistussumma uudelleen. Jos data on muuttunut tahattomasti jo ennen PAS-palveluun siirtämistä ja tarkistussumma lasketaan vasta juuri ennen siirtoa jo korruptoituneesta datasta, ei PAS-palvelu pysty tätä havaitsemaan, vaan säilyttää korruptoituneen datan.
Dataa käsitellään useimmiten tiedostoina, jolloin data on tiedoston sisältö, eikä esimerkiksi tiedoston uudelleennimeäminen tai aikaleima vaikuta datan eheyteen. Tarkistussummaa ei tallenneta dataan, josta se on laskettu, vaan sitä kuvaavaan metatietoon.
Tarkistussummien käyttämisen etu eheyden varmistamisessa on niiden tuottamisen ja säilyttämisen keveys. Datan määrästä riippumatta tarkistussumma on aina vain suurin piirtein lauseen mittainen merkkijono, joka voidaan laskea samalla tavoin miljoonien tai jopa miljardien tavujen kokoisista tiedostoista. On periaatteessa mahdollista, että eri aineistoista lasketaan sama tarkistussumma, eli tapahtuu törmäys. Datan tahaton muuttuminen voi siksi jäädä havaitsematta, mutta tämä on erittäin epätodennäköistä - käytännössä mahdotonta.
PAS-palvelussa tarkistussummien tuottamiseen sopivia tiivistealgoritmeja ovat MD5, SHA-1, SHA-224, SHA-256, SHA-384 ja SHA-512. Tarkistussumman, eli tiivisteen, esitysmuoto on heksadesimaaleista muodostettu merkkijono, jonka pituus riippuu käytettävästä algoritmista. Tarkistussumman laskevia sovelluksia voi jokainen tietokoneen käyttäjä ajaa helposti itse. Esimerkiksi tiedoston SHA-256 -tarkistussumman laskeminen ja tuloksen esittäminen tapahtuu Linux- ja MacOS- ja Windows-ympäristöissä seuraavasti:
Linux:
$ sha256sum <tiedosto>
ca978112ca1bbdcafac231b39a23dc4da786eff8147c4e72b9807785afee48bbMacOS:
$ shasum --algorithm 256 <tiedosto>
ca978112ca1bbdcafac231b39a23dc4da786eff8147c4e72b9807785afee48bbWindows:
Windows-käyttöjärjestelmissä varmasti kätevintä on käyttää graafista ohjelmaa tarkistussummien laskemiseen. Näitä on olemassa useita erilaisia ja ne tukevat myös hakemistojen läpikäyntiä. Windowsin komentorivikehotteessa on myös mahdollista laskea yksittäisen tiedoston tarkistussumma seuraavasti:
> Certutil -hashfile <tiedosto> SHA256
ca978112ca1bbdcafac231b39a23dc4da786eff8147c4e72b9807785afee48bb- Tapahtumahistoria
Tapahtumahistorialla kuvataan aineiston syntyä ja sellaisia merkittäviä vaiheita, jotka kertovat miksi aineistolla on tietyt piirteet. Laadukkaalla tapahtumahistorialla voidaan taata aineiston autenttisuus, koska pitkäaikaissäilytyksessä aineistolle ja metatiedoille tehdään sarja hallittuja muutoksia aineiston elinkaaren ajan, jotta aineisto pysyy ymmärrettävänä ja käytettävänä. Jotta muutokset olisivat hallittuja, ja niitä toteuttava toimija uskottava, nämä tapahtumat tulee dokumentoida ja liitettävä osaksi aineiston metatietoja tapahtumahistoriana.
Tapahtumahistoria esitetään tyypillisesti tapahtumina, joilla on mm. tyyppi, aikaleima ja kuvaus. Lisäksi tapahtumiin linkitetään niitä suoritettavia toimijoita (agentteja) sekä aineistot, joihin tapahtuma liittyy. Tapahtumien tyypeille suositetaan käytettävän kontrolloitua sanastoa.
Aineiston synty on yksi tapahtumahistorian osa, jota kannattaa dokumentoida. Aineiston synty, siihen liittyvät laitteisto, ohjelmistot ja muokkaus (esimerkiksi skanneri ja kuvankäsittelyohjelmisto), kertovat miksi aineisto on sen näköinen kuin se on. Aineiston syntyä on usein vaikeaa rekonstruoida jälkikäteen, jolloin aineiston luontiprosessiin on suositeltavaa liittää aineiston synnyn kuvaus osaksi prosessia.
- Tekninen metatieto
Tekninen metatieto kuvaa aineiston teknisiä piirteitä objektikohtaisesti. Teknisillä metatiedoilla pyritään kuvaamaan niitä aineiston tärkeitä piirteitä, joiden halutaan säilyvän, kun aineistolle tehdään säilytystoimenpiteitä. Aineiston piirteet ovat usein aineistotyyppikohtaisia, ja siksi usealle tiedostomuodolle on aineistotyypittäin asetettu pakollisia teknisiä metatietoja. Nämä metatiedot on esitetty PAS-palvelun tiedostomuotomäärittelyssä. Esimerkkinä tekniselle metatiedoille ovat kuvan koko, väriprofiili tai bittisyvyys, äänitteen kesto, näytteenottotajuus tai kanavien määrä, ja tekstitiedoston merkistökoodaus.
Aineistotyyppikohtaiset pakolliset teknisten metatietojen standardit ovat:
- Kuva-aineisto: MIX
- Äänitteet: audioMD
- Elävän kuvan -aineisto: videoMD
- Rakenteellinen teksti (CSV): ADDML
Näiden lisäksi hyödyntävä organisaatio voi esittää teknisiä metatietoja sopivalla metatietoskeemalla. XML-tiedostoja kuvaavat XML-skeemat sisältävät sekä teknistä että semanttista tietoa XML-tiedostoista.
Teknisiä metatietoja hyödynnetään aineiston säilytyksen suunnittelussa, koska niissä kuvatut piirteet vaikuttavat säilytysmenetelmän valintaan. Esimerkiksi kun on migroitava poistuva tiedostomuoto johonkin uuteen muotoon, uusi tiedostomuoto valitaan mm. sen perusteella, miten hyvin se tukee teknisissä metatiedoissa kuvattuja piirteitä.
Suurin osa teknisistä metatiedoista voidaan lukea suoraan tiedostoista. PAS-palveluiden tarjoama paketointityökalu osaa luoda teknisiä metatietoja osana aineiston paketointia. Poikkeuksena ovat mm. tekstitiedostojen merkistökoodaus ja CSV-tiedostojen erotinmerkit, joita ei lue tiedostoissa. Nämä tiedot tulisi syöttää paketointiprosessille erikseen.
- Aineistojen kuvailu
Aineistolla voidaan tarkoittaa tietosisällön tai -sisältöjen muodostamaa merkityksellistä kokonaisuutta.
Laadukkaalla aineiston kuvailulla taataan aineiston semanttinen säilyttäminen. Pitkäaikaissäilyttämisessä semanttinen säilyttäminen tarkoittaa aineiston ymmärettävyyden säilyttämistä, aineiston asettamista laajempaan kontekstiin sekä dokumentointia siitä, miksi aineistoa säilytetään. Semanttinen säilyttäminen ja aineiston kuvailu on ensisijaisesti hyödyntävien organisaatioiden vastuulla, eli asiantuntijoilla, joilla on paras tietämys omista aineistostaan. PAS-palvelut voivat tukea semanttista säilyttämistä mm. ehdottamalla tekniset raamit kuvailevalle metatiedolle ja tarjoamalla mahdollisuuksia pysyvien tunnisteiden yhdistämiselle metatietoihin.
Pitkäaikaissäilytettävä aineisto kuvaillaan ja paketoidaan pitkäaikaissäilytystä varten PAS-palvelussa säilytettävään tietopaketiin. Tietopaketissa käytettävät kuvailevien metatietojen standardoidut siirtomuodot löytyvät PAS-palvelujen paketointimäärittelystä. Valmiin XML-muotoisen kuvailun voi paketoida paketointityökalun avulla. Tutkimusaineistojen kuvailussa ovat apuna Fairdata-palvelut, joiden avulla aineiston voi kuvailla ja julkaista.
- Opetusvideot
CSC on tehnyt englanninkielisen opetusvideosarjan aineistonhallinnan näkökulmista, joilla mahdollistetaan aineistojen pitkäaikainen säilytys ja uudelleenkäyttö:
Manage Well and Get Preserved
1. Research data management and digital preservation (esityskieli englanti)
2. Open formats and data quality (esityskieli englanti)
3. Persistent identifiers (esityskieli englanti)
4. Metadata standards (esityskieli englanti)
5. Preservation metadata (esityskieli englanti)
6. Managing files and file naming (esityskieli englanti)
7. Checksums (esityskieli englanti)