Kulttuuriperintö-PAS-palvelun hyödyntäminen Musiikkiarkistossa
Terveiset 35-vuotiaasta Musiikkiarkistosta. Näin juhlavuoden päätteeksi on hyvä käydä katsaus arkistomme digitaaliseen aineistoon ja sen säilyttämiseen. Jaan kirjoitukseni kahteen osaan:
- Osa 1: Musiikkiarkiston digitaalinen aineisto ja sen säilyttäminen ennen Kulttuuriperintö-PAS-palvelun käyttöönottoa
- Osa 2: Kulttuuriperintö-PAS-palvelun hyödyntäminen Musiikkiarkistossa
Kirjoitukseni ensimmäisessä osassa ”Musiikkiarkiston digitaalinen aineisto ja sen säilyttäminen ennen Kulttuuriperintö-PAS-palvelun käyttöönottoa” päästiin tilanteeseen, jossa säilytettävän aineiston formaattien laskemiseen ei riitä yhden henkilön sormet ja varpaat. Itse asiassa ei riitä koko Musiikkiarkiston henkilöstökään (meitä on täällä kolme henkilöä).
Aineistomäärä Musiikkiarkistossa oli lisääntynyt 2010-luvun puolivälissä sen verran, että Kulttuuriperintö-PAS-palvelun käyttöönotolla alkoi olla kiire: verkkolevyjen RAID-pakat alkoivat täyttyä ja LTO-6-nauhat loppua. RAID- ja nauhavarmennuskapasiteettimme lisääminen ei ollut enää mielekästä, koska Kansallinen digitaalinen kirjasto -hankkeen (KDK) aikana opetus- ja kulttuuriministeriö oli myötämielinen sen suhteen, että Musiikkiarkisto olisi yksi tulevan PAS-palvelun hyödyntäjistä. Mitä PAS-palvelun käyttöönotto lopulta tulikaan vaatimaan, oli minulla vain hämäränä aavistuksena vielä vuonna 2015, jolloin Kansalliskirjastosta tuli ensimmäinen PAS-palvelua hyödyntävä organisaatio.
Olin vuodesta 2010 kehittänyt Musiikkiarkistolle Skaala-tietokantaa, jonka oli tarkoitus tulla silloisen kansallisdiskografia-Violan rinnalle tietokanta arkistoaineistoillemme. Skaala jäi kuvailutietokantana ottamatta käyttöön, mutta hyödynsin sitä aika lailla alusta asti nauhavarmennuskirjanpidossani. Täten oli luontevaa hyödyntää Skaalaa jatkossa myös PAS-palvelua käyttäessä, sillä suunnitelmissani oli kehittää digitaalisen aineiston hallintaa Musiikkiarkistossa laajemminkin.
Alkuvuonna 2019 pidettiin ensimmäinen kokous Musiikkiarkiston ja CSC:n välillä koskien PAS-palvelun käyttöönottoa. Elokuussa allekirjoitimme palvelun käyttöönotosta sopimuksen. Kesti vielä noin kolme ja puoli vuotta – 12 kokousta – ennen kuin latasin PAS-palveluun hyväksytysti ensimmäiset siirtopakettimme 29. ja 30.3.2023. Jälkikäteen katsottuna kolme ja puoli vuotta tuntuu pitkältä ajalta, mutta siinähän se sujahti muiden töiden ohessa. Mitä kaikkea PAS-palvelun käyttöönoton eteen pitikään tehdä? Meninpäs kysymään.
Kokouksissa CSC:n kanssa käsiteltiin PAS-yhteensopivia tiedostomuotoja, niiden validointia ja PAS-palvelun vastaanoton asettamia vaatimuksia hyödyntävän organisaation järjestelmälle. Pelkästään silloisen CentOS 7 -tuotantoympäristön asentaminen oli oma juttunsa, joka ohitettakoon tässä yhteydessä. Parin ’aanelosen’ mittaiset työkalujen ja niiden riippuvuuksien asentamisohjeet ovat toki tallessa – niitä muistellessa osaa arvostaa nykyistä AlmaLinuxia keskitettyine ohjelmistojakeluineen.
PAS-palvelun vastaanoton, ja yleisesti koko säilytysjärjestelmän, toimintaperiaatteet tulivat jo ensimmäisissä kokouksissa sen verran tutuiksi, että Skaalan kehittämistyö pääsi hyvään alkuun. Loin Skaalaan niin sanotun PAS-osion, johon tätä nykyä kirjataan kaikki pitkäaikaissäilytyksen kannalta oleelliset asiat, esimerkiksi tiedostojen nimet, ainutkertaiset tunnisteet sekä niihin kohdistetut PREMIS-toimenpiteet (PREMIS Data Dictionary for Preservation Metadata) kuten esimerkiksi tiedostojen tai niiden metatietojen muuntaminen, tarkistussummien laskeminen ja tiedostonimien muuttaminen. Myös siirtopakettien luonti ja PAS-palveluun siirtäminen, ja hyväksytyn vastaanoton jälkeen PAS-palvelun luoman arkistopaketin tunnisteet, kirjataan Skaalaan. Näin ollen voin jatkossa pyytää PAS-palvelusta ladattavaksi aineistoja käyttäen suoraan säilytyspakettien tai yksittäisten tiedostojen tunnisteita.

Yksinkertaistettu ER-kaavio Skaalan PAS-osiosta, joka sisältää yli kolmekymmentä taulua.
CSC:llä luotiin Musiikkiarkiston käyttöön räätälöity paketointityökalu sip-compiler, joka mahdollistaa tiedostojen validoinnin sekä paketoinnin siirtopaketeiksi omilla komennoillansa. Sip-compiler on vapaasti kaikkien organisaatioiden käytettävissä – kuten muutkin CSC:n luomat pitkäaikaissäilytystyökalut. Paketointivaiheessa poimin Skaalasta siirtopakettiin lähetettäväksi sip-compilerin ja PAS-vastaanoton vaatimat tiedot: tiedostojen tunnisteet, MD5-tiivisteet ja tiedostoihin kohdistetut PREMIS-toimenpiteet.
PAS-palvelun käyttöönottovaiheessa 2020-luvun vaihteessa uudistin Musiikkiarkiston digitaalisen aineistonhallinnan työnkulut perusteellisesti, jotta PAS-palvelun hyödyntäminen olisi mahdollisimman tehokasta ja luontevaa. Siinä sivussa kirjoitin muutama sata sivua tiedostojenhallinnan prosessien dokumentaatiota sekä noin 11000 riviä SQL-koodia – juuri sitä koodia, jolla Skaalaan lisätään pitkäaikaissäilytettäviä tiedostoja ja kirjataan niihin kohdistetut PREMIS-toimenpiteet.

Tiedostot lisätään Skaalaan mahdollisimman aikaisessa vaiheessa, jotta niiden eheys voidaan jatkossa varmistaa.
Musiikkiarkisto täytti 30 vuotta korona-aikana, jolloin mitään juhlaseminaaria ei ollut mahdollista järjestää. Kaikkea tehtyä työtä ja arkistotoimintamme kehitystä tuli luonnollisestikin ajateltua eristyksissä juhlavuoden aikana, ja johtajamme Juha Henriksson intoutui hakemaan Musiikkiarkistolle Core Trust Seal -sertifikaattia 2020-luvun alussa. Sertifikaatin saaminen edellytti arkiston digitaalisten työnkulkujen perusteellista dokumentointia ja koko arkistotoimen itsearviointia 16 osa-alueella. Työnkulut olinkin jo dokumentoinut niin sanotusti ilmaiseksi PAS-käyttöönoton tiimoilta; Juhan hoidettavaksi jäi sertifikaatin vaatimien muiden osa-alueiden arvioiminen, arkistotoimen kokonaisuuden dokumentointi ja arviointilomakkeen täyttäminen. Kokonaisuudessaan sertifiointiprosessi kesti yli kaksi vuotta, ja vertaisarvioinnin jälkeen sertifikaatti myönnettiin arkistollemme 4.9.2023. Olimme kolmas suomalainen sertifioitu arkisto – ensimmäinen yksityisarkisto.
Tätä tekstiä kirjoittaessani joulukuussa 2025 Musiikkiarkistossa on noin 90 teratavua digitaalista materiaalia, josta noin kolmannes on säilytyksessä PAS-palvelussa. Kirjoittamisen ohella olen muuntanut ensimmäisiä TV-tallenteitamme PAS-yhteensopimattomasta MPEG+AC-3-muodosta PAS-yhteensopivaan H.265+WAV-muotoon, joten aineistoa on kohta yli 100 teratavua. Tämä muuntamistyö jatkuu vielä useita viikkoja – jatkukoot työt digitaalisen pitkäaikaissäilyttämisen edistämiseksi pitkään kaikilla nykyisillä ja tulevilla PAS-palveluiden hyödyntäjillä, sekä tietenkin Tieteen tietotekniikan keskus CSC:llä!
Jouni Eerola
Järjestelmäasiantuntija / Musiikkiarkisto