Laaturaportti 2024
PAS-palveluiden vuosi 2024
Yleistä
PAS-palveluilla tarkoitetaan kulttuuriperintöaineistojen ja tutkimusaineistojen pitkäaikaissäilyttämiseen tuotettuja palveluita yhdessä. PAS-palveluiden kehitys on jatkuvaa ja tapahtuu läheisessä yhteistyössä hyödyntävien organisaatioiden kanssa. Tavoitteena on, että Kulttuuriperintö-PAS-palvelussa merkittävimmät digitoidut ja alkujaan digitaaliset kulttuuriperintöaineistot säilyvät myös tuleville sukupolville ja että niiden pitkäaikainen hyödyntäminen on mahdollista. Vastaavasti tutkimusaineistojen pitkäaikaissäilyttämiseen tuotettu Fairdata PAS-palvelu varmistaa digitaalisten tutkimusaineistojen saatavuuden ja pitkäaikaisen säilyvyyden. Molemmat palvelut käyttävät yhteistä PAS-ratkaisua aineistojen bittitason säilyttämiseen.
Kulttuuriperintö-PAS-palvelussa aloitettiin kulttuuriperintöaineistojen säilyttäminen vuonna 2015 ja Fairdata PAS-palvelussa loppuvuodesta 2019. Fairdata PAS-palvelua käyttävät organisaatiot voivat aineistojen valmisteluun ja säilytykseen siirtoon hyödyntää myös laajemmin Fairdata-palvelukokonaisuutta, mukaan lukien paketointipalvelua ja hallintaliittymää.
Vuoden keskeiset tulokset
Vuoden 2024 aikana säilytyksessä olevien aineistojen vuosittainen kasvu oli 582 teratavua. Uusia säilytyspaketteja kertyi säilytykseen yli 1 950 000 kappaletta, mikä on ennätys vuosittaisessa kasvussa. Säilytyksessä olevan aineiston määrä ylitti 3,3 petatavua ja säilytyspakettien määrä ylitti 5 500 000 kappaletta.
PAS-palvelun ensimmäinen laajamittainen massamigraatio toteutettiin. ARC/WARC-massamigraatioprojektissa migroitiin Kansalliskirjaston Verkkoarkiston keräämiä tallenteita internetsivuista uuteen nykyisten standardien mukaiseen muotoon. Migroitavia paketteja oli noin 620 000 kappaletta, mikä vie noin 65 teratavua levytilaa.
PAS-palveluiden tuotannon käyttöjärjestelmä migroitiin CentOS 7 -käyttöjärjestelmästä RedHat Enterprise Linux 9 -käyttöjärjestelmään. Sen myötä useampi kolmannen osapuolen työkalu, joka on käytössä esimerkiksi PAS-palveluiden vastaanotossa, päivitettiin uudempaan versioon. Tiedostomuotojen tukea PAS-palveluiden vastaanotossa parannettiin lisäämällä tuki uusille muodoille ja päivittämällä niitä käsitteleviä työkaluja.
Vuoden 2024 aikana jatkettiin PAS-palveluiden hiilijalanjäljen laskentaa edellisen vuoden laskelmien pohjalta. Tähän liittyen, PAS-palvelut saavuttivat kansainvälistä näkyvyyttä vuosittaisessa iPres-konferenssissa Belgian Gentissä. Siellä esiteltiin posterina malli pitkäaikaissäilytyksen infrastruktuurin hiilijalanjäljen laskemiseksi, joka voitti parhaan posterin palkinnon. Kyseinen näkyvyys on johtanut kansainväliseen yhteistyöhön vuodelle 2025 ja PAS-palvelut osallistuu Digital Preservation Coalitionin (DPC) organisoimaan Carbon Footprint Task Forcen toimintaan.
Kansallisten PAS-palveluiden verkkosivusto uudistettiin. Uudet sivut huomioivat paremmin tutkimusorganisaatioiden tarpeet ja ulkoasultaan aavistuksen lähentyvät Fairdata-palveluiden sivustoa, ottaa entistä vahvemmin huomioon kulttuuriperintösektorin tarpeet, sekä näyttäytyvät omaleimaisena PAS-palveluiden palvelusivustona. Uusi sivusto organisoitiin aiempaa selkeämpään rakenteeseen ja sivustolle luotiin uutta sisältöä.
PAS-palveluita hyödyntävät organisaatiot
Organisaatio | Käyttötarkoitus | Kapasiteetti (TT) |
---|---|---|
Celia | Master-arkisto ja pitkäaikaisesti säilytettävät valitut uudet äänikirjat | 160 |
EMMA – Espoon modernin taiteen museo | EMMAn kokoelmien mediataide | 7 |
Kansallinen audiovisuaalinen instituutti | Valikoitu osa kotimaisen elokuvan digitoitavista aineistoista | 2400 |
Kansallisarkisto | Kansallisarkiston vastaanottamat alkujaan digitaaliset valtionhallinnon asiakirjalliset aineistot | 41 |
Kansallisarkisto | VAPA-järjestelmään siirretyt tietoaineistot | 1 |
Kansallisarkisto | Kansallisarkiston massadigitointi-hankkeen aineistot | 114 |
Kansallisarkisto | Kansallisarkiston digitaaliarkistosta siirrettävät aineistot ja takautuvan digitoinnin aineistot | 805 |
Kansallisarkisto | Kansallisarkiston yksinomaan digitaalisessa muodossa olevat yksityisarkistoaineistot | 27 |
Kansallisgalleria | Kiasman mediataiteen teosten pitkäaikaissäilytys | 20 |
Kansalliskirjasto | Kansalliskirjaston digitoimat kulttuuriperintöaineistot | 1083 |
Kansalliskirjasto | Kulttuuriaineistolain nojalla kerätyt aineistot | 355 |
Kotimaisten kielten keskus Kotus | Kotuksen kielentutkimus- ja kulttuuriperintöaineistojen pitkäaikaissäilytys | 60 |
Museovirasto | Kulttuuriympäristön tutkimusraportit | 1 |
Musiikkiarkisto | Musiikkiarkiston pitkäaikaissäilytettävät aineistot | 70 |
Postimuseo | Postimuseon filateelisen kokoelman pitkäaikaissäilytys | 2 |
Svenska Litteratursällskapet SLS | SLS:n pitkäaikaissäilytettävät aineistot | 50 |
Yhteiskuntatieteellinen tietoarkisto, FSD | Tietoarkiston arkistoimien tutkimusaineistojen kokoelman pitkäaikaissäilytys | 1 |
Organisaatio | Käyttötarkoitus | Kapasiteetti (TT) |
---|---|---|
Geologian Tutkimuskeskus | GTK:n tomografialaitteen tuottamat tietoaineistot | 16 |
Geologian Tutkimuskeskus | Röntgenfluoresenssi-kuvantamislaitteen tuottamat tietoaineistot | 2 |
Helsingin yliopisto | Helsingin yliopiston SMEAR-aineistojen valikoima meteorologisia - ja ilmanlaatumittauksia | 2 |
Helsingin yliopisto | M. cinxia and C. melitaearum in the Åland metapopulation system | 2 |
Helsingin yliopisto | FIRE (The Finnish Reflection Experiment) | 1 |
Helsingin yliopisto | Luomuksen aineistot | 150 |
Helsingin yliopisto | Suomalaiset hautajaiset Covid-19-epidemian aikana | 1 |
Itä-Suomen yliopisto | SENSOTRA | 1 |
Jyväskylän yliopiston kiihdytinlaboratorio | 250-Nobeliumin hajoamisspektroskopia | 1 |
Oulun yliopisto, Sodankylän geofysikaalinen observatorio | Havaintoaineistot | 30 |
Tampereen yliopisto | Kansanperinteen arkiston Yleiskokoelma | 5 |
Tampereen yliopisto | Yhteiskuntatieteiden tiedekunnan Kansanperinteen arkiston A-K-kokoelma | 2 |
Turun yliopisto | Historian, kulttuurin ja taiteiden tutkimuksen arkiston aineistot (HKT-arkisto) | 20 |
Åbo Akademi | Samlingar vid Åbo Akademis bibliotek | 10 |
Aineistokertymä vuonna 2024
Uusia aineistoja säilytykseen vastaanotettiin vuoden aikana noin 582 teratavua, ja yhteensä säilytyksessä vuoden 2024 lopussa aineistoja oli yli 3,3 petatavua. Aineistojen kertymä vuoden 2024 aikana on esitetty alla olevassa kuvassa.

Vuoden 2024 aikana PAS-palvelut ottivat säilytysvastuun yli 1 950 000 aineistopaketista, ja vuoden 2024 lopussa aineistopaketteja oli säilytyksessä yli 5 572 000. Aineistopakettien kertymä vuoden 2024 aikana on esitetty alla olevassa kuvassa.

PAS-palvelut ja kestävyys
PAS-palvelujen vuosittainen hiilijalanjälki on päivitetty, PAS-palvelujen tallennuskapasiteetti on 7,5 petatavua ja sen infrastruktuurin elinkaaren mukaisesti jyvitetty vuosittainen hiilipäästö on 21169 kg CO2 ekv. Tämä voidaan esittää myös teratavuihin skaalattuna hiilipäästöinä ja tällöin se on n. 3 kg CO2 ekv.
PAS-palvelujen laitteistojen elinkaari on vuoden 2023 linjausten mukaisesti vähintään 7 vuotta. Johtuen säilytyskapasiteetin kasvusta vuosien mittaan, infrastruktuurissa on eri ikäisiä komponentteja. Nyt vanhimmat komponentit täyttävät kuusi vuotta, eikä niiden ikääntymisessä ole vielä havaittavissa laajempaa riskiä aineistojen säilytyksen vaarantumisesta. PAS-palveluissa seurataan tarkasti infrastruktuurin kuntoa ja reagoidaan ajoissa, kun on havaittavissa, että infrastruktuurin uudistaminen on ajankohtaista.
PAS-palveluiden ylläpito
PAS-palveluiden tuottamiseksi tarvitaan monenlaisia toimia: ylläpidollista tehtäviä, menetelmien ja mallien kehittämistä, ohjelmistokehitystä, laiteinfrastruktuurin kehittämistä ja hallinnollista työtä. Seuraavassa keskitytään erityisesti PAS-palveluiden ylläpidollisiin tehtäviin mukaillen IT-palveluiden tuotantotoiminnan laaturaportointia, joissa usein keskitytään tietyn ajanjakson tuotannolliseen toteumaan, poikkeustilanteisiin ja niistä toipumiseen.
PAS-palveluiden ylläpidon päätavoitteet ovat:
- varmistaa säilytyksessä olevien säilytyspakettien eheys ja saatavuus
- valvoa palvelun toimivuutta ja
- tukea organisaatioita PAS-palveluiden hyödyntämisessä (mm. vastaanotossa havaittujen virheellisten tai puutteellisten siirtopakettien korjaamisessa).
PAS-palveluiden valvonta
PAS-palveluiden valvonta on automatisoitu mahdollisimman pitkälle. Tämä valvonta tarjoaa ylläpidolle, mutta myös hyödyntäville organisaatioille, tila- ja tapahtumatietoa, jonka pohjalta asiantuntijat pystyvät päättelemään palvelun tilan ja ryhtyvät tarvittaviin toimenpiteisiin.
PAS-palveluissa valvotaan automaattisesti tällä hetkellä seuraavia kohteita:
- laiteviat (kuten rikkoontuneet kiintolevyt)
- rikkoontuneet nauha-asemat
- palvelimien saatavuus
- levyalueiden täyttöaste
- hajautettujen tallennusalueiden näkyvyys eri palvelimilla
- virustarkastuksen virustietokannan ajantasaisuus
- tallennuskerroksen eheys
- nauhakirjastojen saatavuus
- SSL-sertifikaattien elinkaari
- edustapalvelimien SFTP-portin epäonnistuneet kirjautumisyritykset
Lisäksi seuraavia kohteita valvotaan manuaalisesti: vastaanoton työjonon eteneminen, työjonoon jumiutuneiden siirtopakettien selvittely, säilytyspakettien eheyden tarkastus, hylättyjen siirtopakettien ongelmien analysointi, rikkoutuneiden medioiden replikointi ja pimeän arkiston kopioiden luonti.
Osana PAS-palveluiden kehitystyötä parannetaan myös palvelun valvontaa ja uusia osuuksia automatisoidaan. Tämä mahdollistaa palvelun kustannustehokkaan ylläpitämisen myös tulevaisuudessa, vaikka säilytettävän aineiston määrää kasvaa.
Säilytyksessä olevaan aineistoon kohdistuneet laatupoikkeamat vuonna 2024
PAS-palveluiden hyödyntäjien kanssa on yhdessä pohdittu, mitä laatu aineistojen pitkäaikaisen säilyttämisen kannalta tarkoittaa. On päädytty yhteisymmärrykseen, että erityisen tärkeää on aineistojen eheys ja säilytyksen luotettavuus. Tällöin laatupoikkeamia ovat tilanteet, joissa aineistojen säilyminen on ollut uhattuna, eivätkä niinkään tilanteet, joissa esim. palvelun vastaanotto ei ole hetkellisesti saatavilla. Näistä lähtökohdista palvelun laadun raportointi on haasteellista, sillä totutut IT-ympäristöjen mittarit (esim. palvelun saavutettavuusprosentit) eivät osoita poikkeamia tai varsinaisia uhkia aineistojen säilyvyydessä. Uhkaavia tilanteita säilyvyyden varmistamiseksi ovat tilanteet, joissa säilytyspaketista on vähemmän kuin kolme varmasti eheää kopiota. Tyypillisesti tällaisista tilanteesta toivutaan toisella mediatyypillä olevan kopion avulla, ja PAS-palveluiden ylläpito kykenee osana normaalia toimintaansa palauttamaan säilytyksen tilanteen normaaliksi.
Vuoden aikana PAS-ratkaisussa koettiin seitsemän levyrikkoa, neljä viallista muistikampaa ja yksi viallinen RAID-kontrolleri. Yhteen RAID-kontrolleriin vaihdettiin varmistusparisto. Nauhakirjastoista hajosi kolme virtalähdettä ja kolme nauha-asemaa, joiden lisäksi havaittiin kaksi viallista nauhaa. Yhden palvelimen etähallintakortti vioittui. Nämä ongelmat eivät vaarantaneet AIP-säilytyskopioiden eheyttä tai saatavuutta.
Vuoden aikana havaittiin yksi korruptoitunut AIP-säilytyskopio yhdessä nauhakopiossa, jolle tehtiin uusi säilytyskopio. Yhden nauhan sisältö hävitettiin ohjelmistovirheen vuoksi, mutta nauha palautettiin muilta kopioilta.
PAS-palvelujen saatavuudessa kertyi vuoden 2024 kaksi poikkeamaa. Ensimmäinen niistä tapahtui elokuussa ja toinen marraskuussa. Kyseiset saatavuuspoikkeamat kestivät alle tunnin molemmat eivätkä vaarantaneet säilytyksessä olevia aineistoja millään muotoa.
Ohjelmistokehityksen uudet ominaisuudet
PAS-palveluissa toteutettiin vuoden 2024 aikana nauhalta nauhalle -kopiointi avoimen lähdekoodin työkalujen avulla. Tämä nopeuttaa ja helpottaa aineiston replikointia ja virkistämistä nauhainfrastuktuurissa ja pitää PAS-palveluiden bittitason säilyttämisen vankasti toimittajarippumattomana.
Hyödyntäville organisaatioille tarjottavaa teknistä tukea parannettiin julkaisemalla uusi paketointikirjasto aineiston paketointiin pitkäaikaissäilyttämistä varten ja tarjoamalla uusi RPM-julkaisukanava PAS-palveluiden julkaisemille työkaluille. Nämä parantavat ja yksinkertaistavat sekä laadukkaiden siirtopakettien tuottamista että helpottavat huomattavasti PAS-palveluiden tarjoamien työkalujen asentamista. Taustalla aloitettiin myös PAS-rajapinnan uudistaminen.
Fairdata PAS-palvelussa yksinkertaistettiin aineiston paketoinnin prosessia. Lisäksi toteutettiin laaja työ uudistetun Metax-metatietovarannon integroimiseksi osana paketointipalvelua ja PAS-hallintaliittymää.
Hyödyntäville organisaatioille tarjottava tuki
PAS-palvelut auttavat hyödyntäviä organisaatioita aineistojen pitkäaikaissäilytykseen liittyvissä kysymyksissä. Erityisesti tätä tukea tarjotaan PAS-palvelun käyttöönottoprosessin aikana, mutta organisaatiot voivat esittää palvelupyyntöjä myös muissa tilanteissa. Tukipyyntöjä vastaanotetaan PAS-palveluiden tukiosoitteella: pas-support@csc.fi.
Vuonna 2024 PAS-palveluita hyödyntäviltä organisaatioilta tuli yhteensä 136 palvelupyyntöä. Palvelupyyntöjen lisäksi hyödyntävien organisaatioiden kanssa käydään keskustelua esimerkiksi PAS-yhteistyöryhmän kautta, joka kokoontuu vuosittain 3-4 kertaa. PAS-yhteistyöryhmän vakiintuneisiin rutiineihin kuuluu esimerkiksi määrittelymuutoksien sopiminen yhdessä hyödyntävien organisaatioiden kanssa. Tähän sisältyy mm. PAS-palveluissa säilytettävistä tiedostomuodoista sopiminen. Lisäksi ryhmässä käsitellään PAS-toimintaan liittyviä laajoja kokonaisuuksia ja vuoden 2024 aikana näitä olivat esimerkiksi aineiston poisto PAS-palvelusta, rajapintauudistus sekä periaatteet aineistojen bittitason säilyttämiseen.
PAS-palveluiden tapahtumista ja ajankohtaisista asioista tiedotettiin digitalpreservation.fi-sivustolla, X-kanavalla (@dpres_fi) ja tiedottamiseen tarkoitetulla sähköpostilistalla. Keskusteluja hyödyntävien organisaatioiden kanssa jatkettiin kuukausittaisilla #PASKaffeilla.