Hyppää pääsisältöön

Pitkäaikaissäilytyksen ydinprosessien kansallinen näkökulma

Tapahtuman ajankohta

EOSC EDEN (Enhance Digital preservation strategies in European and National level) on CSC:n koordinoima EU Horizon Europe -hanke (2025-2027), jossa on mukana yhteensä 16 eurooppalaista organisaatiota. Hankkeen tavoitteena on kehittää pitkäaikaissäilyttämisen strategioita Euroopassa ja kansallisesti.

Pitkäaikaissäilytyksen ydinprosessit

EOSC EDEN -hankkeessa olemme tunnistaneet 30 ydinprosessia pitkäaikaissäilyttämiselle (CPP - Core Preservation Processes), joihin jokaisen pitkäaikaissäilytystoimijan tulisi sitoutua joko itsenäisesti tai yhteistyössä usean sidosryhmän kesken. Erilaisten viitemallien (esim. OAIS) olemassaolosta huolimatta prosessinäkökulma sekä prosessien tiivis ja jäsennelty kuvaus on tähän asti puuttunut.

Ydinprosessien tunnistamisessa on käyty läpi useita eri viitekehyksiä ja standardeja. Jokainen ydinprosessi on kuvattu niin, että se sisältää odotetun syötteen ja tuloksen, yleiskuvauksen, prosessin vaiheet sekä riippuvuudet muihin ydinprosesseihin. Kuvaukset sisältävät myös linkitykset standardeihin, kuten CoreTrustSeal, nestor Seal (DIN 31644), ISO 16363, PREMIS ja OAIS. Kuvauksiin on lisätty jonkin verran referenssitoteutuksia ja käyttötapauksia, joita toivotaan täydennettävän myöhemmin lisää. Tulevaisuudessa on myös tarkoitus parantaa ydinprosessien koneluettavuutta.

Kuvaukset keskittyvät aineistojen pitkäaikaissäilytyksen prosesseihin, ja siitä jätettiin pois sellaiset prosessit, jotka yleisesti kuuluvat IT-järjestelmien ylläpitoon. Nämä ovat täysin riippumattomia organisaatiosta tai järjestelmästä, ja prosessien vaiheet voivat olla automatisoituja tai manuaalisia. Ydinprosessit mm. parantavat yhteistyötä ja kommunikaatiota ja auttavat löytämään kehityskohteita. Käytännössä eri käytännön toteutuksissa on olemassa erilaisia kypsyysasteita.

Webinaari ydinprosesseista

Julkaisut

Palaute

Ydinprosesseista toivotaan palautetta. Sitä voi antaa usealla eri tavalla seuraavasti:

Kansallinen näkökulma

Miten EOSC EDEN-hankkeessa tunnistetut pitkäaikaissäilyttämisen ydinprosessit voidaan sovittaa kansallisesti ja mitä hyötyä niistä voi saada irti? Pyrimme tässä kuvaamaan, miten prosessit voivat tukea sekä hyödyntäviä organisaatioita että kansallisia PAS-palveluja, ottaen huomion sekä aineistonkuvailun ja -hallinnan että pitkäaikaissäilytyksen asettamat vaatimukset kansallisesta näkökulmasta.

Suomessa kulttuuriperintö- ja tutkimusaineistojen pitkäaikaissäilytys on järjestetty kansallisten PAS-palveluiden ja hyödyntävien organisaatioiden yhteistyönä. PAS-palveluissa pitkäaikaissäilytys jaetaan kolmeen tasoon: semanttiseen, loogiseen ja bittitasoon. Semanttinen säilyttäminen koskee kuvailutietojen hallintaa ja aineiston sisällöntuntemusta, josta hyödyntävällä organisaatiolla on vastuu. Kansalliset PAS-palvelut taas tuovat teknistä asiantuntemusta ja teknisiä palveluratkaisuja. Bittitason säilytys on kokonaan tekninen PAS-palveluiden vastuulla oleva asia. Loogisen säilyttämisen tasossa keskeisenä ovat tiedostomuotojen hallinta ja migraatiot, mikä taas vaatii vahvasti sekä sisällöntuntemusta että teknistä asiantuntijuutta, jolloin sen suunnittelu on yhteistyötä. PAS-palveluilla on kyvykkyys suorittaa yhdessä suunniteltu migraatio.

Säilyttämisen tasot jakautuvat semanttiseen, loogiseen ja bittitason säilyttämiseen.

Kansainvälisesti tällainen yhteistyömalli on ainutlaatuinen. Siksi EOSC EDEN-hankkeessa tunnistetut ydinprosessit kattavat joitakin toimintoja, jotka kuuluvat kokonaan tai osittain hyödyntävien organisaatioiden tehtäviin, esimerkiksi valmisteluvaiheeseen ennen PAS-palveluun siirtämistä (pre-ingest). Tunnistettujen ydinprosessien kautta hyödyntävät organisaatiot ja PAS-palvelut voivat peilata toimintaansa ja tunnistaa mahdollisia kehityskohteita.

Kaikki pitkäaikaissäilytyksen ydinprosessit on pyritty ryhmittelemään kansallisen yhteistyömallin näkökulmasta alla olevaan taulukkoon. Johtoajatuksena ryhmittelyssä on ollut jako aineiston sisällöntuntemukseen ja toisaalta tekniseen asiantuntijuuteen. Monissa ydinprosesseissa silti tarvitaan molempia puolia. On siten huomattava, että koska ydinprosessien kuvaukset eivät tunnista Suomen kansallista vastuujakoa, ryhmittely tällä tavalla ei ole suoraviivaista. Ryhmittely on siten karkea PAS-palveluiden näkökulma. Ryhmät on järjestetty hyödyntävän organisaation roolin mukaisesti (suurin paino ylimpänä). 

RyhmäYdinprosessit
Ydinprosessit, jotka ovat käytännössä kokonaan hyödyntävien organisaatioiden vastuulla, koska ne liittyvät loppukäyttäjille tarjottaviin palveluihin. PAS-palvelut voivat kuitenkin tarvittaessa näissäkin tapauksissa jakaa näkemyksensä oman asiantuntemuksensa puitteissa.
  • CPP-015 Käytön työkalut (Emulation and Rendering Tools; PAS-palvelut tukevat emulointia epäsuorasti sallimalla bittitason säilytyksen tietyissä tapauksissa)
  • CPP-028 Käyttökopioiden luominen (Creation of Derivative Copies)
Ydinprosessit, jotka keskittyvät aineistonhallintaan, mutta sisältävät teknisiä ominaisuuksia. Näistä prosesseista pääasiassa huolehtii hyödyntävä organisaatio, mutta PAS-palvelut tarjoavat näihin laajaa tukea ja/tai työkaluja.
  • CPP-001 Tarkistussummien luominen ja tallentaminen (Checksum Generation and Recording)
  • CPP-008 Tiedostomuotojen tunnistaminen (File Format Identification)
  • CPP-009 Metatietojen poiminta (Metadata Extraction)
  • CPP-020 Oikeuksien hallinta (Rights Management)
  • CPP-022 Merkittävien piirteiden määrittely (Significant Properties Definition)
  • CPP-026 Tiedostojen normalisointi (File Normalisation)
  • CPP-027 Tiedostojen korjaus (File Repair)
Ydinprosessit, joissa jako osapuolten välillä riippuu tilanteesta: Joissakin tilanteissa tarvitaan sisällöntuntemusta (hyödyntävä organisaatio huolehtii), kun taas toisissa tilanteissa kyse on teknisestä asiasta (PAS-palvelut huolehtivat).
  • CPP-005 Tunnisteiden hallinta (Identifier Management)
  • CPP-016 Metatietojen vastaanotto ja hallinta (Metadata Ingest and Management)
  • CPP-018 Sidosryhmien seuranta (Community Watch)
  • CPP-019 Aineistojen laadun arviointi (Data Quality Assessment)
  • CPP-024 Haun mahdollistaminen (Enabling Discovery; vastuunjako riippuu palvelusta)
Ydinprosessit, joista PAS-palvelut huolehtivat yhteistyössä hyödyntävien organisaatioiden kanssa.
  • CPP-012 Riskienhallinta (Risk Mitigation)
  • CPP-013 Objektien hallinnan raportointi (Object Management Reporting)
  • CPP-014 Tiedostojen migraatio (File Migration)
  • CPP-017 Poisto (Disposal)
  • CPP-021 Säilytyspakettien versiointi (AIP Versioning)
  • CPP-023 Riskien määrittäminen (Risk Definition and Extraction)
  • CPP-025 Pääsyn mahdollistaminen (Enabling Access)
  • CPP-029 Vastaanotto (Ingest; myös aineiston valmisteluvaihe ennen siirtämistä PAS-palveluun on osa tätä prosessia)
Ydinprosessit, jotka ovat puhtaasti teknisiä ja siten kokonaan PAS-palveluiden vastuulla.
  • CPP-002 Tarkistussummien validointi (Checksum Validation)
  • CPP-003 Eheyden tarkastus (Integrity Checking)
  • CPP-004 Rikkoutuneen datan hallinta (Data Corruption Management)
  • CPP-007 Virustarkastus (Virus Scanning)
  • CPP-010 Tiedostomuotojen validointi (File Format Validation)
  • CPP-011 Replikointi (Replication)
  • CPP-030 Virkistys (Refreshment)
Ydinprosessi, jota ei ole kansallisesti ollut tarvetta suunnitella ollenkaan.
  • CPP-006 Säilytyspakettien massavienti (AIP Batch Export)

Pitkäaikaissäilyttämisen ydinprosessien laatiminen on ollut hedelmällistä, ja se on tuonut uutta näkökulmaa kansallisille PAS-palveluille. Olemme varmoja siitä, että ydinprosesseista ja niiden tarkastelusta tulee olemaan paljon hyötyä kansallisesti, tuoden lisää teoreettista pohjaa yhteistyölle PAS-palveluiden ja hyödyntävien organisaatioiden välillä.


EOSC EDEN T1.2, Lindlar, M., Caron, B., Benauer, M., Kylander, J., Dekeyser, K., Addis, M., Levlin, M., Laukkanen, M., Lehtonen, J., Burger, F., Koho, T., Schwab, F., Molloy, L., & Zhang, F. (2025). M1.1 Report on Identification of Core Preservation Processes. Zenodo. https://doi.org/10.5281/zenodo.16992452