Tag Archives: pitkäaikaissaatavuus

Tulevaisuuden vaihtoehdot suurten datamäärien käsittelyyn: DRAS-TIC ja Brown Dog

Suuret datamassat ja niiden tarjoamat mahdollisuudet ja haasteet liitetään yleensä suurten internetjättien, kuten Googlen tai Amazonin, keräämään dataan. Mutta mielenkiintoisia laajoja datoja löytyy myös useiden arkistojen hallusta. Niiden käsittely on kuitenkin hankalaa ja riskinä on, että mahdollisuudet jäävät hyödyntämättä ja käteen jäävät vain haasteet.

Tietomassat ja formaattivelka haasteina

Ensimmäisenä haasteena vastaan tulee todennäköisesti varantojen skaalautuminen. Eli miten infra pysyy perässä, kun tiedostomäärät kasvavat dramaattisesti. Toinen haaste on formaattivelka. Formaattivelalla tarkoitetaan sitä työmäärää tai rahasummaa, joka tulevaisuudessa joudutaan käyttämään tiedostojen jatkokäyttämiseen, kun niiden lukeminen ja prosessointi on muuttunut vaikeaksi tai mahdottomaksi teknologian vanhenemisen myötä. Jos aineistoja hallinoivat tahot eivät aktiivisesti ota huomioon pitkäaikaissäilytystä, ne kerryttävät itselleen hyvin todennäköisesti formaattivelkaa.

Osallistuin helmikuussa Barcelonassa IDCC18-konferenssiin, joka on digitaalisten aineistojen kuratointiin erikoistunut vuosittainen tapahtuma. Konferenssissa Marylandin yliopiston Digital Curation Innovation Centerin johtaja Richard Marciano esitteli näihin ongelmiin vastaavaa kahta eri teknologiapakettia: DRAS-TIC:ia (Digital Repository at Scale that Invites Computation) ja Brown Dogia.

Skaalautuvat tietovarannot

DRAS-TIC on avoimen lähdekoodin horisontaalisesti skaalautuva varanto, jonka ei pitäisi kärsiä lainkaan tiedostomäärän kasvusta – jos kehittäjien mainospuheita on uskominen. Luonnollisesti palvelun ylläpitäjän täytyy pystyä kasvattamaan taustalla pyörivien palvelinten määrää. Akronyymihirviön mielenkiintoisin osa on ”that Invites Computation”, eli DRAS-TIC varannot on viritetty valmiiksi laskennallista arkistointia (computational archival science) varten, mikä tekee datasta löydettävämpää ja mahdollistaa uuden tiedon johtamisen helpommin jo olemassa olevista aineistoista.

Formaattimuutoksiin uusia työkaluja

Brown Dog on avoimen lähdekoodin työkalukokoelma, jolla prosessoidaan tiedostoja. Sen ydintoiminnot ovat tiedostojen muuntaminen formaatista toiseen ja metadatan kerääminen ja sijoittaminen hakuindeksiin. Formaattimuunnokset toteutetaan erilaisilla muuntimilla, joita tällä hetkellä on Brown Dogin työkalukatalogiin listattuna yhteensä 30.

Brown Dog -esittelyvideo

Ideana on ketjuttaa formaattimuunnoksia erilaisiksi poluiksi. Marcianon käyttämässä esimerkissä käyttäjä lähettää järjestelmään PSD 2.0 tiedoston, joka on tarkoitus muuntaa nykylaitteille sopivampaan muotoon. PSD 2.0 on vuoden 1991 PhotoShop 2.0:n työtiedostoformaatti, joten sen käsittely nykylaitteilla olisi todennäköisesti vähintäänkin hankalaa. Muuntamisen Brown Dog aloittaa käyttämällä Windows 3.0 virtuaalikonetta, johon on asennettu PhotoShop 2.0. PSD muunnetaan ensin TIFF:iksi, joka syötetään Docker-kontissa pyörivälle Linux-koneelle, ja se muuttaa kuvan ImageMagik-muuntimella JPEG 2000 -formaattiin. Esimerkissä polku on lineaarinen, mutta mikään ei estä haaroittamasta polkua ja tekemästä useita rinnakkaisia muunnoksia.

Metadatan kerääminen tiedostoista

Näillä kahdella työkalulla tiedostoista voidaan myös haravoida erilaista metadataa ja näin kartoittaa syntyvää tiedostovarantoa. Esimerkkinä voidaan käyttää tavallisen PDF-tiedoston tallettamista DRAS-TIC:ia ja Brown Dogia hyödyntävään varantoon.

Tallennus tapahtuu vaiheittain:

  1. PDF-tiedosto lähetetään tiedostovarantoon, jolloin siitä kerätään talteen tiedoston nimi, koko ja sijainti tiedostovarannossa.
  2. Tiedostosta otetaan irti sen PDF-versionumero.
  3. Tiedostosta otetaan erilleen tekstisisältö.
  4. PDF-tiedoston sisältämät kuvat skannataan tekstisisällön varalta OCR-ohjelmalla (Optical Character Recognition). Lisäksi muilla kuva-analyysityökaluilla kerätään esimerkiksi tiedot siitä, kuinka monta ihmistä kuvissa esiintyy ja minkälaisissa ympäristöissä he ovat.

Näin yhdestä PDF-tiedostosta on kerätty kohtuullisen suuri määrä metadataa, ja kun kaikki tämä metadata indeksoidaan hakuindeksiin, on tiedosto ja sen eri osat helposti löydettävissä usealla eri tavalla.

Brown Dogissa on panostettu siihen, että se on tarvittaessa laajennettavissa omilla työkaluilla, jotka voidaan sovittaa johonkin tiettyyn tehtävään. Jos esimerkiksi tiedostojen tekstisisällöt halutaan avainsanoittaa ja visualisoida varantoa niiden perusteella, voidaan nämä työvaiheet lisätä Brown Dogiin omilla työkaluilla. Näin eri tahot voivat kehittää omiin tarkoituksiinsa sopivan työvuon.

Brown Dog ja DRAS-TIC ovat vielä kehitysvaiheessa, joten aika näyttää, mitä niille lopulta käy. Onnistuessaan ne loisivat mielenkiintoisen pohjan suurten datavarantojen hallintaan ja laskennallisen arkistoinnin soveltamiseen.

Lisätietoa:

» Marciano et al., esitysdiat IDCC2018-konferenssista: Building Open‐Source Digital Curation Services & Repositories at Scale
» CNI Fall 2016 Project Briefings: DRASTIC Measures: Digital Repository at Scale that Invites Computation (To Improve Collections)
» NSCA Brown Dog
» 13th International Digital Curation Conference (IDCC)

Valtteri Kostiainen
sovelluskehittäjä
etunimi.sukunimi [at] uta.fi

Tietoarkisto haluaa olla jatkossakin DSA-sertifikaatin arvoinen

Tietoarkistolle on tärkeää avata tutkimusaineistot vastuullisesti ja luotettavasti, ja luonnollisesti haluamme kertoa luotettavuudestamme myös muille. Yksi hyvä luotettavuuden mittari on kansainvälinen Data Seal of Approval (DSA) -sertifikaatti. Sen saaminen edellyttää, että organisaatio säilyttää sähköisiä aineistoja luotettavasti ja mahdollistaa aineistojen jatkokäytön. Tällä hetkellä Tietoarkistolla on voimassa vuosille 2014–2017 myönnetty DSA-sertifikaatti. Koska nykyisen sertifikaatin voimassaolo päättyy vuoden vaihteessa, sen päivittäminen on juuri nyt ajankohtaista. Seuraavaksi kerron yleisesti DSA-sertifikaatista ja sen hakemisesta.

Mikä ihmeen DSA-sertifikaatti?

Kansainvälisen sertifikaatin takana ovat ICSU World Data System (WDS) ja Data Seal Of Approval, jotka yhdessä myöntävät Data Seal of Approval (DSA) -sertifikaatteja. Sertifiointi on suunnattu sähköisten aineistojen säilyttäjille, ja sen avulla pyritään osoittamaan kuinka luotettava tietoja säilyttävä organisaatio on. Luotettavuutta arvioidaan sähköisten aineistojen säilyttämisen kaikissa vaiheissa aina aineistojen vastaanottamisesta niiden pitkäaikaissäilyttämiseen sekä edelleen jakamiseen.

Sertifikaatin vaatimukset perustuvat viiteen kriteeriin. Kriteerien mukaan säilytettävien aineistojen tulee olla löydettävissä verkosta, niiden tulee olla saatavilla selkein käyttöehdoin, aineistojen tulee olla tallennettuina jatkokäytön mahdollistavissa tiedostoformaateissa, aineistojen tulee olla luotettavia ja aineistojen tulee olla yksilöitävissä niin, että niihin voidaan viitata yksiselitteisesti ja pysyvästi. DSA-sertifikaatti on myönnetty vuosiksi 2014–2017 Tietoarkiston lisäksi liki 60 toimijalle ympäri maailmaa.

Sertifikaatin hakeminen

Jotta Tietoarkistolle myönnetty sertifikaatti pysyisi voimassa ilman katkoja, työ sertifikaatin uusimiseksi on aloitettu hyvissä ajoin.

Uuden sertifikaatin hakeminen edellyttää, että hakija täyttää edelleen vaaditut organisatoriset lähtökohdat. Lisäksi hakijan on raportoitava tarkasti organisaation nykyisen toiminnan tilanne. Raportointi perustuu 16 kohdan ohjeistukseen, jonka mukaisesti aineistojen luotettava säilyttäminen on todennettava niin käytäntöjen, tekniikan kuin etiikankin näkökulmasta. Sertifikaatin hakijan täytyy voida osoittaa, että sen toiminnan taso vastaa sertifikaatin vaatimaa tasoa.

Kokosin yhdessä kollegoideni kanssa Tietoarkiston toimintaperiaatteista ja -käytänteistä ohjeistuksen mukaisen raportin, jota varten haastattelin arkiston työntekijöitä eri asiantuntemuksen aloilta ja kävin läpi lukuisia asiakirjoja vuosien varrelta. Sen lisäksi, että toiminnan raportointi on sertifikaatin hakemisen edellytys, raportin kokoaminen on ollut hyödyllistä organisaation itsearvioinnin näkökulmasta. Yhteen dokumenttiin on nyt koottu kattava kokonaiskuva Tietoarkiston toiminnasta vahvuuksineen ja kehityskohtineen.

Tavoitteena sertifioinnin uusiminen vuosille 2017–2019

Raportti sertifikaatin hakemiseksi on toimitettu arvioijille ja odotamme Tietoarkistossa parhaillaan tietoa siitä, myönnetäänkö sertifikaatti meille vuosiksi 2017–2019. Sertifioinnin kriteerit ovat muuttuneet hieman aiemmasta, joten emme oletusarvoisesti pysty toteamaan, että sertifikaatti myönnetään sen perusteella, että se on myönnetty aiemminkin.

Visiomme mukaisesti toteutamme kuitenkin edelleen tehtäväämme luotettavana ja tunnettuna avoimen tieteen ja pitkäaikaissaatavuuden asiantuntijana, johon kuuluu oleellisesti toiminta, joka vastaa DSA-sertifioinnin mukaisia kriteerejä sähköisten aineistojen luotettavana pitkäaikaissäilyttäjänä.

Sertifiointi visuaalisesti esitettynä

Tietoarkisto järjesti keväällä työntekijöillensä koulutuspäivän, jonka aikana pääsimme oppimaan luovuudesta ja visuaalisten muistiinpanojen tekemisestä. Kokeilin oppimani perusteella yksinkertaistaa tässä blogitekstissä kirjoittamaani kokonaisuutta visuaalisiksi muistiinpanoiksi. Oleelliseksi osaksi muistiinpanojani olen nostanut ensinnäkin sen, että Tietoarkisto hakee sertifiointia ja toimittaa asianmukaisen sähköisen raportoinnin toiminnastaan sertifioinnista vastaavalle taholle. Toisena pääkohtana muistiinpanoissa on sertifiointimerkinnän saaminen. Jos toimittamamme raportti vakuuttaa arvioijat, Tietoarkiston toiminta saa julkisen ja kansainvälisesti tunnistetun luotettavuuden sinetin.

Sisällön lisäksi visuaalisten muistiinpanojen tekemisessä ovat tärkeitä pienet visuaaliset yksityiskohdat, kuten hahmojen juurruttaminen paikkaan. Tämän vuoksi Aineistonhallinnan käsikirjastakin tuttu Tietoarkiston Hemmo seisoo muistiinpanoissani kesäisissä tunnelmissa varpaat vihreänä kasvavassa nurmessa. Samaa rentoutumismetodia suosittelen kaikille blogitekstiäni kesällä lukeville henkilöille – kokekaa Hemmon tavoin vihreä kesänurmi sitä paljain varpain tunnustelemalla. Tuloksena nurmikon tunnustelusta paljain varpain ei myönnetä sertifikaatteja, mutta ripaus kesätunnelmaa siitä tarttuu varmasti matkaan.

Lisätietoa:
» Data Seal of Approval
» Tietoarkiston nykyinen DSA-sertifikaatti vuosille 2014–2017

Eliisa Haanpää
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi

Tietoarkisto haluaa olla jatkossakin DSA-sertifikaatin arvoinen

Tietoarkistolle on tärkeää avata tutkimusaineistot vastuullisesti ja luotettavasti, ja luonnollisesti haluamme kertoa luotettavuudestamme myös muille. Yksi hyvä luotettavuuden mittari on kansainvälinen Data Seal of Approval (DSA) -sertifikaatti. Sen saaminen edellyttää, että organisaatio säilyttää sähköisiä aineistoja luotettavasti ja mahdollistaa aineistojen jatkokäytön. Tällä hetkellä Tietoarkistolla on voimassa vuosille 2014–2017 myönnetty DSA-sertifikaatti. Koska nykyisen sertifikaatin voimassaolo päättyy vuoden vaihteessa, sen päivittäminen on juuri nyt ajankohtaista. Seuraavaksi kerron yleisesti DSA-sertifikaatista ja sen hakemisesta.

Mikä ihmeen DSA-sertifikaatti?

Kansainvälisen sertifikaatin takana ovat ICSU World Data System (WDS) ja Data Seal Of Approval, jotka yhdessä myöntävät Data Seal of Approval (DSA) -sertifikaatteja. Sertifiointi on suunnattu sähköisten aineistojen säilyttäjille, ja sen avulla pyritään osoittamaan kuinka luotettava tietoja säilyttävä organisaatio on. Luotettavuutta arvioidaan sähköisten aineistojen säilyttämisen kaikissa vaiheissa aina aineistojen vastaanottamisesta niiden pitkäaikaissäilyttämiseen sekä edelleen jakamiseen.

Sertifikaatin vaatimukset perustuvat viiteen kriteeriin. Kriteerien mukaan säilytettävien aineistojen tulee olla löydettävissä verkosta, niiden tulee olla saatavilla selkein käyttöehdoin, aineistojen tulee olla tallennettuina jatkokäytön mahdollistavissa tiedostoformaateissa, aineistojen tulee olla luotettavia ja aineistojen tulee olla yksilöitävissä niin, että niihin voidaan viitata yksiselitteisesti ja pysyvästi. DSA-sertifikaatti on myönnetty vuosiksi 2014–2017 Tietoarkiston lisäksi liki 60 toimijalle ympäri maailmaa.

Sertifikaatin hakeminen

Jotta Tietoarkistolle myönnetty sertifikaatti pysyisi voimassa ilman katkoja, työ sertifikaatin uusimiseksi on aloitettu hyvissä ajoin.

Uuden sertifikaatin hakeminen edellyttää, että hakija täyttää edelleen vaaditut organisatoriset lähtökohdat. Lisäksi hakijan on raportoitava tarkasti organisaation nykyisen toiminnan tilanne. Raportointi perustuu 16 kohdan ohjeistukseen, jonka mukaisesti aineistojen luotettava säilyttäminen on todennettava niin käytäntöjen, tekniikan kuin etiikankin näkökulmasta. Sertifikaatin hakijan täytyy voida osoittaa, että sen toiminnan taso vastaa sertifikaatin vaatimaa tasoa.

Kokosin yhdessä kollegoideni kanssa Tietoarkiston toimintaperiaatteista ja -käytänteistä ohjeistuksen mukaisen raportin, jota varten haastattelin arkiston työntekijöitä eri asiantuntemuksen aloilta ja kävin läpi lukuisia asiakirjoja vuosien varrelta. Sen lisäksi, että toiminnan raportointi on sertifikaatin hakemisen edellytys, raportin kokoaminen on ollut hyödyllistä organisaation itsearvioinnin näkökulmasta. Yhteen dokumenttiin on nyt koottu kattava kokonaiskuva Tietoarkiston toiminnasta vahvuuksineen ja kehityskohtineen.

Tavoitteena sertifioinnin uusiminen vuosille 2017–2019

Raportti sertifikaatin hakemiseksi on toimitettu arvioijille ja odotamme Tietoarkistossa parhaillaan tietoa siitä, myönnetäänkö sertifikaatti meille vuosiksi 2017–2019. Sertifioinnin kriteerit ovat muuttuneet hieman aiemmasta, joten emme oletusarvoisesti pysty toteamaan, että sertifikaatti myönnetään sen perusteella, että se on myönnetty aiemminkin.

Visiomme mukaisesti toteutamme kuitenkin edelleen tehtäväämme luotettavana ja tunnettuna avoimen tieteen ja pitkäaikaissaatavuuden asiantuntijana, johon kuuluu oleellisesti toiminta, joka vastaa DSA-sertifioinnin mukaisia kriteerejä sähköisten aineistojen luotettavana pitkäaikaissäilyttäjänä.

Sertifiointi visuaalisesti esitettynä

Tietoarkisto järjesti keväällä työntekijöillensä koulutuspäivän, jonka aikana pääsimme oppimaan luovuudesta ja visuaalisten muistiinpanojen tekemisestä. Kokeilin oppimani perusteella yksinkertaistaa tässä blogitekstissä kirjoittamaani kokonaisuutta visuaalisiksi muistiinpanoiksi. Oleelliseksi osaksi muistiinpanojani olen nostanut ensinnäkin sen, että Tietoarkisto hakee sertifiointia ja toimittaa asianmukaisen sähköisen raportoinnin toiminnastaan sertifioinnista vastaavalle taholle. Toisena pääkohtana muistiinpanoissa on sertifiointimerkinnän saaminen. Jos toimittamamme raportti vakuuttaa arvioijat, Tietoarkiston toiminta saa julkisen ja kansainvälisesti tunnistetun luotettavuuden sinetin.

Sisällön lisäksi visuaalisten muistiinpanojen tekemisessä ovat tärkeitä pienet visuaaliset yksityiskohdat, kuten hahmojen juurruttaminen paikkaan. Tämän vuoksi Aineistonhallinnan käsikirjastakin tuttu Tietoarkiston Hemmo seisoo muistiinpanoissani kesäisissä tunnelmissa varpaat vihreänä kasvavassa nurmessa. Samaa rentoutumismetodia suosittelen kaikille blogitekstiäni kesällä lukeville henkilöille – kokekaa Hemmon tavoin vihreä kesänurmi sitä paljain varpain tunnustelemalla. Tuloksena nurmikon tunnustelusta paljain varpain ei myönnetä sertifikaatteja, mutta ripaus kesätunnelmaa siitä tarttuu varmasti matkaan.

Lisätietoa:
» Data Seal of Approval
» Tietoarkiston nykyinen DSA-sertifikaatti vuosille 2014–2017

Eliisa Haanpää
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi