Tag Archives: OAIS

Tietoarkisto on FAIR

Avoimen tieteen piirissä on viimeisen vuoden aikana alettu puhua FAIR-periaatteista. Kiinnostuksen selittänee pitkälti EU:n Horisontti 2020 -ohjelma, joka painottaa tutkimusaineistojen hyvää hallintaa ja FAIR-periaatteita.

FAIR on lyhenne sanoista Findable, Accessible, Interoperable ja Re-usable. Suomeksi voitaisiin puhua tutkimusaineistojen löydettävyydestä, saavutettavuudesta, yhteentoimivuudesta ja uudelleenkäytettävyydestä – kaikki periaatteita, joita Tietoarkisto on edistänyt jo kohta kaksikymmentä vuotta ja vanhimmat yhteiskuntatieteelliset sisararkistomme (kuten brittien UKDS) jo puoli vuosisataa.

Vaikka kyse ei olekaan meille uudesta asiasta, FAIR-keskustelu on tarjonnut oivan herätteen tarkastella Tietoarkiston toimintaa hieman erilaisesta näkökulmasta. Yksi sysäys tarkastelullemme oli myös marraskuussa OpenAIRE2020-hankkeen järjestämä työpaja. Siellä FAIR-periaatteista keskusteltiin erilaisia tutkimuksen tukipalveluja vertailukohtana käyttäen. Tietoarkisto oli yksi mukana olleista palveluista.

Koska tarjoamme aineistojen arkistointi- ja avaamispalvelujen lisäksi neuvontaa ja ohjausta tutkimusdatan hallintaan (ks. tieteenala-asiantuntijamme Katja Fältin oiva katsaus olemassa oleviin aineistonhallinnan resursseihin ja palveluihin, onkin aiheellista ja reilua kysyä: Kuinka FAIR Tietoarkisto on?

Vastaukseni on, että Tietoarkisto on erittäin FAIR. Tässä tiivistetyt perustelut:

  • Tietoarkistoon arkistoidut aineistot on kuvailtu yksityiskohtaisesti. Metadata on vapaasti saatavilla ja hyödynnettävissä, vaikka datassa voi olla rajoituksia. Annamme aineistoille aina pysyvän tunnisteen. Aineistot ovat löydettävissä Tietoarkiston oman Aila-palveluportaalin kautta ja esimerkiksi myös kansallisten Finna- ja Etsin-palveluiden kautta.
  • Metadata on vapaasti saatavilla Ailan kautta sekä Tietoarkiston OAI-PMH-rajapinnasta. Rekisteröityneet käyttäjät voivat ladata dataa Ailasta. Aila hyödyntää HAKA-käyttäjätunnistusjärjestelmää.
  • Tietoarkisto käyttää aineistojen kuvailuun kansainvälistä DDI Codebook -kuvailuformaattia sekä useita kansainvälisiä sanastoja. Metadata sisältää myös viittauksia muuhun metadataan, dataan ja julkaisuihin. Data on saatavilla yhteiskuntatieteilijöiden yleisesti käyttämässä SPSS-formaatissa.
  • Aineistojen DDI Codebook -muotoinen metadata sisältää laajasti tietoa aineiston sisällöstä, tekijöistä, keruusta, muuttujista ja aineistoon viittaamisesta. Datan käyttöehdot ovat selkeät ja sisältyvät metadataan. Metadata on saatavilla CC-lisenssillä.

Tietoarkiston kannalta haasteellisin FAIR-periaate on yhteentoimivuus. FAIRin taustalla on idea koneellisesti saavutettavasta, käsiteltävästä ja tulkittavasta tiedosta. Se ei Tietoarkiston datan osalta toteudu täydellisesti, mutta mielestämme kuitenkin niin hyvin kuin on mahdollista ja tarkoituksenmukaista.

Marraskuun OpenAIRE2020-seminaarissa pohdittiinkin, mikä riittää siihen, että datan, organisaation tai palvelun voi sanoa olevan FAIR. Mitään yhtä vastausta tähän ei saatu – eikä mielestäni tarvitsekaan saada.

Esimerkiksi organisaatioiden toiminnan arviointiin on olemassa yksityiskohtaisia sertifikaatteja ja standardeja kuten OAIS, Data Seal of Approval ja ISO 16363. FAIR-periaatteet ovat sen sijaan iskevästi nimettyjä ja ilmaistuja yleisiä tavoitteita, ja ne toimivat sellaisina hyvin.

Tietoarkiston käytäntöjen FAIR-yhteensopivuus ei ollut yllätys, onhan meillä jo DSA-sertifikaatti. Aina on kuitenkin varaa parantaa, ja FAIR-periaatteet auttavat hahmottamaan, mitkä osa-alueet ovat vahvoja ja minkä osa-alueiden kehittämistä tulisi tutkiskella tarkemmin. Uskon, että FAIR-periaatteiden avulla on myös helppo herättää yleisempää keskustelua tutkimusaineistojen avaamisesta ja hallinnasta sekä niihin liittyvistä hyvistä käytännöistä.

Lisätietoa FAIR-periaatteista:
Wilkinson, Mark D. et al (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data 3, Article number 160018. http://dx.doi.org/10.1038/sdata.2016.18

Mari Kleemola
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi

Tietoarkisto on FAIR

Avoimen tieteen piirissä on viimeisen vuoden aikana alettu puhua FAIR-periaatteista. Kiinnostuksen selittänee pitkälti EU:n Horisontti 2020 -ohjelma, joka painottaa tutkimusaineistojen hyvää hallintaa ja FAIR-periaatteita.

FAIR on lyhenne sanoista Findable, Accessible, Interoperable ja Re-usable. Suomeksi voitaisiin puhua tutkimusaineistojen löydettävyydestä, saavutettavuudesta, yhteentoimivuudesta ja uudelleenkäytettävyydestä – kaikki periaatteita, joita Tietoarkisto on edistänyt jo kohta kaksikymmentä vuotta ja vanhimmat yhteiskuntatieteelliset sisararkistomme (kuten brittien UKDS) jo puoli vuosisataa.

Vaikka kyse ei olekaan meille uudesta asiasta, FAIR-keskustelu on tarjonnut oivan herätteen tarkastella Tietoarkiston toimintaa hieman erilaisesta näkökulmasta. Yksi sysäys tarkastelullemme oli myös marraskuussa OpenAIRE2020-hankkeen järjestämä työpaja. Siellä FAIR-periaatteista keskusteltiin erilaisia tutkimuksen tukipalveluja vertailukohtana käyttäen. Tietoarkisto oli yksi mukana olleista palveluista.

Koska tarjoamme aineistojen arkistointi- ja avaamispalvelujen lisäksi neuvontaa ja ohjausta tutkimusdatan hallintaan (ks. tieteenala-asiantuntijamme Katja Fältin oiva katsaus olemassa oleviin aineistonhallinnan resursseihin ja palveluihin, onkin aiheellista ja reilua kysyä: Kuinka FAIR Tietoarkisto on?

Vastaukseni on, että Tietoarkisto on erittäin FAIR. Tässä tiivistetyt perustelut:

  • Tietoarkistoon arkistoidut aineistot on kuvailtu yksityiskohtaisesti. Metadata on vapaasti saatavilla ja hyödynnettävissä, vaikka datassa voi olla rajoituksia. Annamme aineistoille aina pysyvän tunnisteen. Aineistot ovat löydettävissä Tietoarkiston oman Aila-palveluportaalin kautta ja esimerkiksi myös kansallisten Finna- ja Etsin-palveluiden kautta.
  • Metadata on vapaasti saatavilla Ailan kautta sekä Tietoarkiston OAI-PMH-rajapinnasta. Rekisteröityneet käyttäjät voivat ladata dataa Ailasta. Aila hyödyntää HAKA-käyttäjätunnistusjärjestelmää.
  • Tietoarkisto käyttää aineistojen kuvailuun kansainvälistä DDI Codebook -kuvailuformaattia sekä useita kansainvälisiä sanastoja. Metadata sisältää myös viittauksia muuhun metadataan, dataan ja julkaisuihin. Data on saatavilla yhteiskuntatieteilijöiden yleisesti käyttämässä SPSS-formaatissa.
  • Aineistojen DDI Codebook -muotoinen metadata sisältää laajasti tietoa aineiston sisällöstä, tekijöistä, keruusta, muuttujista ja aineistoon viittaamisesta. Datan käyttöehdot ovat selkeät ja sisältyvät metadataan. Metadata on saatavilla CC-lisenssillä.

Tietoarkiston kannalta haasteellisin FAIR-periaate on yhteentoimivuus. FAIRin taustalla on idea koneellisesti saavutettavasta, käsiteltävästä ja tulkittavasta tiedosta. Se ei Tietoarkiston datan osalta toteudu täydellisesti, mutta mielestämme kuitenkin niin hyvin kuin on mahdollista ja tarkoituksenmukaista.

Marraskuun OpenAIRE2020-seminaarissa pohdittiinkin, mikä riittää siihen, että datan, organisaation tai palvelun voi sanoa olevan FAIR. Mitään yhtä vastausta tähän ei saatu – eikä mielestäni tarvitsekaan saada.

Esimerkiksi organisaatioiden toiminnan arviointiin on olemassa yksityiskohtaisia sertifikaatteja ja standardeja kuten OAIS, Data Seal of Approval ja ISO 16363. FAIR-periaatteet ovat sen sijaan iskevästi nimettyjä ja ilmaistuja yleisiä tavoitteita, ja ne toimivat sellaisina hyvin.

Tietoarkiston käytäntöjen FAIR-yhteensopivuus ei ollut yllätys, onhan meillä jo DSA-sertifikaatti. Aina on kuitenkin varaa parantaa, ja FAIR-periaatteet auttavat hahmottamaan, mitkä osa-alueet ovat vahvoja ja minkä osa-alueiden kehittämistä tulisi tutkiskella tarkemmin. Uskon, että FAIR-periaatteiden avulla on myös helppo herättää yleisempää keskustelua tutkimusaineistojen avaamisesta ja hallinnasta sekä niihin liittyvistä hyvistä käytännöistä.

Lisätietoa FAIR-periaatteista:
Wilkinson, Mark D. et al (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data 3, Article number 160018. http://dx.doi.org/10.1038/sdata.2016.18

Mari Kleemola
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi