Tag Archives: yhteentoimivuus

SSHOC-hanke selvitti (meta)datan yhteensopivuusongelmia Tietoarkiston johdolla

Tietoarkisto on mukana vuoden alussa alkaneessa, EU:n rahoittamassa ja CESSDAn koordinoimassa Social Sciences & Humanities Open Cloud (SSHOC) -hankkeessa, joka on yksi viidestä suuresta eurooppalaisen avoimen tieteen pilven (European Open Science Cloud…

SSHOC Project Charted (Meta)data Interoperability Problems with FSD at the Helm

FSD is taking part in the Social Sciences and Humanities Open Cloud (SSHOC), which is one of the five cluster projects within the European Open Science Cloud (EOSC) initiative. SSHOC is funded by the EU and coordinated by CESSDA, and it continues until…

Tietoarkisto on FAIR

Avoimen tieteen piirissä on viimeisen vuoden aikana alettu puhua FAIR-periaatteista. Kiinnostuksen selittänee pitkälti EU:n Horisontti 2020 -ohjelma, joka painottaa tutkimusaineistojen hyvää hallintaa ja FAIR-periaatteita.

FAIR on lyhenne sanoista Findable, Accessible, Interoperable ja Re-usable. Suomeksi voitaisiin puhua tutkimusaineistojen löydettävyydestä, saavutettavuudesta, yhteentoimivuudesta ja uudelleenkäytettävyydestä – kaikki periaatteita, joita Tietoarkisto on edistänyt jo kohta kaksikymmentä vuotta ja vanhimmat yhteiskuntatieteelliset sisararkistomme (kuten brittien UKDS) jo puoli vuosisataa.

Vaikka kyse ei olekaan meille uudesta asiasta, FAIR-keskustelu on tarjonnut oivan herätteen tarkastella Tietoarkiston toimintaa hieman erilaisesta näkökulmasta. Yksi sysäys tarkastelullemme oli myös marraskuussa OpenAIRE2020-hankkeen järjestämä työpaja. Siellä FAIR-periaatteista keskusteltiin erilaisia tutkimuksen tukipalveluja vertailukohtana käyttäen. Tietoarkisto oli yksi mukana olleista palveluista.

Koska tarjoamme aineistojen arkistointi- ja avaamispalvelujen lisäksi neuvontaa ja ohjausta tutkimusdatan hallintaan (ks. tieteenala-asiantuntijamme Katja Fältin oiva katsaus olemassa oleviin aineistonhallinnan resursseihin ja palveluihin, onkin aiheellista ja reilua kysyä: Kuinka FAIR Tietoarkisto on?

Vastaukseni on, että Tietoarkisto on erittäin FAIR. Tässä tiivistetyt perustelut:

  • Tietoarkistoon arkistoidut aineistot on kuvailtu yksityiskohtaisesti. Metadata on vapaasti saatavilla ja hyödynnettävissä, vaikka datassa voi olla rajoituksia. Annamme aineistoille aina pysyvän tunnisteen. Aineistot ovat löydettävissä Tietoarkiston oman Aila-palveluportaalin kautta ja esimerkiksi myös kansallisten Finna- ja Etsin-palveluiden kautta.
  • Metadata on vapaasti saatavilla Ailan kautta sekä Tietoarkiston OAI-PMH-rajapinnasta. Rekisteröityneet käyttäjät voivat ladata dataa Ailasta. Aila hyödyntää HAKA-käyttäjätunnistusjärjestelmää.
  • Tietoarkisto käyttää aineistojen kuvailuun kansainvälistä DDI Codebook -kuvailuformaattia sekä useita kansainvälisiä sanastoja. Metadata sisältää myös viittauksia muuhun metadataan, dataan ja julkaisuihin. Data on saatavilla yhteiskuntatieteilijöiden yleisesti käyttämässä SPSS-formaatissa.
  • Aineistojen DDI Codebook -muotoinen metadata sisältää laajasti tietoa aineiston sisällöstä, tekijöistä, keruusta, muuttujista ja aineistoon viittaamisesta. Datan käyttöehdot ovat selkeät ja sisältyvät metadataan. Metadata on saatavilla CC-lisenssillä.

Tietoarkiston kannalta haasteellisin FAIR-periaate on yhteentoimivuus. FAIRin taustalla on idea koneellisesti saavutettavasta, käsiteltävästä ja tulkittavasta tiedosta. Se ei Tietoarkiston datan osalta toteudu täydellisesti, mutta mielestämme kuitenkin niin hyvin kuin on mahdollista ja tarkoituksenmukaista.

Marraskuun OpenAIRE2020-seminaarissa pohdittiinkin, mikä riittää siihen, että datan, organisaation tai palvelun voi sanoa olevan FAIR. Mitään yhtä vastausta tähän ei saatu – eikä mielestäni tarvitsekaan saada.

Esimerkiksi organisaatioiden toiminnan arviointiin on olemassa yksityiskohtaisia sertifikaatteja ja standardeja kuten OAIS, Data Seal of Approval ja ISO 16363. FAIR-periaatteet ovat sen sijaan iskevästi nimettyjä ja ilmaistuja yleisiä tavoitteita, ja ne toimivat sellaisina hyvin.

Tietoarkiston käytäntöjen FAIR-yhteensopivuus ei ollut yllätys, onhan meillä jo DSA-sertifikaatti. Aina on kuitenkin varaa parantaa, ja FAIR-periaatteet auttavat hahmottamaan, mitkä osa-alueet ovat vahvoja ja minkä osa-alueiden kehittämistä tulisi tutkiskella tarkemmin. Uskon, että FAIR-periaatteiden avulla on myös helppo herättää yleisempää keskustelua tutkimusaineistojen avaamisesta ja hallinnasta sekä niihin liittyvistä hyvistä käytännöistä.

Lisätietoa FAIR-periaatteista:
Wilkinson, Mark D. et al (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data 3, Article number 160018. http://dx.doi.org/10.1038/sdata.2016.18

Mari Kleemola
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi

Tietoarkisto on FAIR

Avoimen tieteen piirissä on viimeisen vuoden aikana alettu puhua FAIR-periaatteista. Kiinnostuksen selittänee pitkälti EU:n Horisontti 2020 -ohjelma, joka painottaa tutkimusaineistojen hyvää hallintaa ja FAIR-periaatteita.

FAIR on lyhenne sanoista Findable, Accessible, Interoperable ja Re-usable. Suomeksi voitaisiin puhua tutkimusaineistojen löydettävyydestä, saavutettavuudesta, yhteentoimivuudesta ja uudelleenkäytettävyydestä – kaikki periaatteita, joita Tietoarkisto on edistänyt jo kohta kaksikymmentä vuotta ja vanhimmat yhteiskuntatieteelliset sisararkistomme (kuten brittien UKDS) jo puoli vuosisataa.

Vaikka kyse ei olekaan meille uudesta asiasta, FAIR-keskustelu on tarjonnut oivan herätteen tarkastella Tietoarkiston toimintaa hieman erilaisesta näkökulmasta. Yksi sysäys tarkastelullemme oli myös marraskuussa OpenAIRE2020-hankkeen järjestämä työpaja. Siellä FAIR-periaatteista keskusteltiin erilaisia tutkimuksen tukipalveluja vertailukohtana käyttäen. Tietoarkisto oli yksi mukana olleista palveluista.

Koska tarjoamme aineistojen arkistointi- ja avaamispalvelujen lisäksi neuvontaa ja ohjausta tutkimusdatan hallintaan (ks. tieteenala-asiantuntijamme Katja Fältin oiva katsaus olemassa oleviin aineistonhallinnan resursseihin ja palveluihin, onkin aiheellista ja reilua kysyä: Kuinka FAIR Tietoarkisto on?

Vastaukseni on, että Tietoarkisto on erittäin FAIR. Tässä tiivistetyt perustelut:

  • Tietoarkistoon arkistoidut aineistot on kuvailtu yksityiskohtaisesti. Metadata on vapaasti saatavilla ja hyödynnettävissä, vaikka datassa voi olla rajoituksia. Annamme aineistoille aina pysyvän tunnisteen. Aineistot ovat löydettävissä Tietoarkiston oman Aila-palveluportaalin kautta ja esimerkiksi myös kansallisten Finna- ja Etsin-palveluiden kautta.
  • Metadata on vapaasti saatavilla Ailan kautta sekä Tietoarkiston OAI-PMH-rajapinnasta. Rekisteröityneet käyttäjät voivat ladata dataa Ailasta. Aila hyödyntää HAKA-käyttäjätunnistusjärjestelmää.
  • Tietoarkisto käyttää aineistojen kuvailuun kansainvälistä DDI Codebook -kuvailuformaattia sekä useita kansainvälisiä sanastoja. Metadata sisältää myös viittauksia muuhun metadataan, dataan ja julkaisuihin. Data on saatavilla yhteiskuntatieteilijöiden yleisesti käyttämässä SPSS-formaatissa.
  • Aineistojen DDI Codebook -muotoinen metadata sisältää laajasti tietoa aineiston sisällöstä, tekijöistä, keruusta, muuttujista ja aineistoon viittaamisesta. Datan käyttöehdot ovat selkeät ja sisältyvät metadataan. Metadata on saatavilla CC-lisenssillä.

Tietoarkiston kannalta haasteellisin FAIR-periaate on yhteentoimivuus. FAIRin taustalla on idea koneellisesti saavutettavasta, käsiteltävästä ja tulkittavasta tiedosta. Se ei Tietoarkiston datan osalta toteudu täydellisesti, mutta mielestämme kuitenkin niin hyvin kuin on mahdollista ja tarkoituksenmukaista.

Marraskuun OpenAIRE2020-seminaarissa pohdittiinkin, mikä riittää siihen, että datan, organisaation tai palvelun voi sanoa olevan FAIR. Mitään yhtä vastausta tähän ei saatu – eikä mielestäni tarvitsekaan saada.

Esimerkiksi organisaatioiden toiminnan arviointiin on olemassa yksityiskohtaisia sertifikaatteja ja standardeja kuten OAIS, Data Seal of Approval ja ISO 16363. FAIR-periaatteet ovat sen sijaan iskevästi nimettyjä ja ilmaistuja yleisiä tavoitteita, ja ne toimivat sellaisina hyvin.

Tietoarkiston käytäntöjen FAIR-yhteensopivuus ei ollut yllätys, onhan meillä jo DSA-sertifikaatti. Aina on kuitenkin varaa parantaa, ja FAIR-periaatteet auttavat hahmottamaan, mitkä osa-alueet ovat vahvoja ja minkä osa-alueiden kehittämistä tulisi tutkiskella tarkemmin. Uskon, että FAIR-periaatteiden avulla on myös helppo herättää yleisempää keskustelua tutkimusaineistojen avaamisesta ja hallinnasta sekä niihin liittyvistä hyvistä käytännöistä.

Lisätietoa FAIR-periaatteista:
Wilkinson, Mark D. et al (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data 3, Article number 160018. http://dx.doi.org/10.1038/sdata.2016.18

Mari Kleemola
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi