Tag Archives: standardit

Tietoarkisto haluaa olla jatkossakin DSA-sertifikaatin arvoinen

Tietoarkistolle on tärkeää avata tutkimusaineistot vastuullisesti ja luotettavasti, ja luonnollisesti haluamme kertoa luotettavuudestamme myös muille. Yksi hyvä luotettavuuden mittari on kansainvälinen Data Seal of Approval (DSA) -sertifikaatti. Sen saaminen edellyttää, että organisaatio säilyttää sähköisiä aineistoja luotettavasti ja mahdollistaa aineistojen jatkokäytön. Tällä hetkellä Tietoarkistolla on voimassa vuosille 2014–2017 myönnetty DSA-sertifikaatti. Koska nykyisen sertifikaatin voimassaolo päättyy vuoden vaihteessa, sen päivittäminen on juuri nyt ajankohtaista. Seuraavaksi kerron yleisesti DSA-sertifikaatista ja sen hakemisesta.

Mikä ihmeen DSA-sertifikaatti?

Kansainvälisen sertifikaatin takana ovat ICSU World Data System (WDS) ja Data Seal Of Approval, jotka yhdessä myöntävät Data Seal of Approval (DSA) -sertifikaatteja. Sertifiointi on suunnattu sähköisten aineistojen säilyttäjille, ja sen avulla pyritään osoittamaan kuinka luotettava tietoja säilyttävä organisaatio on. Luotettavuutta arvioidaan sähköisten aineistojen säilyttämisen kaikissa vaiheissa aina aineistojen vastaanottamisesta niiden pitkäaikaissäilyttämiseen sekä edelleen jakamiseen.

Sertifikaatin vaatimukset perustuvat viiteen kriteeriin. Kriteerien mukaan säilytettävien aineistojen tulee olla löydettävissä verkosta, niiden tulee olla saatavilla selkein käyttöehdoin, aineistojen tulee olla tallennettuina jatkokäytön mahdollistavissa tiedostoformaateissa, aineistojen tulee olla luotettavia ja aineistojen tulee olla yksilöitävissä niin, että niihin voidaan viitata yksiselitteisesti ja pysyvästi. DSA-sertifikaatti on myönnetty vuosiksi 2014–2017 Tietoarkiston lisäksi liki 60 toimijalle ympäri maailmaa.

Sertifikaatin hakeminen

Jotta Tietoarkistolle myönnetty sertifikaatti pysyisi voimassa ilman katkoja, työ sertifikaatin uusimiseksi on aloitettu hyvissä ajoin.

Uuden sertifikaatin hakeminen edellyttää, että hakija täyttää edelleen vaaditut organisatoriset lähtökohdat. Lisäksi hakijan on raportoitava tarkasti organisaation nykyisen toiminnan tilanne. Raportointi perustuu 16 kohdan ohjeistukseen, jonka mukaisesti aineistojen luotettava säilyttäminen on todennettava niin käytäntöjen, tekniikan kuin etiikankin näkökulmasta. Sertifikaatin hakijan täytyy voida osoittaa, että sen toiminnan taso vastaa sertifikaatin vaatimaa tasoa.

Kokosin yhdessä kollegoideni kanssa Tietoarkiston toimintaperiaatteista ja -käytänteistä ohjeistuksen mukaisen raportin, jota varten haastattelin arkiston työntekijöitä eri asiantuntemuksen aloilta ja kävin läpi lukuisia asiakirjoja vuosien varrelta. Sen lisäksi, että toiminnan raportointi on sertifikaatin hakemisen edellytys, raportin kokoaminen on ollut hyödyllistä organisaation itsearvioinnin näkökulmasta. Yhteen dokumenttiin on nyt koottu kattava kokonaiskuva Tietoarkiston toiminnasta vahvuuksineen ja kehityskohtineen.

Tavoitteena sertifioinnin uusiminen vuosille 2017–2019

Raportti sertifikaatin hakemiseksi on toimitettu arvioijille ja odotamme Tietoarkistossa parhaillaan tietoa siitä, myönnetäänkö sertifikaatti meille vuosiksi 2017–2019. Sertifioinnin kriteerit ovat muuttuneet hieman aiemmasta, joten emme oletusarvoisesti pysty toteamaan, että sertifikaatti myönnetään sen perusteella, että se on myönnetty aiemminkin.

Visiomme mukaisesti toteutamme kuitenkin edelleen tehtäväämme luotettavana ja tunnettuna avoimen tieteen ja pitkäaikaissaatavuuden asiantuntijana, johon kuuluu oleellisesti toiminta, joka vastaa DSA-sertifioinnin mukaisia kriteerejä sähköisten aineistojen luotettavana pitkäaikaissäilyttäjänä.

Sertifiointi visuaalisesti esitettynä

Tietoarkisto järjesti keväällä työntekijöillensä koulutuspäivän, jonka aikana pääsimme oppimaan luovuudesta ja visuaalisten muistiinpanojen tekemisestä. Kokeilin oppimani perusteella yksinkertaistaa tässä blogitekstissä kirjoittamaani kokonaisuutta visuaalisiksi muistiinpanoiksi. Oleelliseksi osaksi muistiinpanojani olen nostanut ensinnäkin sen, että Tietoarkisto hakee sertifiointia ja toimittaa asianmukaisen sähköisen raportoinnin toiminnastaan sertifioinnista vastaavalle taholle. Toisena pääkohtana muistiinpanoissa on sertifiointimerkinnän saaminen. Jos toimittamamme raportti vakuuttaa arvioijat, Tietoarkiston toiminta saa julkisen ja kansainvälisesti tunnistetun luotettavuuden sinetin.

Sisällön lisäksi visuaalisten muistiinpanojen tekemisessä ovat tärkeitä pienet visuaaliset yksityiskohdat, kuten hahmojen juurruttaminen paikkaan. Tämän vuoksi Aineistonhallinnan käsikirjastakin tuttu Tietoarkiston Hemmo seisoo muistiinpanoissani kesäisissä tunnelmissa varpaat vihreänä kasvavassa nurmessa. Samaa rentoutumismetodia suosittelen kaikille blogitekstiäni kesällä lukeville henkilöille – kokekaa Hemmon tavoin vihreä kesänurmi sitä paljain varpain tunnustelemalla. Tuloksena nurmikon tunnustelusta paljain varpain ei myönnetä sertifikaatteja, mutta ripaus kesätunnelmaa siitä tarttuu varmasti matkaan.

Lisätietoa:
» Data Seal of Approval
» Tietoarkiston nykyinen DSA-sertifikaatti vuosille 2014–2017

Eliisa Haanpää
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi

Tietoarkisto haluaa olla jatkossakin DSA-sertifikaatin arvoinen

Tietoarkistolle on tärkeää avata tutkimusaineistot vastuullisesti ja luotettavasti, ja luonnollisesti haluamme kertoa luotettavuudestamme myös muille. Yksi hyvä luotettavuuden mittari on kansainvälinen Data Seal of Approval (DSA) -sertifikaatti. Sen saaminen edellyttää, että organisaatio säilyttää sähköisiä aineistoja luotettavasti ja mahdollistaa aineistojen jatkokäytön. Tällä hetkellä Tietoarkistolla on voimassa vuosille 2014–2017 myönnetty DSA-sertifikaatti. Koska nykyisen sertifikaatin voimassaolo päättyy vuoden vaihteessa, sen päivittäminen on juuri nyt ajankohtaista. Seuraavaksi kerron yleisesti DSA-sertifikaatista ja sen hakemisesta.

Mikä ihmeen DSA-sertifikaatti?

Kansainvälisen sertifikaatin takana ovat ICSU World Data System (WDS) ja Data Seal Of Approval, jotka yhdessä myöntävät Data Seal of Approval (DSA) -sertifikaatteja. Sertifiointi on suunnattu sähköisten aineistojen säilyttäjille, ja sen avulla pyritään osoittamaan kuinka luotettava tietoja säilyttävä organisaatio on. Luotettavuutta arvioidaan sähköisten aineistojen säilyttämisen kaikissa vaiheissa aina aineistojen vastaanottamisesta niiden pitkäaikaissäilyttämiseen sekä edelleen jakamiseen.

Sertifikaatin vaatimukset perustuvat viiteen kriteeriin. Kriteerien mukaan säilytettävien aineistojen tulee olla löydettävissä verkosta, niiden tulee olla saatavilla selkein käyttöehdoin, aineistojen tulee olla tallennettuina jatkokäytön mahdollistavissa tiedostoformaateissa, aineistojen tulee olla luotettavia ja aineistojen tulee olla yksilöitävissä niin, että niihin voidaan viitata yksiselitteisesti ja pysyvästi. DSA-sertifikaatti on myönnetty vuosiksi 2014–2017 Tietoarkiston lisäksi liki 60 toimijalle ympäri maailmaa.

Sertifikaatin hakeminen

Jotta Tietoarkistolle myönnetty sertifikaatti pysyisi voimassa ilman katkoja, työ sertifikaatin uusimiseksi on aloitettu hyvissä ajoin.

Uuden sertifikaatin hakeminen edellyttää, että hakija täyttää edelleen vaaditut organisatoriset lähtökohdat. Lisäksi hakijan on raportoitava tarkasti organisaation nykyisen toiminnan tilanne. Raportointi perustuu 16 kohdan ohjeistukseen, jonka mukaisesti aineistojen luotettava säilyttäminen on todennettava niin käytäntöjen, tekniikan kuin etiikankin näkökulmasta. Sertifikaatin hakijan täytyy voida osoittaa, että sen toiminnan taso vastaa sertifikaatin vaatimaa tasoa.

Kokosin yhdessä kollegoideni kanssa Tietoarkiston toimintaperiaatteista ja -käytänteistä ohjeistuksen mukaisen raportin, jota varten haastattelin arkiston työntekijöitä eri asiantuntemuksen aloilta ja kävin läpi lukuisia asiakirjoja vuosien varrelta. Sen lisäksi, että toiminnan raportointi on sertifikaatin hakemisen edellytys, raportin kokoaminen on ollut hyödyllistä organisaation itsearvioinnin näkökulmasta. Yhteen dokumenttiin on nyt koottu kattava kokonaiskuva Tietoarkiston toiminnasta vahvuuksineen ja kehityskohtineen.

Tavoitteena sertifioinnin uusiminen vuosille 2017–2019

Raportti sertifikaatin hakemiseksi on toimitettu arvioijille ja odotamme Tietoarkistossa parhaillaan tietoa siitä, myönnetäänkö sertifikaatti meille vuosiksi 2017–2019. Sertifioinnin kriteerit ovat muuttuneet hieman aiemmasta, joten emme oletusarvoisesti pysty toteamaan, että sertifikaatti myönnetään sen perusteella, että se on myönnetty aiemminkin.

Visiomme mukaisesti toteutamme kuitenkin edelleen tehtäväämme luotettavana ja tunnettuna avoimen tieteen ja pitkäaikaissaatavuuden asiantuntijana, johon kuuluu oleellisesti toiminta, joka vastaa DSA-sertifioinnin mukaisia kriteerejä sähköisten aineistojen luotettavana pitkäaikaissäilyttäjänä.

Sertifiointi visuaalisesti esitettynä

Tietoarkisto järjesti keväällä työntekijöillensä koulutuspäivän, jonka aikana pääsimme oppimaan luovuudesta ja visuaalisten muistiinpanojen tekemisestä. Kokeilin oppimani perusteella yksinkertaistaa tässä blogitekstissä kirjoittamaani kokonaisuutta visuaalisiksi muistiinpanoiksi. Oleelliseksi osaksi muistiinpanojani olen nostanut ensinnäkin sen, että Tietoarkisto hakee sertifiointia ja toimittaa asianmukaisen sähköisen raportoinnin toiminnastaan sertifioinnista vastaavalle taholle. Toisena pääkohtana muistiinpanoissa on sertifiointimerkinnän saaminen. Jos toimittamamme raportti vakuuttaa arvioijat, Tietoarkiston toiminta saa julkisen ja kansainvälisesti tunnistetun luotettavuuden sinetin.

Sisällön lisäksi visuaalisten muistiinpanojen tekemisessä ovat tärkeitä pienet visuaaliset yksityiskohdat, kuten hahmojen juurruttaminen paikkaan. Tämän vuoksi Aineistonhallinnan käsikirjastakin tuttu Tietoarkiston Hemmo seisoo muistiinpanoissani kesäisissä tunnelmissa varpaat vihreänä kasvavassa nurmessa. Samaa rentoutumismetodia suosittelen kaikille blogitekstiäni kesällä lukeville henkilöille – kokekaa Hemmon tavoin vihreä kesänurmi sitä paljain varpain tunnustelemalla. Tuloksena nurmikon tunnustelusta paljain varpain ei myönnetä sertifikaatteja, mutta ripaus kesätunnelmaa siitä tarttuu varmasti matkaan.

Lisätietoa:
» Data Seal of Approval
» Tietoarkiston nykyinen DSA-sertifikaatti vuosille 2014–2017

Eliisa Haanpää
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi

Juhlatunnelmia

Keskiviikko syyskuun 24. päivä oli tietoarkistossa ikimuistoinen: meille oli myönnetty Data Seal of Approval -sertifikaatti, tuttavallisemmin DSA. Se voidaan myöntää organisaatiolle, joka säilyttää sähköisiä aineistoja luotettavasti ja joka mahdollistaa aineistojen jatkokäytön. Tietoarkisto sai DSA:n ensimmäisenä suomalaisena organisaationa. Tällaista ei tapahdu ihan joka päivä eikä edes joka vuosi – oli siis kakkukahvien paikka!

Sertifikaatin saadaksemme meidän oli osoitettava, että toimimme mahdollisimman läpinäkyvästi, että noudatamme soveltuvia standardeja ja parhaita käytäntöjä ja että ymmärrämme ja hallitsemme toimintaamme liittyvät uhat ja riskit. Arviointikohtia oli yhteensä kuusitoista, ja kaikkien niiden osalta oli selitettävä toimintaperiaatteemme ja -käytäntömme. Pelkästään selittämällä DSA:ta ei kuitenkaan saa: väitteiden tueksi on esitettävä riittävä dokumentaatio. Menestyksekkään DSA-hakemuksemme kulmakivi oli arkistonmuodostussuunnitelmamme eli AMS. Sitä täydensi sisäinen käsikirjamme. Molemmat ovat tietoarkiston asiantuntijoiden pitkäjänteisen, jatkuvan, huolellisen ja innovatiivisen työn tuloksia.

DSA-sertifiointi oli samalla sekä omien toimintojemme kehittämistä ja vahvistamista että osa eurooppalaisen CESSDA ERIC -tutkimusinfrastruktuurin rakentamisprosessia. CESSDA-ERIC voi toimia tehokkaasti ja tarkoituksenmukaisesti vain, jos kaikki osapuolet toimivat yhteisten sääntöjen mukaan ja jos kaikki voivat luottaa toisiinsa.

Luottamusta rakentaakseen CESSDA käynnisti vuonna 2013 hankkeen, jossa jokainen palveluntuottaja teki itsearvioinnin DSA:ta käyttäen. Olin mukana hankkeen asiantuntijaryhmässä, joka kävi läpi kaikki itsearvioinnit ja valmisteli kehittämisraportin. Sen lisäksi, että työ oli äärimmäisen mielenkiintoista, se antoi vahvan luottamuksen siihen, että tietoarkiston käytännöt ja dokumentaatio ovat DSA-kunnossa.

Innostuneen juhlakahvittelun lomassa keskustelumme kääntyi tulevaisuuteen. DSA on vasta ensimmäinen taso kolmiportaisessa eurooppalaisessa sähköisen säilyttämisen arvioinnin viitekehyksessä. Toinen taso on ISO 16363 -standardiin perustuva itsearviointi ja kolmas taso ISO-standardin mukainen ulkoinen auditointi. Kakkunälkämme on jo kasvanut.

Lisätietoja:
» Tietoarkiston DSA-arviointi
» Työtä on tehty Suomen Akatemian rahoittamissa hankkeissa: VERIC ja TA15
» Tietoarkiston DSA-tiedote
» Tietoarkiston arkistonmuodostussuunnitelma

Mari Kleemola
tietopalvelupäällikkö
etunimi.sukunimi [at] uta.fi

Juhlatunnelmia

Keskiviikko syyskuun 24. päivä oli tietoarkistossa ikimuistoinen: meille oli myönnetty Data Seal of Approval -sertifikaatti, tuttavallisemmin DSA. Se voidaan myöntää organisaatiolle, joka säilyttää sähköisiä aineistoja luotettavasti ja joka mahdollistaa aineistojen jatkokäytön. Tietoarkisto sai DSA:n ensimmäisenä suomalaisena organisaationa. Tällaista ei tapahdu ihan joka päivä eikä edes joka vuosi – oli siis kakkukahvien paikka!

Sertifikaatin saadaksemme meidän oli osoitettava, että toimimme mahdollisimman läpinäkyvästi, että noudatamme soveltuvia standardeja ja parhaita käytäntöjä ja että ymmärrämme ja hallitsemme toimintaamme liittyvät uhat ja riskit. Arviointikohtia oli yhteensä kuusitoista, ja kaikkien niiden osalta oli selitettävä toimintaperiaatteemme ja -käytäntömme. Pelkästään selittämällä DSA:ta ei kuitenkaan saa: väitteiden tueksi on esitettävä riittävä dokumentaatio. Menestyksekkään DSA-hakemuksemme kulmakivi oli arkistonmuodostussuunnitelmamme eli AMS. Sitä täydensi sisäinen käsikirjamme. Molemmat ovat tietoarkiston asiantuntijoiden pitkäjänteisen, jatkuvan, huolellisen ja innovatiivisen työn tuloksia.

DSA-sertifiointi oli samalla sekä omien toimintojemme kehittämistä ja vahvistamista että osa eurooppalaisen CESSDA ERIC -tutkimusinfrastruktuurin rakentamisprosessia. CESSDA-ERIC voi toimia tehokkaasti ja tarkoituksenmukaisesti vain, jos kaikki osapuolet toimivat yhteisten sääntöjen mukaan ja jos kaikki voivat luottaa toisiinsa.

Luottamusta rakentaakseen CESSDA käynnisti vuonna 2013 hankkeen, jossa jokainen palveluntuottaja teki itsearvioinnin DSA:ta käyttäen. Olin mukana hankkeen asiantuntijaryhmässä, joka kävi läpi kaikki itsearvioinnit ja valmisteli kehittämisraportin. Sen lisäksi, että työ oli äärimmäisen mielenkiintoista, se antoi vahvan luottamuksen siihen, että tietoarkiston käytännöt ja dokumentaatio ovat DSA-kunnossa.

Innostuneen juhlakahvittelun lomassa keskustelumme kääntyi tulevaisuuteen. DSA on vasta ensimmäinen taso kolmiportaisessa eurooppalaisessa sähköisen säilyttämisen arvioinnin viitekehyksessä. Toinen taso on ISO 16363 -standardiin perustuva itsearviointi ja kolmas taso ISO-standardin mukainen ulkoinen auditointi. Kakkunälkämme on jo kasvanut.

Lisätietoja:
» Tietoarkiston DSA-arviointi
» Työtä on tehty Suomen Akatemian rahoittamissa hankkeissa: VERIC ja TA15
» Tietoarkiston DSA-tiedote
» Tietoarkiston arkistonmuodostussuunnitelma

Mari Kleemola
tietopalvelupäällikkö
etunimi.sukunimi [at] uta.fi

Tutkimusdata meriittinä

Opetus- ja kulttuuriministeriö julkisti pari viikkoa sitten tiekarttaraportin tutkimuksen sähköisten tietoaineistojen hyödyntämisestä. Siihen on koottu poikkihallinnollisen selvityshankkeen keskeiset ehdotukset alan hyvistä käytännöistä ja tietoaineistojen avoimuutta edistävistä toimenpiteistä. Aiemmin hanke oli tuottanut samaa aihepiiriä käsittelevän taustaraportin, joka luovutettiin opetusministerille vuosi sitten.

Tiekartta on laaja-alainen ja se tarjoaa hyviä polkuja ja myös konkreettisia toimenpide-ehdotuksia tutkimusdatan avoimelle saatavuudelle. Työ edellyttää laaja-alaista yhteistyötä aineistojen tuottajien ja välittäjien kesken sekä lisärahoitusta infrastruktuurien rakentamiseksi. Yksi perusongelma on. Tutkimusdatan pitkäaikaissäilytystä ja käytön avoimuutta tukevat rakenteet, välineet ja käytännöt puuttuvat edelleen lähes tyystin useilta tutkimusaloilta.

Rakenteet ovat pysyväksi tarkoitettuja organisaatioita tai järjestelyjä, joiden erityisvastuulla on tutkimusdatan elinkaaresta huolehtiminen. Välineet ovat esimerkiksi kuvailustandardeja, tietokantoja ja muita datan käytön tietoteknisiä sovelluksia, joiden avulla tutkijat löytävät ja saavat käyttöönsä haluamansa tutkimusaineistot. Käytännöt ovat puolestaan tutkimusyhteisön omaksumia toimintatapoja ja sääntöjä, tutkimuskulttuuria, joka koskee tutkimusaineistojen tekijyyttä ja avoimeen käyttöön saattamista.

Tiekartta nostaa aivan oikein yhdeksi keskeiseksi kansallisen datapolitiikan haasteeksi tutkimusaineistoihin liittyvät tieteelliset meriitit. Tältä osin tiekartta muun muassa toteaa (s. 29), että ”tutkijoiden meritoituminen tietoaineistojen tuottamisesta ja jakamisesta tulee ohjeistaa yhtenäisesti”. Vastuu olisi etenkin tutkimusrahoittajilla, kuten Suomen Akatemialla ja Tekesillä.

Olen itse meritoitumisen yleisestä merkityksestä samaa mieltä, mutta ohjeistamalla asia tuskin ratkeaa. Vastuu käytäntöjen muuttumisesta on myös tutkimusyhteisöllä ja laajasti kaikilla tutkimusta rahoittavilla tahoilla, kuten tutkimusinfrastruktuurirahoituksesta päävastuullisilla ministeriöillä. Tutkimusaineistoihin liittyvä meritoituminen on erinomainen esimerkki osoittamaan alan nykyisiä pullonkauloja.

Kyllä – tutkimusdatan tuottajien pitäisi saattaa datansa tutkimusyhteisön avoimeen käyttöön viimeistään hankkeittensa päätyttyä. Tämä ei välttämättä onnistu sormea napsauttamalla, vaikka tahtoa riittäisikin. Aineiston koonneen ryhmän tulee ensin kyetä sopimaan, kenen nimet ja missä järjestyksessä julkaistavaan aineistoon merkitään tekijöiksi ja kuka tai ketkä vastaavat aineiston jatkokäyttökuntoon saattamisesta.

Datan asianmukainen julkaiseminen puolestaan edellyttää datan kuvailun ja viittaustietojen vaatimia standardeja, jollaisia on valmiina vain harvoilla aloilla. Lisäksi datan julkaiseminen edellyttää sekä aineiston että sen keränneen hankkeen perustietojen kuvailua ja aina jonkin verran myös tutkimusaineiston muokkausta. Tämä vaatii aikaa ja työtä, joka ei läheskään kaikilla aloilla ole siirrettävissä olemassa olevan data-arkiston kontolle.

Lisäksi sekä tutkimusaineiston pitkäaikaissäilytys että sen jatkokäyttö muodostavat omat kokonaisuutensa meriitin muodostumisessa. Julkaistut datat saavat hyvää lisänäkyvyyttä avoimissa aineistotietokannoissa. Esimerkiksi Yhteiskuntatieteellinen tietoarkisto kääntää suomenkielisten aineistojen kuvailut englanniksi ja sijoittaa ne sitten avoimiin, kansainvälisiin datatietokantoihin. Näin ulkomaiset tutkijat pääsevät käyttämään suomalaisia tutkimusaineistoja, joista heillä ei muutoin olisi tietoa.

Luovuttaessaan arkistoituja data-aineistoja jatkokäyttöön tietoarkisto antaa niille viittaustiedon ja -ohjeet, joita jatkokäyttäjän tulee noudattaa. Tätä kautta aineistot ja niiden tekijät tulevat viitatuiksi tavanomaisin tieteellisin referenssein. Runsaassa jatkokäytössä olevat tutkimusaineistot ovat merkittävä meriitti alkuperäisille kokoajille, koska silloin toisten kokoama data on laajasti hyödyllistä tiedeyhteisölle.

Asianmukaisin standardein kuvailtu ja julkaistu tutkimusaineisto on tekijöilleen tieteellinen meriitti, jonka voi ilmoittaa ansioluettelossa. Tiedeyhteisön yhteiseen ja avoimeen käyttöön avatut datat mahdollistavat tieteen itsensäkorjaavuutta ja lisäävät sen yleistä luotettavuutta. Siksi nyt valmistuneen tiekartan toimenpide-ehdotukset pitää ottaa vakavasti.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Tutkimusdata meriittinä

Opetus- ja kulttuuriministeriö julkisti pari viikkoa sitten tiekarttaraportin tutkimuksen sähköisten tietoaineistojen hyödyntämisestä. Siihen on koottu poikkihallinnollisen selvityshankkeen keskeiset ehdotukset alan hyvistä käytännöistä ja tietoaineistojen avoimuutta edistävistä toimenpiteistä. Aiemmin hanke oli tuottanut samaa aihepiiriä käsittelevän taustaraportin, joka luovutettiin opetusministerille vuosi sitten.

Tiekartta on laaja-alainen ja se tarjoaa hyviä polkuja ja myös konkreettisia toimenpide-ehdotuksia tutkimusdatan avoimelle saatavuudelle. Työ edellyttää laaja-alaista yhteistyötä aineistojen tuottajien ja välittäjien kesken sekä lisärahoitusta infrastruktuurien rakentamiseksi. Yksi perusongelma on. Tutkimusdatan pitkäaikaissäilytystä ja käytön avoimuutta tukevat rakenteet, välineet ja käytännöt puuttuvat edelleen lähes tyystin useilta tutkimusaloilta.

Rakenteet ovat pysyväksi tarkoitettuja organisaatioita tai järjestelyjä, joiden erityisvastuulla on tutkimusdatan elinkaaresta huolehtiminen. Välineet ovat esimerkiksi kuvailustandardeja, tietokantoja ja muita datan käytön tietoteknisiä sovelluksia, joiden avulla tutkijat löytävät ja saavat käyttöönsä haluamansa tutkimusaineistot. Käytännöt ovat puolestaan tutkimusyhteisön omaksumia toimintatapoja ja sääntöjä, tutkimuskulttuuria, joka koskee tutkimusaineistojen tekijyyttä ja avoimeen käyttöön saattamista.

Tiekartta nostaa aivan oikein yhdeksi keskeiseksi kansallisen datapolitiikan haasteeksi tutkimusaineistoihin liittyvät tieteelliset meriitit. Tältä osin tiekartta muun muassa toteaa (s. 29), että ”tutkijoiden meritoituminen tietoaineistojen tuottamisesta ja jakamisesta tulee ohjeistaa yhtenäisesti”. Vastuu olisi etenkin tutkimusrahoittajilla, kuten Suomen Akatemialla ja Tekesillä.

Olen itse meritoitumisen yleisestä merkityksestä samaa mieltä, mutta ohjeistamalla asia tuskin ratkeaa. Vastuu käytäntöjen muuttumisesta on myös tutkimusyhteisöllä ja laajasti kaikilla tutkimusta rahoittavilla tahoilla, kuten tutkimusinfrastruktuurirahoituksesta päävastuullisilla ministeriöillä. Tutkimusaineistoihin liittyvä meritoituminen on erinomainen esimerkki osoittamaan alan nykyisiä pullonkauloja.

Kyllä – tutkimusdatan tuottajien pitäisi saattaa datansa tutkimusyhteisön avoimeen käyttöön viimeistään hankkeittensa päätyttyä. Tämä ei välttämättä onnistu sormea napsauttamalla, vaikka tahtoa riittäisikin. Aineiston koonneen ryhmän tulee ensin kyetä sopimaan, kenen nimet ja missä järjestyksessä julkaistavaan aineistoon merkitään tekijöiksi ja kuka tai ketkä vastaavat aineiston jatkokäyttökuntoon saattamisesta.

Datan asianmukainen julkaiseminen puolestaan edellyttää datan kuvailun ja viittaustietojen vaatimia standardeja, jollaisia on valmiina vain harvoilla aloilla. Lisäksi datan julkaiseminen edellyttää sekä aineiston että sen keränneen hankkeen perustietojen kuvailua ja aina jonkin verran myös tutkimusaineiston muokkausta. Tämä vaatii aikaa ja työtä, joka ei läheskään kaikilla aloilla ole siirrettävissä olemassa olevan data-arkiston kontolle.

Lisäksi sekä tutkimusaineiston pitkäaikaissäilytys että sen jatkokäyttö muodostavat omat kokonaisuutensa meriitin muodostumisessa. Julkaistut datat saavat hyvää lisänäkyvyyttä avoimissa aineistotietokannoissa. Esimerkiksi Yhteiskuntatieteellinen tietoarkisto kääntää suomenkielisten aineistojen kuvailut englanniksi ja sijoittaa ne sitten avoimiin, kansainvälisiin datatietokantoihin. Näin ulkomaiset tutkijat pääsevät käyttämään suomalaisia tutkimusaineistoja, joista heillä ei muutoin olisi tietoa.

Luovuttaessaan arkistoituja data-aineistoja jatkokäyttöön tietoarkisto antaa niille viittaustiedon ja -ohjeet, joita jatkokäyttäjän tulee noudattaa. Tätä kautta aineistot ja niiden tekijät tulevat viitatuiksi tavanomaisin tieteellisin referenssein. Runsaassa jatkokäytössä olevat tutkimusaineistot ovat merkittävä meriitti alkuperäisille kokoajille, koska silloin toisten kokoama data on laajasti hyödyllistä tiedeyhteisölle.

Asianmukaisin standardein kuvailtu ja julkaistu tutkimusaineisto on tekijöilleen tieteellinen meriitti, jonka voi ilmoittaa ansioluettelossa. Tiedeyhteisön yhteiseen ja avoimeen käyttöön avatut datat mahdollistavat tieteen itsensäkorjaavuutta ja lisäävät sen yleistä luotettavuutta. Siksi nyt valmistuneen tiekartan toimenpide-ehdotukset pitää ottaa vakavasti.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Dataintensiivinen tiede tarvitsee oikeanlaista metadataa

Ilman kuvailevaa tietoa, metadataa, sähköinen tutkimusaineisto, data, on merkityksetöntä bittimössöä. Jotta tutkimusaineistoa voidaan hyödyntää nyt ja tulevaisuudessa, tarvitaan tietoa esimerkiksi sen sisällöstä ja rakenteesta sekä mahdollisista muokkauksista ja käyttöoikeuksista. Näitä tarpeita varten eri maiden yhteiskuntatieteelliset data-arkistot kehittivät 1990-luvulla uuden monipuolisen kuvailuformaatin, DDI:n. Aluksi DDI keskittyi tutkimusaineistojen arkistointivaiheessa tarvittavaan metadataan, mutta tuorein versio, DDI 3, kattaa datan koko elinkaaren.

DDI:n käyttäjäkunta laajenee jatkuvasti. Viime vuoden joulukuussa järjestetty 2nd Annual European DDI Users Group Meeting, tuttavallisemmin EDDI, houkutteli talviseen Utrechtiin seitsemänkymmentä tutkimusaineistojen metadatan asiantuntijaa. Osallistujia oli data-arkistojen lisäksi muun muassa akateemisista tutkimusorganisaatioista, kaupallisista ohjelmistoyrityksistä, Eurostatista ja Australian tilastotoimesta. Yhteistä kaikille osallistujille oli halu hyödyntää olemassa olevien ja tulevien tietoaineistojen koko potentiaali ja tahto palvella dataa tuottavia ja käyttäviä sidosryhmiä parhaalla mahdollisella tavalla.

Tietoarkistosta meitä oli Utrechtissä kaksi: minä ja atk-erikoistutkijamme Matti Heinonen. Kaksipäiväisen seminaarin aikana ehdimme saada aimo annoksen sekä käytännön tietoa että uusia ideoita. Matti keskittyi teknisiin sessioihin, minulle jäivät ”yleisemmät teemat”. Yli kahdenkymmenen toinen toistaan paremman esityksen joukosta kiinnostavimmiksi nousivat mielestäni Peter Wittenburgin ja Steven Valen esitykset.

Max Planck -instituutin kieliarkistoa johtava Peter Wittenburg kertoi tieteellisen datan eurooppalaista e-infrastruktuuria visioineen korkean tason asiantuntijaryhmän työn tuloksista. Tämä HLEG-ryhmä luovutti lokakuussa Euroopan komissiolle loppuraporttinsa ”Riding the wave. How Europe can gain from the rising tide of scientific data”. Tiede on tällä hetkellä dataintensiivistä: tutkijat elävät suurten datamassojen keskellä ja tutkijoiden käytössä olevan datan määrä kasvaa koko ajan kaikilla tieteenaloilla. Tämä tieteen neljänneksi paradigmaksikin kutsuttu vaihe tarjoaa luonnollisesti runsaasti mahdollisuuksia, mutta esityksessään Wittenburg keskittyi haasteisiin. Datanhallinnan vaatimukset kasvavat kohisten. Esimerkiksi datan säilytysaika ja -strategiat vaihtelevat datan tyypin mukaan. Yleistäen voidaan sanoa, että luonnontieteissä ongelmana on datan määrä, yhteiskuntatieteissä ja humanistisissa tieteissä datan monimutkaisuus. Oikeanlainen metadata on keskeinen datanhallinnan väline.

Wittenburgin puheessa toistui myös sana luottamus: eri toimijoiden datan elinkaaren eri vaiheissa olisi voitava luottaa toisiinsa ja tietysti itse dataan. Tärkeää olisi myös saavuttaa laaja konsensus siitä, että arvokkaan tieteellisen datan laadukas dokumentointi, huolellinen säilyttäminen ja mahdollisimman avoin saatavuus jatkokäyttöön hyödyttävät sekä tiedeyhteisöä että yhteiskuntaa. Haasteet ovat samanlaisia tai ainakin hyvin samankaltaisia (Euroopan) eri maissa ja eri tieteenaloilla, ja ne ovat tuttuja tietoarkistotyön arjestakin.

YK:n Euroopan talouskomission UNECE:n Steven Vale tarkasteli esityksessään datanhallinnan ongelmia tilastojen tuottajan näkökulmasta. Tilastovirastojen yhteistyön helpottamiseksi ja tilastojen laadun parantamiseksi UNECE, Eurostat ja OECD:n METIS-työryhmä ovat tuottaneet tilastollisten metadatajärjestelmien perustietopaketin (the Common Metadata Framework). Paketin ehkä mielenkiintoisinta antia on tilastotuotannon yleinen prosessimalli GSPBM (Generic Statistical Business Process Model), jonka avulla voidaan vertailla, tutkia ja kehittää sekä organisaation sisäisiä että organisaatioiden välisiä prosesseja. Kuten Valekin toi esille, GSPBM:llä on huomattavia yhtäläisyyksiä DDI 3:n pohjana olevan elämänkaarimallin kanssa.

Tilastotuotanto ei yleensä etene suoraviivaisesti suunnittelusta jakeluun, joten GSPBM ole lineaarinen malli, vaan prosessimatriisi. Sen avulla voi kuvata monimutkaisiakin tilastotuotantoprosesseja. Teoreettinen GSBPM-malli ei kuitenkaan riitä; lisäksi tarvitaan muun muassa työkaluja ja metadataformaatteja. Ongelmana on, että ei ole olemassa sellaista metadatastandardia, joka kattaisi GSBPM:n kaikki prosessit. Vale heittikin pohdittavaksi ajatuksen DDI:n ja tilastotiedon siirto- ja kuvailuformaatin SDMX:n toisiaan tukevasta käytöstä prosessin eri vaiheissa.

Useamman jo olemassa olevan ja toisiaan tukevan ”täsmästandardin” käyttö kuulostaa kieltämättä järkevämmältä kuin yhden ison kaikenkattavan ja siten väistämättä hyvin monimutkaisen standardin rakentaminen.

Virallisen ohjelman jälkeen vapaamuotoinen keskustelu jatkui iltamyöhään. Tilaisuus oli käytettävä hyväksi, sillä näin suurta joukkoa tutkimusaineistojen metadatasta ja tiedonhallinnasta innostuneita eturivin asiantuntijoita tapaa vain harvoin! Seuraavassa EDDI-seminaarissa ensi syksynä Göteborgissa voimme toivottavasti esitellä tutkimusinfrastruktuuriimme kehittämiseen saamamme lisärahoituksen avulla toteutettavia parannuksia palveluihimme ja käytäntöihimme.

Mari Kleemola
Tietopalvelupäällikkö
DDI Alliance Expert Committee Vice Chair
etunimi.sukunimi [at] uta.fi

Dataintensiivinen tiede tarvitsee oikeanlaista metadataa

Ilman kuvailevaa tietoa, metadataa, sähköinen tutkimusaineisto, data, on merkityksetöntä bittimössöä. Jotta tutkimusaineistoa voidaan hyödyntää nyt ja tulevaisuudessa, tarvitaan tietoa esimerkiksi sen sisällöstä ja rakenteesta sekä mahdollisista muokkauksista ja käyttöoikeuksista. Näitä tarpeita varten eri maiden yhteiskuntatieteelliset data-arkistot kehittivät 1990-luvulla uuden monipuolisen kuvailuformaatin, DDI:n. Aluksi DDI keskittyi tutkimusaineistojen arkistointivaiheessa tarvittavaan metadataan, mutta tuorein versio, DDI 3, kattaa datan koko elinkaaren.

DDI:n käyttäjäkunta laajenee jatkuvasti. Viime vuoden joulukuussa järjestetty 2nd Annual European DDI Users Group Meeting, tuttavallisemmin EDDI, houkutteli talviseen Utrechtiin seitsemänkymmentä tutkimusaineistojen metadatan asiantuntijaa. Osallistujia oli data-arkistojen lisäksi muun muassa akateemisista tutkimusorganisaatioista, kaupallisista ohjelmistoyrityksistä, Eurostatista ja Australian tilastotoimesta. Yhteistä kaikille osallistujille oli halu hyödyntää olemassa olevien ja tulevien tietoaineistojen koko potentiaali ja tahto palvella dataa tuottavia ja käyttäviä sidosryhmiä parhaalla mahdollisella tavalla.

Tietoarkistosta meitä oli Utrechtissä kaksi: minä ja atk-erikoistutkijamme Matti Heinonen. Kaksipäiväisen seminaarin aikana ehdimme saada aimo annoksen sekä käytännön tietoa että uusia ideoita. Matti keskittyi teknisiin sessioihin, minulle jäivät ”yleisemmät teemat”. Yli kahdenkymmenen toinen toistaan paremman esityksen joukosta kiinnostavimmiksi nousivat mielestäni Peter Wittenburgin ja Steven Valen esitykset.

Max Planck -instituutin kieliarkistoa johtava Peter Wittenburg kertoi tieteellisen datan eurooppalaista e-infrastruktuuria visioineen korkean tason asiantuntijaryhmän työn tuloksista. Tämä HLEG-ryhmä luovutti lokakuussa Euroopan komissiolle loppuraporttinsa ”Riding the wave. How Europe can gain from the rising tide of scientific data”. Tiede on tällä hetkellä dataintensiivistä: tutkijat elävät suurten datamassojen keskellä ja tutkijoiden käytössä olevan datan määrä kasvaa koko ajan kaikilla tieteenaloilla. Tämä tieteen neljänneksi paradigmaksikin kutsuttu vaihe tarjoaa luonnollisesti runsaasti mahdollisuuksia, mutta esityksessään Wittenburg keskittyi haasteisiin. Datanhallinnan vaatimukset kasvavat kohisten. Esimerkiksi datan säilytysaika ja -strategiat vaihtelevat datan tyypin mukaan. Yleistäen voidaan sanoa, että luonnontieteissä ongelmana on datan määrä, yhteiskuntatieteissä ja humanistisissa tieteissä datan monimutkaisuus. Oikeanlainen metadata on keskeinen datanhallinnan väline.

Wittenburgin puheessa toistui myös sana luottamus: eri toimijoiden datan elinkaaren eri vaiheissa olisi voitava luottaa toisiinsa ja tietysti itse dataan. Tärkeää olisi myös saavuttaa laaja konsensus siitä, että arvokkaan tieteellisen datan laadukas dokumentointi, huolellinen säilyttäminen ja mahdollisimman avoin saatavuus jatkokäyttöön hyödyttävät sekä tiedeyhteisöä että yhteiskuntaa. Haasteet ovat samanlaisia tai ainakin hyvin samankaltaisia (Euroopan) eri maissa ja eri tieteenaloilla, ja ne ovat tuttuja tietoarkistotyön arjestakin.

YK:n Euroopan talouskomission UNECE:n Steven Vale tarkasteli esityksessään datanhallinnan ongelmia tilastojen tuottajan näkökulmasta. Tilastovirastojen yhteistyön helpottamiseksi ja tilastojen laadun parantamiseksi UNECE, Eurostat ja OECD:n METIS-työryhmä ovat tuottaneet tilastollisten metadatajärjestelmien perustietopaketin (the Common Metadata Framework). Paketin ehkä mielenkiintoisinta antia on tilastotuotannon yleinen prosessimalli GSPBM (Generic Statistical Business Process Model), jonka avulla voidaan vertailla, tutkia ja kehittää sekä organisaation sisäisiä että organisaatioiden välisiä prosesseja. Kuten Valekin toi esille, GSPBM:llä on huomattavia yhtäläisyyksiä DDI 3:n pohjana olevan elämänkaarimallin kanssa.

Tilastotuotanto ei yleensä etene suoraviivaisesti suunnittelusta jakeluun, joten GSPBM ole lineaarinen malli, vaan prosessimatriisi. Sen avulla voi kuvata monimutkaisiakin tilastotuotantoprosesseja. Teoreettinen GSBPM-malli ei kuitenkaan riitä; lisäksi tarvitaan muun muassa työkaluja ja metadataformaatteja. Ongelmana on, että ei ole olemassa sellaista metadatastandardia, joka kattaisi GSBPM:n kaikki prosessit. Vale heittikin pohdittavaksi ajatuksen DDI:n ja tilastotiedon siirto- ja kuvailuformaatin SDMX:n toisiaan tukevasta käytöstä prosessin eri vaiheissa.

Useamman jo olemassa olevan ja toisiaan tukevan ”täsmästandardin” käyttö kuulostaa kieltämättä järkevämmältä kuin yhden ison kaikenkattavan ja siten väistämättä hyvin monimutkaisen standardin rakentaminen.

Virallisen ohjelman jälkeen vapaamuotoinen keskustelu jatkui iltamyöhään. Tilaisuus oli käytettävä hyväksi, sillä näin suurta joukkoa tutkimusaineistojen metadatasta ja tiedonhallinnasta innostuneita eturivin asiantuntijoita tapaa vain harvoin! Seuraavassa EDDI-seminaarissa ensi syksynä Göteborgissa voimme toivottavasti esitellä tutkimusinfrastruktuuriimme kehittämiseen saamamme lisärahoituksen avulla toteutettavia parannuksia palveluihimme ja käytäntöihimme.

Mari Kleemola
Tietopalvelupäällikkö
DDI Alliance Expert Committee Vice Chair
etunimi.sukunimi [at] uta.fi