Tag Archives: tiekartta

Kehitämme kansallista datainfrastruktuuriamme Suomen Akatemian tuella ja yhteistyössä tiedeyhteisön kanssa

Tampereen yliopisto juhlisti yhdistynyttä korkeakouluyhteisöään Potentiaaleissa Tampere-talossa 24.1.2019. Osallistujille jaettiin tähtimerkkejä, joista kukin voi poimia kuvaavimman. Kun Suomen Akatemia oli vajaata viikkoa aiemmin myöntänyt Tietoarkiston rajoja ylittävälle C-BoTS-infrastruktuurihankkeelle viisivuotisen rahoituksen, minulle seitsemästä vaihtoehdosta tuntui osuvimmalta Fuusio. Se merkitsee ”potentiaalia tiederajojen yli”.1 Hauska idea, jolla on varmasti perinteistä horoskooppimerkkiä enemmän ennustearvoa.

Uudessa Tampereen yliopistossa Tietoarkisto jatkaa erillisyksikkönä valtakunnallisen palvelutehtävän hoitamista. Akatemian rahoitus on osoitettu juuri tämän tehtävän vahvistamiseen. Hankkeen suomenkielinen nimi on Rajoja ylittävät työkalut ja palvelut (C-BoTS): Tietoarkiston kansallinen datainfrastruktuuri 2024. Hankkeen kuusi työpakettia istuvat hyvin sekä kansallisella tutkimusinfrastruktuurien tiekartalla esitettyihin Tietoarkiston tavoitteisiin että Tietoarkiston strategiasuunnitelmaan, joka korostaa asiantuntevaa palvelua, yhteistyötä ja vastuullista avointa tiedettä.

Kuulostaa ylevältä, ja perinteiselle kriittiselle yhteiskuntatieteilijälle varmaankin hölynpölyltä, mutta hankkeemme on sisällöltään muuta kuin sanahelinää. Tietoarkisto on paitsi digiä suuressa määrin myös palvelua, jonka hoitamiseen tarvitaan asiantuntevia ihmisiä. Jotta asiantuntijamme voivat palvella tiedeyhteisöä ajanmukaisesti, on kehitettävä työkaluja, jotka helpottavat aineistojen käsittelyä ja arkistointia sekä muun muassa vähentävät raportointiin käytettyä työaikaa.

Tietoarkiston palveluarkkitehtuuri uudistetaan

Hankkeen laajimmassa työpaketissa keskitymme nykyisen palveluarkkitehtuurimme purkamiseen pienempiin osiin kokonaisuudeksi, joka mahdollistaa ulkopuolisten palvelujen ketterämmän hyödyntämisen. Uuden arkkitehtuurin myötä helpotamme myös pääsyä Tietoarkiston palveluihin ulkopuolelta erilaisten rajapintojen kautta.

Raportoinnin automatisoinnilla tietoa vaikuttavuudesta

C-BoTS-hanke lisää aineistoja arkistoivien tutkijoiden ja heidän taustaorganisaatioidensa näkyvyyttä tarjoamalla ajantasaista tietoa arkistoiduista aineistoista ja niiden tilastoja niiden käytöstä. Tietoarkiston käyttäjätilastot tuodaan ajantasaisina rahoittajien ja asiakkaiden saataville. Vastaavasti helpotamme uudella käyttöliittymällä jatkokäyttäjiltä vaadittavaa ladattujen aineistojen käytön ja julkaisutietojen raportointia.

Verkkokaupoista tuttuja ominaisuuksia ja koneoppimisen avulla tehokkaampia hakumahdollisuuksia

Palveluportaali Ailaan lisäämme verkkokaupoista tuttuja ominaisuuksia, kuten ostoskorin useiden aineistojen lataamiseen kerralla ja suositukset uusien ja samankaltaisten sisältöjen löytämiseen. Rakennamme muun muassa koneoppimista hyödyntävän käyttöliittymän, jonka avulla voimme tuottaa ja ylläpitää samankaltaisia muuttujia sisältäviä ryhmiä sekä käyttöliittymän, jonka avulla asiakkaamme pystyvät hakemaan muuttujia ja tutkimusaineistoja. Tampereen yliopiston signaalinkäsittelyn laboratorio tekoälyosaamisineen on tässä työpaketissa merkittävä kumppani.

Apuvälineitä anonymisointiin ja kvalitatiivisen aineiston hallintaan

Tietoarkisto on sähköisten laadullisten tutkimusaineistojen arkistoinnin pioneeri. Etenkin tekstimuotoisen kvalitatiivisen datan arkistointi on anonymisointivaatimusten vuoksi käsityövaltaista ja aikaa vievää. C-BoTS pyrkii helpottamaan anonymisointia arvioimalla olemassa olevia apuvälineitä kvalitatiivisen ja kvantitatiivisen aineiston anonymisointiin. Samalla kehitämme datan anonymisoinnin prosessiamme ja tuotamme ohjeistusta tutkijoille.

Päivitämme hankkeessa myös lähes kymmenen vuotta sitten julkaisemamme Kvalikirstu-ohjelmiston, joka on tehty helpottamaan kvalitatiivisen tekstimuotoisen aineiston arkistointia ja jatkokäyttöä. Uusi Kvalikirstu tuottaa nykyisiä pitkäaikaissäilytyksen vaatimuksia vastaavaa dataa ja tarjoaa jatkokäyttäjille helppokäyttöisen suomen- ja englanninkielisen käyttöliittymän. Se tukee nykyistä useampaa tiedostotyyppiä ja taustamuuttujien automaattista luomista.

Vertailevan tutkimuksen palvelu tekee yhteistyötä muiden tutkimusinfrastruktuurien kanssa

C-BoTS hankkeeseen kuuluu myös vertailevan tutkimuksen työpaketti, joka tukee muun muassa yhteistyötä Suomen ihmistieteiden ERICien kanssa ja osallistumista kahteen kansainvälisesti vertailevaan aineistosarjaan. Koska emme saaneet kaikkea hakemaamme rahoitusta, arvioimme tämän työpaketin sisältöä uudelleen. Erityisesti joudumme pohtimaan, millä vuosittainen International Social Survey Programme -sarjan aineistonkeruu rahoitetaan.

Me tietoarkistolaiset olemme joka tapauksessa erittäin tyytyväisiä valtakunnallisen tehtävän kehittämiseen saamastamme rahoituksesta ja ryhdymme toteuttamaan projektisuunnitelmaa, missä kotimainen yhteistyö tiedeyhteisön ja muiden avoimen tieteen toimijoiden kanssa on ensiarvoisen tärkeätä.

Samalla toivotan kaikki tervetulleiksi viettämään Tietoarkiston 20-vuotisjuhlavuotta kanssamme!

1Muut tähtimerkit olivat röntgen, tekoäly, Sokrates, terawatti, fresko ja Äiti Teresa.

Lisätietoa:

» Rahoituspäätös Suomen Akatemian sivuilla
» Suomen tutkimusinfrastruktuurien strategia ja tiekartta 2014-2020
» Tietoarkiston strategia (pdf)

Helena Laaksonen
johtaja
etunimi.sukunimi [at] tuni.fi

Tutkimusdata meriittinä

Opetus- ja kulttuuriministeriö julkisti pari viikkoa sitten tiekarttaraportin tutkimuksen sähköisten tietoaineistojen hyödyntämisestä. Siihen on koottu poikkihallinnollisen selvityshankkeen keskeiset ehdotukset alan hyvistä käytännöistä ja tietoaineistojen avoimuutta edistävistä toimenpiteistä. Aiemmin hanke oli tuottanut samaa aihepiiriä käsittelevän taustaraportin, joka luovutettiin opetusministerille vuosi sitten.

Tiekartta on laaja-alainen ja se tarjoaa hyviä polkuja ja myös konkreettisia toimenpide-ehdotuksia tutkimusdatan avoimelle saatavuudelle. Työ edellyttää laaja-alaista yhteistyötä aineistojen tuottajien ja välittäjien kesken sekä lisärahoitusta infrastruktuurien rakentamiseksi. Yksi perusongelma on. Tutkimusdatan pitkäaikaissäilytystä ja käytön avoimuutta tukevat rakenteet, välineet ja käytännöt puuttuvat edelleen lähes tyystin useilta tutkimusaloilta.

Rakenteet ovat pysyväksi tarkoitettuja organisaatioita tai järjestelyjä, joiden erityisvastuulla on tutkimusdatan elinkaaresta huolehtiminen. Välineet ovat esimerkiksi kuvailustandardeja, tietokantoja ja muita datan käytön tietoteknisiä sovelluksia, joiden avulla tutkijat löytävät ja saavat käyttöönsä haluamansa tutkimusaineistot. Käytännöt ovat puolestaan tutkimusyhteisön omaksumia toimintatapoja ja sääntöjä, tutkimuskulttuuria, joka koskee tutkimusaineistojen tekijyyttä ja avoimeen käyttöön saattamista.

Tiekartta nostaa aivan oikein yhdeksi keskeiseksi kansallisen datapolitiikan haasteeksi tutkimusaineistoihin liittyvät tieteelliset meriitit. Tältä osin tiekartta muun muassa toteaa (s. 29), että ”tutkijoiden meritoituminen tietoaineistojen tuottamisesta ja jakamisesta tulee ohjeistaa yhtenäisesti”. Vastuu olisi etenkin tutkimusrahoittajilla, kuten Suomen Akatemialla ja Tekesillä.

Olen itse meritoitumisen yleisestä merkityksestä samaa mieltä, mutta ohjeistamalla asia tuskin ratkeaa. Vastuu käytäntöjen muuttumisesta on myös tutkimusyhteisöllä ja laajasti kaikilla tutkimusta rahoittavilla tahoilla, kuten tutkimusinfrastruktuurirahoituksesta päävastuullisilla ministeriöillä. Tutkimusaineistoihin liittyvä meritoituminen on erinomainen esimerkki osoittamaan alan nykyisiä pullonkauloja.

Kyllä – tutkimusdatan tuottajien pitäisi saattaa datansa tutkimusyhteisön avoimeen käyttöön viimeistään hankkeittensa päätyttyä. Tämä ei välttämättä onnistu sormea napsauttamalla, vaikka tahtoa riittäisikin. Aineiston koonneen ryhmän tulee ensin kyetä sopimaan, kenen nimet ja missä järjestyksessä julkaistavaan aineistoon merkitään tekijöiksi ja kuka tai ketkä vastaavat aineiston jatkokäyttökuntoon saattamisesta.

Datan asianmukainen julkaiseminen puolestaan edellyttää datan kuvailun ja viittaustietojen vaatimia standardeja, jollaisia on valmiina vain harvoilla aloilla. Lisäksi datan julkaiseminen edellyttää sekä aineiston että sen keränneen hankkeen perustietojen kuvailua ja aina jonkin verran myös tutkimusaineiston muokkausta. Tämä vaatii aikaa ja työtä, joka ei läheskään kaikilla aloilla ole siirrettävissä olemassa olevan data-arkiston kontolle.

Lisäksi sekä tutkimusaineiston pitkäaikaissäilytys että sen jatkokäyttö muodostavat omat kokonaisuutensa meriitin muodostumisessa. Julkaistut datat saavat hyvää lisänäkyvyyttä avoimissa aineistotietokannoissa. Esimerkiksi Yhteiskuntatieteellinen tietoarkisto kääntää suomenkielisten aineistojen kuvailut englanniksi ja sijoittaa ne sitten avoimiin, kansainvälisiin datatietokantoihin. Näin ulkomaiset tutkijat pääsevät käyttämään suomalaisia tutkimusaineistoja, joista heillä ei muutoin olisi tietoa.

Luovuttaessaan arkistoituja data-aineistoja jatkokäyttöön tietoarkisto antaa niille viittaustiedon ja -ohjeet, joita jatkokäyttäjän tulee noudattaa. Tätä kautta aineistot ja niiden tekijät tulevat viitatuiksi tavanomaisin tieteellisin referenssein. Runsaassa jatkokäytössä olevat tutkimusaineistot ovat merkittävä meriitti alkuperäisille kokoajille, koska silloin toisten kokoama data on laajasti hyödyllistä tiedeyhteisölle.

Asianmukaisin standardein kuvailtu ja julkaistu tutkimusaineisto on tekijöilleen tieteellinen meriitti, jonka voi ilmoittaa ansioluettelossa. Tiedeyhteisön yhteiseen ja avoimeen käyttöön avatut datat mahdollistavat tieteen itsensäkorjaavuutta ja lisäävät sen yleistä luotettavuutta. Siksi nyt valmistuneen tiekartan toimenpide-ehdotukset pitää ottaa vakavasti.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Tutkimusdata meriittinä

Opetus- ja kulttuuriministeriö julkisti pari viikkoa sitten tiekarttaraportin tutkimuksen sähköisten tietoaineistojen hyödyntämisestä. Siihen on koottu poikkihallinnollisen selvityshankkeen keskeiset ehdotukset alan hyvistä käytännöistä ja tietoaineistojen avoimuutta edistävistä toimenpiteistä. Aiemmin hanke oli tuottanut samaa aihepiiriä käsittelevän taustaraportin, joka luovutettiin opetusministerille vuosi sitten.

Tiekartta on laaja-alainen ja se tarjoaa hyviä polkuja ja myös konkreettisia toimenpide-ehdotuksia tutkimusdatan avoimelle saatavuudelle. Työ edellyttää laaja-alaista yhteistyötä aineistojen tuottajien ja välittäjien kesken sekä lisärahoitusta infrastruktuurien rakentamiseksi. Yksi perusongelma on. Tutkimusdatan pitkäaikaissäilytystä ja käytön avoimuutta tukevat rakenteet, välineet ja käytännöt puuttuvat edelleen lähes tyystin useilta tutkimusaloilta.

Rakenteet ovat pysyväksi tarkoitettuja organisaatioita tai järjestelyjä, joiden erityisvastuulla on tutkimusdatan elinkaaresta huolehtiminen. Välineet ovat esimerkiksi kuvailustandardeja, tietokantoja ja muita datan käytön tietoteknisiä sovelluksia, joiden avulla tutkijat löytävät ja saavat käyttöönsä haluamansa tutkimusaineistot. Käytännöt ovat puolestaan tutkimusyhteisön omaksumia toimintatapoja ja sääntöjä, tutkimuskulttuuria, joka koskee tutkimusaineistojen tekijyyttä ja avoimeen käyttöön saattamista.

Tiekartta nostaa aivan oikein yhdeksi keskeiseksi kansallisen datapolitiikan haasteeksi tutkimusaineistoihin liittyvät tieteelliset meriitit. Tältä osin tiekartta muun muassa toteaa (s. 29), että ”tutkijoiden meritoituminen tietoaineistojen tuottamisesta ja jakamisesta tulee ohjeistaa yhtenäisesti”. Vastuu olisi etenkin tutkimusrahoittajilla, kuten Suomen Akatemialla ja Tekesillä.

Olen itse meritoitumisen yleisestä merkityksestä samaa mieltä, mutta ohjeistamalla asia tuskin ratkeaa. Vastuu käytäntöjen muuttumisesta on myös tutkimusyhteisöllä ja laajasti kaikilla tutkimusta rahoittavilla tahoilla, kuten tutkimusinfrastruktuurirahoituksesta päävastuullisilla ministeriöillä. Tutkimusaineistoihin liittyvä meritoituminen on erinomainen esimerkki osoittamaan alan nykyisiä pullonkauloja.

Kyllä – tutkimusdatan tuottajien pitäisi saattaa datansa tutkimusyhteisön avoimeen käyttöön viimeistään hankkeittensa päätyttyä. Tämä ei välttämättä onnistu sormea napsauttamalla, vaikka tahtoa riittäisikin. Aineiston koonneen ryhmän tulee ensin kyetä sopimaan, kenen nimet ja missä järjestyksessä julkaistavaan aineistoon merkitään tekijöiksi ja kuka tai ketkä vastaavat aineiston jatkokäyttökuntoon saattamisesta.

Datan asianmukainen julkaiseminen puolestaan edellyttää datan kuvailun ja viittaustietojen vaatimia standardeja, jollaisia on valmiina vain harvoilla aloilla. Lisäksi datan julkaiseminen edellyttää sekä aineiston että sen keränneen hankkeen perustietojen kuvailua ja aina jonkin verran myös tutkimusaineiston muokkausta. Tämä vaatii aikaa ja työtä, joka ei läheskään kaikilla aloilla ole siirrettävissä olemassa olevan data-arkiston kontolle.

Lisäksi sekä tutkimusaineiston pitkäaikaissäilytys että sen jatkokäyttö muodostavat omat kokonaisuutensa meriitin muodostumisessa. Julkaistut datat saavat hyvää lisänäkyvyyttä avoimissa aineistotietokannoissa. Esimerkiksi Yhteiskuntatieteellinen tietoarkisto kääntää suomenkielisten aineistojen kuvailut englanniksi ja sijoittaa ne sitten avoimiin, kansainvälisiin datatietokantoihin. Näin ulkomaiset tutkijat pääsevät käyttämään suomalaisia tutkimusaineistoja, joista heillä ei muutoin olisi tietoa.

Luovuttaessaan arkistoituja data-aineistoja jatkokäyttöön tietoarkisto antaa niille viittaustiedon ja -ohjeet, joita jatkokäyttäjän tulee noudattaa. Tätä kautta aineistot ja niiden tekijät tulevat viitatuiksi tavanomaisin tieteellisin referenssein. Runsaassa jatkokäytössä olevat tutkimusaineistot ovat merkittävä meriitti alkuperäisille kokoajille, koska silloin toisten kokoama data on laajasti hyödyllistä tiedeyhteisölle.

Asianmukaisin standardein kuvailtu ja julkaistu tutkimusaineisto on tekijöilleen tieteellinen meriitti, jonka voi ilmoittaa ansioluettelossa. Tiedeyhteisön yhteiseen ja avoimeen käyttöön avatut datat mahdollistavat tieteen itsensäkorjaavuutta ja lisäävät sen yleistä luotettavuutta. Siksi nyt valmistuneen tiekartan toimenpide-ehdotukset pitää ottaa vakavasti.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi