Tag Archives: tutkimusinfrastruktuurit

Nimellä on väliä

Kun tietoarkistoa perustettiin 1990-luvun lopulla, yksikön nimestä keskusteltiin aika pitkään. Hankkeen vireille pannut Suomen Akatemian tietoarkistotyöryhmä käytti omassa loppuraportissaan vuonna 1996 nimitystä Yhteiskuntatieteellinen tietoarkisto kansainvälisen mallin mukaan suomennettuna. Nimi ei muuttunut, vaikka pari vuotta myöhemmin, aivan toiminnan aloittamisen kynnyksellä asiaa vielä harkittiin perusteellisesti.

Suurin osa vastaavista eurooppalaisista kansallisista organisaatioista käyttää englanninkielisissä nimissään termiä social science data archive. Kun kerran data computerkin aikoinaan suomennettiin ja vakiintui tietokoneeksi, sana tietoarkisto tuntui osuvalta. Lyhenne FSD tuli puolestaan pohjoismaisen lyhennekäytännön pohjalta. Se toimii englanniksi (Finnish Social Science Data Archive) ja vielä paremmin ruotsiksi (Finlands samhällsvetenskapliga dataarkiv). Ruotsissa toimi tuohon aikaa SSD ja Norjassa palvelee edelleen NSD.

Suomessa tietoarkisto on nyt alallaan tunnettu toimija ja sen nimi on vakiintunut. Se ei silti tarkoita, ettei nimen kanssa olisi ollut ja olisi edelleen haasteita. Kokemus on osoittanut, että pitkää nimeä ja myös lyhennettä on saanut selitellä paljon.

Ulkoisessa tiedottamisessa nimi aiheutti pikkuongelmia varsinkin toiminnan alkuvaiheessa. Moni puhui Tampereen yliopiston yhteiskuntatieteellisestä tietoarkistosta. Pulmana oli, että toimintamme oli määritelty valtakunnalliseksi. Perustettaessa suomenkieliseen nimeemme ei yksinkertaisuuden vuoksi haluttu Suomea mukaan, mutta väärien mielikuvien välttämiseksi sovimme runsas vuosi sitten yliopiston kanssa, että voimme tarvittaessa käyttää myös nimeä Suomen yhteiskuntatieteellinen tietoarkisto.

Oma operettinsa on, että pitkät sanat luritellaan usein väärin. Joskus olemme olleet muiden suulla yhteiskuntatieteiden ja joskus yhteiskunnallinen tietoarkisto. Nämäkin ovat onneksi vähäisiä ongelmia.

Isoin sisällöllinen kysymys tietoarkiston nykyisessä nimessä koskee toiminnan alaa. ’Yhteiskuntatieteellinen’ on muodostumassa tietoarkistolle vähitellen turhan suppeaksi toimintakentäksi, koska palvelut ovat laajentuneet ja laajentumassa entistä monipuolisemmin kulttuurin ja yhteiskunnan tutkimuksen aloille. Yliopistojen valtiotieteellisissä ja sosiaali- tai yhteiskuntatieteellisissä tiedekunnissa toimivat oppiaineet ovat mieltäneet tietoarkiston palvelut omikseen, mutta nyt palveluja on ryhdytty suuntamaan myös lähitieteisiin, kuten kasvatustieteisiin, psykologiaan, terveystieteisiin, kulttuurin tutkimukseen, historian tutkimukseen ja muille humanistisille aloille. Kultainen kysymys kuuluu, mieltävätkö nämä tieteenalat tietoarkiston palvelut omikseen, jos nimi pysyy Yhteiskuntatieteellisenä tietoarkistona.

Tähän kysymykseen ei löydy vastausta apteekin hyllyltä. Monet ulkomaiset sisararkistomme ovat vastaavassa tilanteessa lievittäneet samaa ongelmaa innovoimalla uusille palveluille mahdollisimman sopivia nimiä muuttamatta oman organisaationsa nimeä. Esimerkiksi Yhdysvalloissa alamme suurin toimija ICPSR on oman nimensä puolesta edelleen politiikan tutkimuksen ja sosiaalitutkimuksen kansainvälinen konsortio. Sen palvelukonseptissa on kuitenkin kymmeniä portaalihankkeita, jotka on nimetty yksittäisten, tuttujen tieteenalojen mukaan.

Tuollainen lähestymistapa voisi hyvin toimia myös Suomessa. Toinen mahdollisuus olisi toiminnan alaa laajentava nimenmuutos, josta pitäisi tietenkin neuvotella toiminnan päärahoittajien ja tärkeimpien sidosryhmien kanssa. Tähänkin vaihtoehtoon löytyy esimerkki rapakon tuolta puolen, tosin kyse on vähän pienemmästä lätäköstä. Ruotsissa tutkimusinfrastruktuurien kehittämistä koordinoiva toimielin johti hanketta, jossa yhteiskuntatieteitä palvellut SSD muuttui SND:ksi (Svenska nationell datatjänst), joka palvelee myös humanistisia aloja sekä terveys- ja lääketieteitä.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Tutkimusdata meriittinä

Opetus- ja kulttuuriministeriö julkisti pari viikkoa sitten tiekarttaraportin tutkimuksen sähköisten tietoaineistojen hyödyntämisestä. Siihen on koottu poikkihallinnollisen selvityshankkeen keskeiset ehdotukset alan hyvistä käytännöistä ja tietoaineistojen avoimuutta edistävistä toimenpiteistä. Aiemmin hanke oli tuottanut samaa aihepiiriä käsittelevän taustaraportin, joka luovutettiin opetusministerille vuosi sitten.

Tiekartta on laaja-alainen ja se tarjoaa hyviä polkuja ja myös konkreettisia toimenpide-ehdotuksia tutkimusdatan avoimelle saatavuudelle. Työ edellyttää laaja-alaista yhteistyötä aineistojen tuottajien ja välittäjien kesken sekä lisärahoitusta infrastruktuurien rakentamiseksi. Yksi perusongelma on. Tutkimusdatan pitkäaikaissäilytystä ja käytön avoimuutta tukevat rakenteet, välineet ja käytännöt puuttuvat edelleen lähes tyystin useilta tutkimusaloilta.

Rakenteet ovat pysyväksi tarkoitettuja organisaatioita tai järjestelyjä, joiden erityisvastuulla on tutkimusdatan elinkaaresta huolehtiminen. Välineet ovat esimerkiksi kuvailustandardeja, tietokantoja ja muita datan käytön tietoteknisiä sovelluksia, joiden avulla tutkijat löytävät ja saavat käyttöönsä haluamansa tutkimusaineistot. Käytännöt ovat puolestaan tutkimusyhteisön omaksumia toimintatapoja ja sääntöjä, tutkimuskulttuuria, joka koskee tutkimusaineistojen tekijyyttä ja avoimeen käyttöön saattamista.

Tiekartta nostaa aivan oikein yhdeksi keskeiseksi kansallisen datapolitiikan haasteeksi tutkimusaineistoihin liittyvät tieteelliset meriitit. Tältä osin tiekartta muun muassa toteaa (s. 29), että ”tutkijoiden meritoituminen tietoaineistojen tuottamisesta ja jakamisesta tulee ohjeistaa yhtenäisesti”. Vastuu olisi etenkin tutkimusrahoittajilla, kuten Suomen Akatemialla ja Tekesillä.

Olen itse meritoitumisen yleisestä merkityksestä samaa mieltä, mutta ohjeistamalla asia tuskin ratkeaa. Vastuu käytäntöjen muuttumisesta on myös tutkimusyhteisöllä ja laajasti kaikilla tutkimusta rahoittavilla tahoilla, kuten tutkimusinfrastruktuurirahoituksesta päävastuullisilla ministeriöillä. Tutkimusaineistoihin liittyvä meritoituminen on erinomainen esimerkki osoittamaan alan nykyisiä pullonkauloja.

Kyllä – tutkimusdatan tuottajien pitäisi saattaa datansa tutkimusyhteisön avoimeen käyttöön viimeistään hankkeittensa päätyttyä. Tämä ei välttämättä onnistu sormea napsauttamalla, vaikka tahtoa riittäisikin. Aineiston koonneen ryhmän tulee ensin kyetä sopimaan, kenen nimet ja missä järjestyksessä julkaistavaan aineistoon merkitään tekijöiksi ja kuka tai ketkä vastaavat aineiston jatkokäyttökuntoon saattamisesta.

Datan asianmukainen julkaiseminen puolestaan edellyttää datan kuvailun ja viittaustietojen vaatimia standardeja, jollaisia on valmiina vain harvoilla aloilla. Lisäksi datan julkaiseminen edellyttää sekä aineiston että sen keränneen hankkeen perustietojen kuvailua ja aina jonkin verran myös tutkimusaineiston muokkausta. Tämä vaatii aikaa ja työtä, joka ei läheskään kaikilla aloilla ole siirrettävissä olemassa olevan data-arkiston kontolle.

Lisäksi sekä tutkimusaineiston pitkäaikaissäilytys että sen jatkokäyttö muodostavat omat kokonaisuutensa meriitin muodostumisessa. Julkaistut datat saavat hyvää lisänäkyvyyttä avoimissa aineistotietokannoissa. Esimerkiksi Yhteiskuntatieteellinen tietoarkisto kääntää suomenkielisten aineistojen kuvailut englanniksi ja sijoittaa ne sitten avoimiin, kansainvälisiin datatietokantoihin. Näin ulkomaiset tutkijat pääsevät käyttämään suomalaisia tutkimusaineistoja, joista heillä ei muutoin olisi tietoa.

Luovuttaessaan arkistoituja data-aineistoja jatkokäyttöön tietoarkisto antaa niille viittaustiedon ja -ohjeet, joita jatkokäyttäjän tulee noudattaa. Tätä kautta aineistot ja niiden tekijät tulevat viitatuiksi tavanomaisin tieteellisin referenssein. Runsaassa jatkokäytössä olevat tutkimusaineistot ovat merkittävä meriitti alkuperäisille kokoajille, koska silloin toisten kokoama data on laajasti hyödyllistä tiedeyhteisölle.

Asianmukaisin standardein kuvailtu ja julkaistu tutkimusaineisto on tekijöilleen tieteellinen meriitti, jonka voi ilmoittaa ansioluettelossa. Tiedeyhteisön yhteiseen ja avoimeen käyttöön avatut datat mahdollistavat tieteen itsensäkorjaavuutta ja lisäävät sen yleistä luotettavuutta. Siksi nyt valmistuneen tiekartan toimenpide-ehdotukset pitää ottaa vakavasti.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Tutkimusdata meriittinä

Opetus- ja kulttuuriministeriö julkisti pari viikkoa sitten tiekarttaraportin tutkimuksen sähköisten tietoaineistojen hyödyntämisestä. Siihen on koottu poikkihallinnollisen selvityshankkeen keskeiset ehdotukset alan hyvistä käytännöistä ja tietoaineistojen avoimuutta edistävistä toimenpiteistä. Aiemmin hanke oli tuottanut samaa aihepiiriä käsittelevän taustaraportin, joka luovutettiin opetusministerille vuosi sitten.

Tiekartta on laaja-alainen ja se tarjoaa hyviä polkuja ja myös konkreettisia toimenpide-ehdotuksia tutkimusdatan avoimelle saatavuudelle. Työ edellyttää laaja-alaista yhteistyötä aineistojen tuottajien ja välittäjien kesken sekä lisärahoitusta infrastruktuurien rakentamiseksi. Yksi perusongelma on. Tutkimusdatan pitkäaikaissäilytystä ja käytön avoimuutta tukevat rakenteet, välineet ja käytännöt puuttuvat edelleen lähes tyystin useilta tutkimusaloilta.

Rakenteet ovat pysyväksi tarkoitettuja organisaatioita tai järjestelyjä, joiden erityisvastuulla on tutkimusdatan elinkaaresta huolehtiminen. Välineet ovat esimerkiksi kuvailustandardeja, tietokantoja ja muita datan käytön tietoteknisiä sovelluksia, joiden avulla tutkijat löytävät ja saavat käyttöönsä haluamansa tutkimusaineistot. Käytännöt ovat puolestaan tutkimusyhteisön omaksumia toimintatapoja ja sääntöjä, tutkimuskulttuuria, joka koskee tutkimusaineistojen tekijyyttä ja avoimeen käyttöön saattamista.

Tiekartta nostaa aivan oikein yhdeksi keskeiseksi kansallisen datapolitiikan haasteeksi tutkimusaineistoihin liittyvät tieteelliset meriitit. Tältä osin tiekartta muun muassa toteaa (s. 29), että ”tutkijoiden meritoituminen tietoaineistojen tuottamisesta ja jakamisesta tulee ohjeistaa yhtenäisesti”. Vastuu olisi etenkin tutkimusrahoittajilla, kuten Suomen Akatemialla ja Tekesillä.

Olen itse meritoitumisen yleisestä merkityksestä samaa mieltä, mutta ohjeistamalla asia tuskin ratkeaa. Vastuu käytäntöjen muuttumisesta on myös tutkimusyhteisöllä ja laajasti kaikilla tutkimusta rahoittavilla tahoilla, kuten tutkimusinfrastruktuurirahoituksesta päävastuullisilla ministeriöillä. Tutkimusaineistoihin liittyvä meritoituminen on erinomainen esimerkki osoittamaan alan nykyisiä pullonkauloja.

Kyllä – tutkimusdatan tuottajien pitäisi saattaa datansa tutkimusyhteisön avoimeen käyttöön viimeistään hankkeittensa päätyttyä. Tämä ei välttämättä onnistu sormea napsauttamalla, vaikka tahtoa riittäisikin. Aineiston koonneen ryhmän tulee ensin kyetä sopimaan, kenen nimet ja missä järjestyksessä julkaistavaan aineistoon merkitään tekijöiksi ja kuka tai ketkä vastaavat aineiston jatkokäyttökuntoon saattamisesta.

Datan asianmukainen julkaiseminen puolestaan edellyttää datan kuvailun ja viittaustietojen vaatimia standardeja, jollaisia on valmiina vain harvoilla aloilla. Lisäksi datan julkaiseminen edellyttää sekä aineiston että sen keränneen hankkeen perustietojen kuvailua ja aina jonkin verran myös tutkimusaineiston muokkausta. Tämä vaatii aikaa ja työtä, joka ei läheskään kaikilla aloilla ole siirrettävissä olemassa olevan data-arkiston kontolle.

Lisäksi sekä tutkimusaineiston pitkäaikaissäilytys että sen jatkokäyttö muodostavat omat kokonaisuutensa meriitin muodostumisessa. Julkaistut datat saavat hyvää lisänäkyvyyttä avoimissa aineistotietokannoissa. Esimerkiksi Yhteiskuntatieteellinen tietoarkisto kääntää suomenkielisten aineistojen kuvailut englanniksi ja sijoittaa ne sitten avoimiin, kansainvälisiin datatietokantoihin. Näin ulkomaiset tutkijat pääsevät käyttämään suomalaisia tutkimusaineistoja, joista heillä ei muutoin olisi tietoa.

Luovuttaessaan arkistoituja data-aineistoja jatkokäyttöön tietoarkisto antaa niille viittaustiedon ja -ohjeet, joita jatkokäyttäjän tulee noudattaa. Tätä kautta aineistot ja niiden tekijät tulevat viitatuiksi tavanomaisin tieteellisin referenssein. Runsaassa jatkokäytössä olevat tutkimusaineistot ovat merkittävä meriitti alkuperäisille kokoajille, koska silloin toisten kokoama data on laajasti hyödyllistä tiedeyhteisölle.

Asianmukaisin standardein kuvailtu ja julkaistu tutkimusaineisto on tekijöilleen tieteellinen meriitti, jonka voi ilmoittaa ansioluettelossa. Tiedeyhteisön yhteiseen ja avoimeen käyttöön avatut datat mahdollistavat tieteen itsensäkorjaavuutta ja lisäävät sen yleistä luotettavuutta. Siksi nyt valmistuneen tiekartan toimenpide-ehdotukset pitää ottaa vakavasti.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Dataintensiivinen tiede tarvitsee oikeanlaista metadataa

Ilman kuvailevaa tietoa, metadataa, sähköinen tutkimusaineisto, data, on merkityksetöntä bittimössöä. Jotta tutkimusaineistoa voidaan hyödyntää nyt ja tulevaisuudessa, tarvitaan tietoa esimerkiksi sen sisällöstä ja rakenteesta sekä mahdollisista muokkauksista ja käyttöoikeuksista. Näitä tarpeita varten eri maiden yhteiskuntatieteelliset data-arkistot kehittivät 1990-luvulla uuden monipuolisen kuvailuformaatin, DDI:n. Aluksi DDI keskittyi tutkimusaineistojen arkistointivaiheessa tarvittavaan metadataan, mutta tuorein versio, DDI 3, kattaa datan koko elinkaaren.

DDI:n käyttäjäkunta laajenee jatkuvasti. Viime vuoden joulukuussa järjestetty 2nd Annual European DDI Users Group Meeting, tuttavallisemmin EDDI, houkutteli talviseen Utrechtiin seitsemänkymmentä tutkimusaineistojen metadatan asiantuntijaa. Osallistujia oli data-arkistojen lisäksi muun muassa akateemisista tutkimusorganisaatioista, kaupallisista ohjelmistoyrityksistä, Eurostatista ja Australian tilastotoimesta. Yhteistä kaikille osallistujille oli halu hyödyntää olemassa olevien ja tulevien tietoaineistojen koko potentiaali ja tahto palvella dataa tuottavia ja käyttäviä sidosryhmiä parhaalla mahdollisella tavalla.

Tietoarkistosta meitä oli Utrechtissä kaksi: minä ja atk-erikoistutkijamme Matti Heinonen. Kaksipäiväisen seminaarin aikana ehdimme saada aimo annoksen sekä käytännön tietoa että uusia ideoita. Matti keskittyi teknisiin sessioihin, minulle jäivät ”yleisemmät teemat”. Yli kahdenkymmenen toinen toistaan paremman esityksen joukosta kiinnostavimmiksi nousivat mielestäni Peter Wittenburgin ja Steven Valen esitykset.

Max Planck -instituutin kieliarkistoa johtava Peter Wittenburg kertoi tieteellisen datan eurooppalaista e-infrastruktuuria visioineen korkean tason asiantuntijaryhmän työn tuloksista. Tämä HLEG-ryhmä luovutti lokakuussa Euroopan komissiolle loppuraporttinsa ”Riding the wave. How Europe can gain from the rising tide of scientific data”. Tiede on tällä hetkellä dataintensiivistä: tutkijat elävät suurten datamassojen keskellä ja tutkijoiden käytössä olevan datan määrä kasvaa koko ajan kaikilla tieteenaloilla. Tämä tieteen neljänneksi paradigmaksikin kutsuttu vaihe tarjoaa luonnollisesti runsaasti mahdollisuuksia, mutta esityksessään Wittenburg keskittyi haasteisiin. Datanhallinnan vaatimukset kasvavat kohisten. Esimerkiksi datan säilytysaika ja -strategiat vaihtelevat datan tyypin mukaan. Yleistäen voidaan sanoa, että luonnontieteissä ongelmana on datan määrä, yhteiskuntatieteissä ja humanistisissa tieteissä datan monimutkaisuus. Oikeanlainen metadata on keskeinen datanhallinnan väline.

Wittenburgin puheessa toistui myös sana luottamus: eri toimijoiden datan elinkaaren eri vaiheissa olisi voitava luottaa toisiinsa ja tietysti itse dataan. Tärkeää olisi myös saavuttaa laaja konsensus siitä, että arvokkaan tieteellisen datan laadukas dokumentointi, huolellinen säilyttäminen ja mahdollisimman avoin saatavuus jatkokäyttöön hyödyttävät sekä tiedeyhteisöä että yhteiskuntaa. Haasteet ovat samanlaisia tai ainakin hyvin samankaltaisia (Euroopan) eri maissa ja eri tieteenaloilla, ja ne ovat tuttuja tietoarkistotyön arjestakin.

YK:n Euroopan talouskomission UNECE:n Steven Vale tarkasteli esityksessään datanhallinnan ongelmia tilastojen tuottajan näkökulmasta. Tilastovirastojen yhteistyön helpottamiseksi ja tilastojen laadun parantamiseksi UNECE, Eurostat ja OECD:n METIS-työryhmä ovat tuottaneet tilastollisten metadatajärjestelmien perustietopaketin (the Common Metadata Framework). Paketin ehkä mielenkiintoisinta antia on tilastotuotannon yleinen prosessimalli GSPBM (Generic Statistical Business Process Model), jonka avulla voidaan vertailla, tutkia ja kehittää sekä organisaation sisäisiä että organisaatioiden välisiä prosesseja. Kuten Valekin toi esille, GSPBM:llä on huomattavia yhtäläisyyksiä DDI 3:n pohjana olevan elämänkaarimallin kanssa.

Tilastotuotanto ei yleensä etene suoraviivaisesti suunnittelusta jakeluun, joten GSPBM ole lineaarinen malli, vaan prosessimatriisi. Sen avulla voi kuvata monimutkaisiakin tilastotuotantoprosesseja. Teoreettinen GSBPM-malli ei kuitenkaan riitä; lisäksi tarvitaan muun muassa työkaluja ja metadataformaatteja. Ongelmana on, että ei ole olemassa sellaista metadatastandardia, joka kattaisi GSBPM:n kaikki prosessit. Vale heittikin pohdittavaksi ajatuksen DDI:n ja tilastotiedon siirto- ja kuvailuformaatin SDMX:n toisiaan tukevasta käytöstä prosessin eri vaiheissa.

Useamman jo olemassa olevan ja toisiaan tukevan ”täsmästandardin” käyttö kuulostaa kieltämättä järkevämmältä kuin yhden ison kaikenkattavan ja siten väistämättä hyvin monimutkaisen standardin rakentaminen.

Virallisen ohjelman jälkeen vapaamuotoinen keskustelu jatkui iltamyöhään. Tilaisuus oli käytettävä hyväksi, sillä näin suurta joukkoa tutkimusaineistojen metadatasta ja tiedonhallinnasta innostuneita eturivin asiantuntijoita tapaa vain harvoin! Seuraavassa EDDI-seminaarissa ensi syksynä Göteborgissa voimme toivottavasti esitellä tutkimusinfrastruktuuriimme kehittämiseen saamamme lisärahoituksen avulla toteutettavia parannuksia palveluihimme ja käytäntöihimme.

Mari Kleemola
Tietopalvelupäällikkö
DDI Alliance Expert Committee Vice Chair
etunimi.sukunimi [at] uta.fi

Dataintensiivinen tiede tarvitsee oikeanlaista metadataa

Ilman kuvailevaa tietoa, metadataa, sähköinen tutkimusaineisto, data, on merkityksetöntä bittimössöä. Jotta tutkimusaineistoa voidaan hyödyntää nyt ja tulevaisuudessa, tarvitaan tietoa esimerkiksi sen sisällöstä ja rakenteesta sekä mahdollisista muokkauksista ja käyttöoikeuksista. Näitä tarpeita varten eri maiden yhteiskuntatieteelliset data-arkistot kehittivät 1990-luvulla uuden monipuolisen kuvailuformaatin, DDI:n. Aluksi DDI keskittyi tutkimusaineistojen arkistointivaiheessa tarvittavaan metadataan, mutta tuorein versio, DDI 3, kattaa datan koko elinkaaren.

DDI:n käyttäjäkunta laajenee jatkuvasti. Viime vuoden joulukuussa järjestetty 2nd Annual European DDI Users Group Meeting, tuttavallisemmin EDDI, houkutteli talviseen Utrechtiin seitsemänkymmentä tutkimusaineistojen metadatan asiantuntijaa. Osallistujia oli data-arkistojen lisäksi muun muassa akateemisista tutkimusorganisaatioista, kaupallisista ohjelmistoyrityksistä, Eurostatista ja Australian tilastotoimesta. Yhteistä kaikille osallistujille oli halu hyödyntää olemassa olevien ja tulevien tietoaineistojen koko potentiaali ja tahto palvella dataa tuottavia ja käyttäviä sidosryhmiä parhaalla mahdollisella tavalla.

Tietoarkistosta meitä oli Utrechtissä kaksi: minä ja atk-erikoistutkijamme Matti Heinonen. Kaksipäiväisen seminaarin aikana ehdimme saada aimo annoksen sekä käytännön tietoa että uusia ideoita. Matti keskittyi teknisiin sessioihin, minulle jäivät ”yleisemmät teemat”. Yli kahdenkymmenen toinen toistaan paremman esityksen joukosta kiinnostavimmiksi nousivat mielestäni Peter Wittenburgin ja Steven Valen esitykset.

Max Planck -instituutin kieliarkistoa johtava Peter Wittenburg kertoi tieteellisen datan eurooppalaista e-infrastruktuuria visioineen korkean tason asiantuntijaryhmän työn tuloksista. Tämä HLEG-ryhmä luovutti lokakuussa Euroopan komissiolle loppuraporttinsa ”Riding the wave. How Europe can gain from the rising tide of scientific data”. Tiede on tällä hetkellä dataintensiivistä: tutkijat elävät suurten datamassojen keskellä ja tutkijoiden käytössä olevan datan määrä kasvaa koko ajan kaikilla tieteenaloilla. Tämä tieteen neljänneksi paradigmaksikin kutsuttu vaihe tarjoaa luonnollisesti runsaasti mahdollisuuksia, mutta esityksessään Wittenburg keskittyi haasteisiin. Datanhallinnan vaatimukset kasvavat kohisten. Esimerkiksi datan säilytysaika ja -strategiat vaihtelevat datan tyypin mukaan. Yleistäen voidaan sanoa, että luonnontieteissä ongelmana on datan määrä, yhteiskuntatieteissä ja humanistisissa tieteissä datan monimutkaisuus. Oikeanlainen metadata on keskeinen datanhallinnan väline.

Wittenburgin puheessa toistui myös sana luottamus: eri toimijoiden datan elinkaaren eri vaiheissa olisi voitava luottaa toisiinsa ja tietysti itse dataan. Tärkeää olisi myös saavuttaa laaja konsensus siitä, että arvokkaan tieteellisen datan laadukas dokumentointi, huolellinen säilyttäminen ja mahdollisimman avoin saatavuus jatkokäyttöön hyödyttävät sekä tiedeyhteisöä että yhteiskuntaa. Haasteet ovat samanlaisia tai ainakin hyvin samankaltaisia (Euroopan) eri maissa ja eri tieteenaloilla, ja ne ovat tuttuja tietoarkistotyön arjestakin.

YK:n Euroopan talouskomission UNECE:n Steven Vale tarkasteli esityksessään datanhallinnan ongelmia tilastojen tuottajan näkökulmasta. Tilastovirastojen yhteistyön helpottamiseksi ja tilastojen laadun parantamiseksi UNECE, Eurostat ja OECD:n METIS-työryhmä ovat tuottaneet tilastollisten metadatajärjestelmien perustietopaketin (the Common Metadata Framework). Paketin ehkä mielenkiintoisinta antia on tilastotuotannon yleinen prosessimalli GSPBM (Generic Statistical Business Process Model), jonka avulla voidaan vertailla, tutkia ja kehittää sekä organisaation sisäisiä että organisaatioiden välisiä prosesseja. Kuten Valekin toi esille, GSPBM:llä on huomattavia yhtäläisyyksiä DDI 3:n pohjana olevan elämänkaarimallin kanssa.

Tilastotuotanto ei yleensä etene suoraviivaisesti suunnittelusta jakeluun, joten GSPBM ole lineaarinen malli, vaan prosessimatriisi. Sen avulla voi kuvata monimutkaisiakin tilastotuotantoprosesseja. Teoreettinen GSBPM-malli ei kuitenkaan riitä; lisäksi tarvitaan muun muassa työkaluja ja metadataformaatteja. Ongelmana on, että ei ole olemassa sellaista metadatastandardia, joka kattaisi GSBPM:n kaikki prosessit. Vale heittikin pohdittavaksi ajatuksen DDI:n ja tilastotiedon siirto- ja kuvailuformaatin SDMX:n toisiaan tukevasta käytöstä prosessin eri vaiheissa.

Useamman jo olemassa olevan ja toisiaan tukevan ”täsmästandardin” käyttö kuulostaa kieltämättä järkevämmältä kuin yhden ison kaikenkattavan ja siten väistämättä hyvin monimutkaisen standardin rakentaminen.

Virallisen ohjelman jälkeen vapaamuotoinen keskustelu jatkui iltamyöhään. Tilaisuus oli käytettävä hyväksi, sillä näin suurta joukkoa tutkimusaineistojen metadatasta ja tiedonhallinnasta innostuneita eturivin asiantuntijoita tapaa vain harvoin! Seuraavassa EDDI-seminaarissa ensi syksynä Göteborgissa voimme toivottavasti esitellä tutkimusinfrastruktuuriimme kehittämiseen saamamme lisärahoituksen avulla toteutettavia parannuksia palveluihimme ja käytäntöihimme.

Mari Kleemola
Tietopalvelupäällikkö
DDI Alliance Expert Committee Vice Chair
etunimi.sukunimi [at] uta.fi

Oikealla asialla

Kuukausittaisen tietoarkistoblogin aloittamisesta päätettiin viime keväänä. Silloin ajattelimme, että ensimmäinen blogi olisi hyvä saada ulos painetun Tietoarkisto-lehden ilmestymisen aikoihin eli aivan vuoden lopulla. Tuolloin tiedeyhteisöön laajasti leviävä lehtemme vetää kotisivuillemme monia, jotka eivät siellä muulloin vieraile.

Blogin aloittaminen osoittautui erityisen mieluisaksi myös sen vuoksi, että olemme tietoarkistossa juuri saaneet tiedon merkittävästä lisärahoituksesta tutkimusinfrastruktuurimme kehittämiseen. Seuraavien viiden vuoden aikana Suomen Akatemia tukee palvelujemme laajentamista uusille tieteenaloille, palvelutoimintojemme merkittävää uudistamista ja koulutuspalvelujemme kehittämistä. Monet aiheet liittyvät eurooppalaiseen yhteistyöhömme. Näistä kerromme lisää tulevissa kirjoituksissa.

Mitä haluamme viestiä blogillamme? Päätavoitteemme on ottaa esille yksittäisiä tietoarkistoalan aiheita niin, että ne saavat vuorollaan ansaitsemansa huomion. Muuhunkin kuin tietoarkistoasioihin otamme kantaa, kun tarvetta ilmenee.

Me tutkimusaineistojen käytön avoimuuden puolestapuhujat uskomme olevamme oikealla asialla. Suomessakin kerätään paljon tutkimusaineistoja, joiden tietosisällöistä ja käyttömahdollisuuksista moni ei tunnu tietävän tuon taivaallista.

Suuremmin julistamatta tulemme perustelemaan argumentein ja esimerkein, miksi sähköiset tutkimusaineistot kannattaa kerätä ja dokumentoida huolella, miksi ja miten niiden pitkäaikaissäilytys voidaan parhaiten turvata, sekä miksi ja miten tutkimusdata on hyvä saattaa tiedeyhteisön avoimeen ja informoituun käyttöön.

Emme tee tätä työtä yksin vaan yhdessä aineistojen rahoittajien, kokoajien ja monien eri käyttäjäryhmien kanssa. Odotamme blogimme herättävän keskustelua työsarkamme asioista. Ehkä opimme näkemään paremmin alan yhteistyömahdollisuuksia.

Hyvää joulun aikaa ja uutta vuotta 2011!

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Oikealla asialla

Kuukausittaisen tietoarkistoblogin aloittamisesta päätettiin viime keväänä. Silloin ajattelimme, että ensimmäinen blogi olisi hyvä saada ulos painetun Tietoarkisto-lehden ilmestymisen aikoihin eli aivan vuoden lopulla. Tuolloin tiedeyhteisöön laajasti leviävä lehtemme vetää kotisivuillemme monia, jotka eivät siellä muulloin vieraile.

Blogin aloittaminen osoittautui erityisen mieluisaksi myös sen vuoksi, että olemme tietoarkistossa juuri saaneet tiedon merkittävästä lisärahoituksesta tutkimusinfrastruktuurimme kehittämiseen. Seuraavien viiden vuoden aikana Suomen Akatemia tukee palvelujemme laajentamista uusille tieteenaloille, palvelutoimintojemme merkittävää uudistamista ja koulutuspalvelujemme kehittämistä. Monet aiheet liittyvät eurooppalaiseen yhteistyöhömme. Näistä kerromme lisää tulevissa kirjoituksissa.

Mitä haluamme viestiä blogillamme? Päätavoitteemme on ottaa esille yksittäisiä tietoarkistoalan aiheita niin, että ne saavat vuorollaan ansaitsemansa huomion. Muuhunkin kuin tietoarkistoasioihin otamme kantaa, kun tarvetta ilmenee.

Me tutkimusaineistojen käytön avoimuuden puolestapuhujat uskomme olevamme oikealla asialla. Suomessakin kerätään paljon tutkimusaineistoja, joiden tietosisällöistä ja käyttömahdollisuuksista moni ei tunnu tietävän tuon taivaallista.

Suuremmin julistamatta tulemme perustelemaan argumentein ja esimerkein, miksi sähköiset tutkimusaineistot kannattaa kerätä ja dokumentoida huolella, miksi ja miten niiden pitkäaikaissäilytys voidaan parhaiten turvata, sekä miksi ja miten tutkimusdata on hyvä saattaa tiedeyhteisön avoimeen ja informoituun käyttöön.

Emme tee tätä työtä yksin vaan yhdessä aineistojen rahoittajien, kokoajien ja monien eri käyttäjäryhmien kanssa. Odotamme blogimme herättävän keskustelua työsarkamme asioista. Ehkä opimme näkemään paremmin alan yhteistyömahdollisuuksia.

Hyvää joulun aikaa ja uutta vuotta 2011!

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi