Tag Archives: tutkimusaineistot

Onnistuneen saatekirjeen salaisuudet

Tampereella järjestettiin elokuun lopussa järjestyksessään toinen Metodifestivaali. Kaksipäiväinen tapahtuma keräsi satoja tutkijoita, opettajia ja opiskelijoita keskustelemaan tutkimusmetodologiaan liittyvistä ajankohtaisista teemoista. Mukana menossa olivat tietysti myös tietoarkiston asiantuntijat.

Metodifestari oli juhlaa kaikille empiiristen aineistojen parissa työskenteleville. Itseäni kiinnostivat erityisesti aineistojen keruuseen ja hallintaan liittyvät keskustelut. Niissä nousi toistuvasti esille tutkittavien informointi. Näkökulma vaihteli session ja puhujan mukaan, mutta peruskysymykset pysyivät samoina. Mitä tutkittaville pitäisi kertoa ja miten?

Yksi tutkimusetiikan pääperiaatteista on tutkittavan itsemääräämisoikeuden kunnioittaminen. Tutkittaville on annettava tutkimuksesta niin paljon tietoa, että he pystyvät tekemään informoidun ja vapaaehtoisuuteen perustuvan päätöksen osallistumisestaan. Tämä tieto on hyvä antaa kirjallisena.

On vaikea sanoa yleispätevästi, kuinka paljon tietoa on riittävä määrä. Käytäntö on osoittanut, että tutkimuksen saatekirjeen tulee olla melko lyhyt. Nyrkkisääntö on, että saate- tai tiedotekirje saa olla korkeintaan yhden sivun mittainen. Kohderyhmä on myös otettava huomioon. Vastaajakatoa kartoittaneessa sessiossa kuulimme, kuinka liian henkilökohtaiselta tuntuva saatekirje oli pudottanut vastausprosenttia.

Monimutkaisen asian kertominen yhdellä sivulla on vähintäänkin haasteellista. Aina tutkijoilla ei tunnu olevan edes halua tai uskallusta sanoa asioita selkeästi, suoraan ja lyhyesti. Tutkimuksen valintoja ja eettisiä dilemmoja käsitelleessä sessiossa Tarja Pösö tiivisti asiasta mielestäni jotain olennaista kutsuessaan ilmiötä ”tutkimusetiikan performanssipuoleksi”.

Tällaiseen performanssiin törmäsin itsekin äskettäin. THL lähestyi minua kirjeellä, jossa tiedusteltiin, saako tutkimusryhmä käyttää aikaisemmin kerättyä aineistoa uuteen tutkimukseen. Kirjeessä oli kuusi sivua. Jos se ei olisi kiinnostanut minua ammatillisesti, olisin kolmen ensimmäisen rivin lukemisen jälkeen viskannut kuoren sisältöineen keräyspaperin joukkoon. Se olisi ollut sääli, sillä mielestäni jo olemassa olevan aineiston käyttämättä jättäminen olisi ollut epäeettistä.

Vaikka juuri THL:n saatekirjeet olivat käytäväpuheiden mukaan saaneet useammankin festarikävijän karvat pystyyn, THL:stä löytyy esimerkki myös hyvästä tiedottamisesta. Pia Mäkelä kertoi meille mielenkiintoisesti vuoden 2008 juomatapatutkimuksen vastaajakadon hallinnasta. Tilastokeskus keräsi aineiston käyntikyselynä. Kohdehenkilöille lähetettiin etukäteen lyhyt tiedotekirje, jossa oli mukana erillinen tutkimusesite [pdf]. Värikkäässä esitteessä kerrottiin tarkemmin tutkimuksen tavoitteista, vastausten luottamuksellisuudesta ja aineiston käytöstä. Esitteessä kerrottiin myös, että juomatapatutkimuksen aineisto arkistoidaan tietoarkistoon jatkokäyttöä varten. Onnistuneen tiedottamisen ja haastatteluorganisaation asiantuntemuksen ansiosta kyselyn vastausprosentti oli nykymaailmassa korkeahko 73,6.

Myös meiltä tietoarkistosta voi hakea – ja saada – apua. Tutkittavien informointiin on ohjeita muun muassa Tietoarkiston tiedonhallinnan käsikirjassa. Menetelmäopetuksen tietovarannossa on puolestaan käytännön ohjeita saatekirjeen laadintaan.

Mari Kleemola
Tietopalvelupäällikkö
etunimi.sukunimi [at] uta.fi

Tekninen kehitys laajentaa tietoarkistojen toimintaa

Ensimmäiset yhteiskuntatieteelliset data-arkistot aloittivat toimintansa 1960-luvulla Yhdysvalloissa ja Euroopassa. Niiden syntyyn vaikutti keskeisesti tietokoneiden ja laajoihin surveyaineistoihin perustuvien tutkimusmenetelmien kehittyminen sekä näiden suosion nopea kasvu useilla ihmistieteellisillä aloilla. Data-arkistoja ryhdyttiin perustamaan myös kaupallisten mielipidetutkimuslaitosten yhteyteen erityisesti Yhdysvalloissa.

Data-arkistot toimivat kolme ensimmäistä vuosikymmentään ja osin vielä 1990-luvullakin keskustietokoneympäristöissä. Varsinkin tästä syystä niiden säilyttämien henkilötason tutkimusaineistojen käyttäjät olivat lähes yksinomaan tutkijoita. Sähköiset datatiedostot haettiin joko paikan päältä arkistoista tai ne kuljetettiin eri tallennevälineillä käyttäjilleen.

Kun itse tilasin 90-luvun alkupuolella Saksan yhteiskuntatieteellisestä data-arkistosta Kölnistä Eurobarometrien data-aineistoja, ne toimitettiin työhuoneeseeni Tampereelle postitse kelanauhoina. Sitten marssin tavaran kanssa yliopistomme tietokonekeskukseen, jossa tiedostot siirrettiin (maksutta) keskuskoneen käyttäjätunnukselleni. Tämän jälkeen vuorossa olivat ascii-muotoisten tiedostojen määrittelyt sellaiseen muotoon, että tilastollinen tietojenkäsittelyohjelma sai datasta tolkkua. Keskuskone oli sen verran ruuhkainen, että suurimmat tietokoneajot piti suosiolla ajoittaa suoritettavaksi illemmalla eikä työpäivän aikana.

Toisin on tänään. Vaikka en edes kuulu varhaiseen reikäkortti- ja lajittelijasukupolveen enkä ole siis värjötellyt tietojenkäsittelyn Siperiassa, olen silti todistanut mikrotietokoneiden ja Internetin vallankumouksen koko tähänastisen polun. Data-arkistoalalle teknologian nopea kehitys on tuonut useita muutoksia ja isoja haasteita. Aikaisemmin ala keskittyi data-aineistojen arkistointiin, pitkäaikaissäilytykseen ja jakeluun erityisesti tutkimuskäyttöä ajatellen. Kansainvälisessä yhteistyössä arkistot toimivat data-aineistojen välittäjinä tutkijoille siten, että kansalliset data-arkistot toimivat oman maansa tutkijoille ulkomaisten aineistojen välittäjinä.

Internet-sukupolvelle ajatus välikäsistä ja pitkistä toimitusajoista on vieras. Yhä useamman tutkijankin mielestä tutkimuksen tietoaineistojen tulisi olla ladattavissa suoraan omalle tietokoneelle luotettavista lähteistä heti ja lähtökohtaisesti myös maksutta. Lisäksi tietojen pitäisi olla vaivattomasti yhdisteltävissä muihin tietoihin ja niiden tulisi muutoinkin olla helppokäyttöisiä. Hyvä näin, sillä todellinen edistys edellyttää aina sitä, että joku vaatii muutosta. Näihin haasteisiin vastaaminen edellyttää toimivia palveluinfrastruktuureja.

Data-arkistoalalla teknologian kehitys on jo avartanut suunnattomasti tutkimusaineistojen käyttötapoja ja -mahdollisuuksia. Avoimet datatietokannat ovat lisänneet huomattavasti soveltuvien tutkimusaineistojen löytymistä ja saatavuutta. Joskus suunniteltu uusi tutkimusaineisto on jäänyt kokonaan keräämättä. Omassa toiminnassamme meitä on ilahduttanut erityisesti se, että perustutkinto-opiskelijat käyttävät tietoarkistoon arkistoituja aineistoja kasvavassa määrin omiin opinnäytetöihinsä.

Myös tietoaineistojen opetuskäytön erilaisia mahdollisuuksia tulisi oppia hyödyntämään täysipainoisesti. Data-projektori ja Internet opetustilassa mahdollistavat jo nyt eri aiheisiin liittyvien dataperustaisten online-palvelujen käytön kontaktiopetuksessa. Näin opetus perustuu ajantasaisimpaan tietoon.

Tietoarkisto on laajentamassa palvelujaan tähän suuntaan. Jo nyt muun muassa Menetelmäopetuksen tietovarannon harjoitusaineistot ovat vapaasti heti käytettävissä. Tavoitteena on myös uusia aineistojen toimitusjärjestelmä vuoden 2012 loppuun mennessä. Uudistuksen valmistuttua rekisteröityneet asiakkaat voivat hyödyntää tietoarkiston koko aineistovarantoa datatiedostoineen suoraan verkossa.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Tekninen kehitys laajentaa tietoarkistojen toimintaa

Ensimmäiset yhteiskuntatieteelliset data-arkistot aloittivat toimintansa 1960-luvulla Yhdysvalloissa ja Euroopassa. Niiden syntyyn vaikutti keskeisesti tietokoneiden ja laajoihin surveyaineistoihin perustuvien tutkimusmenetelmien kehittyminen sekä näiden suosion nopea kasvu useilla ihmistieteellisillä aloilla. Data-arkistoja ryhdyttiin perustamaan myös kaupallisten mielipidetutkimuslaitosten yhteyteen erityisesti Yhdysvalloissa.

Data-arkistot toimivat kolme ensimmäistä vuosikymmentään ja osin vielä 1990-luvullakin keskustietokoneympäristöissä. Varsinkin tästä syystä niiden säilyttämien henkilötason tutkimusaineistojen käyttäjät olivat lähes yksinomaan tutkijoita. Sähköiset datatiedostot haettiin joko paikan päältä arkistoista tai ne kuljetettiin eri tallennevälineillä käyttäjilleen.

Kun itse tilasin 90-luvun alkupuolella Saksan yhteiskuntatieteellisestä data-arkistosta Kölnistä Eurobarometrien data-aineistoja, ne toimitettiin työhuoneeseeni Tampereelle postitse kelanauhoina. Sitten marssin tavaran kanssa yliopistomme tietokonekeskukseen, jossa tiedostot siirrettiin (maksutta) keskuskoneen käyttäjätunnukselleni. Tämän jälkeen vuorossa olivat ascii-muotoisten tiedostojen määrittelyt sellaiseen muotoon, että tilastollinen tietojenkäsittelyohjelma sai datasta tolkkua. Keskuskone oli sen verran ruuhkainen, että suurimmat tietokoneajot piti suosiolla ajoittaa suoritettavaksi illemmalla eikä työpäivän aikana.

Toisin on tänään. Vaikka en edes kuulu varhaiseen reikäkortti- ja lajittelijasukupolveen enkä ole siis värjötellyt tietojenkäsittelyn Siperiassa, olen silti todistanut mikrotietokoneiden ja Internetin vallankumouksen koko tähänastisen polun. Data-arkistoalalle teknologian nopea kehitys on tuonut useita muutoksia ja isoja haasteita. Aikaisemmin ala keskittyi data-aineistojen arkistointiin, pitkäaikaissäilytykseen ja jakeluun erityisesti tutkimuskäyttöä ajatellen. Kansainvälisessä yhteistyössä arkistot toimivat data-aineistojen välittäjinä tutkijoille siten, että kansalliset data-arkistot toimivat oman maansa tutkijoille ulkomaisten aineistojen välittäjinä.

Internet-sukupolvelle ajatus välikäsistä ja pitkistä toimitusajoista on vieras. Yhä useamman tutkijankin mielestä tutkimuksen tietoaineistojen tulisi olla ladattavissa suoraan omalle tietokoneelle luotettavista lähteistä heti ja lähtökohtaisesti myös maksutta. Lisäksi tietojen pitäisi olla vaivattomasti yhdisteltävissä muihin tietoihin ja niiden tulisi muutoinkin olla helppokäyttöisiä. Hyvä näin, sillä todellinen edistys edellyttää aina sitä, että joku vaatii muutosta. Näihin haasteisiin vastaaminen edellyttää toimivia palveluinfrastruktuureja.

Data-arkistoalalla teknologian kehitys on jo avartanut suunnattomasti tutkimusaineistojen käyttötapoja ja -mahdollisuuksia. Avoimet datatietokannat ovat lisänneet huomattavasti soveltuvien tutkimusaineistojen löytymistä ja saatavuutta. Joskus suunniteltu uusi tutkimusaineisto on jäänyt kokonaan keräämättä. Omassa toiminnassamme meitä on ilahduttanut erityisesti se, että perustutkinto-opiskelijat käyttävät tietoarkistoon arkistoituja aineistoja kasvavassa määrin omiin opinnäytetöihinsä.

Myös tietoaineistojen opetuskäytön erilaisia mahdollisuuksia tulisi oppia hyödyntämään täysipainoisesti. Data-projektori ja Internet opetustilassa mahdollistavat jo nyt eri aiheisiin liittyvien dataperustaisten online-palvelujen käytön kontaktiopetuksessa. Näin opetus perustuu ajantasaisimpaan tietoon.

Tietoarkisto on laajentamassa palvelujaan tähän suuntaan. Jo nyt muun muassa Menetelmäopetuksen tietovarannon harjoitusaineistot ovat vapaasti heti käytettävissä. Tavoitteena on myös uusia aineistojen toimitusjärjestelmä vuoden 2012 loppuun mennessä. Uudistuksen valmistuttua rekisteröityneet asiakkaat voivat hyödyntää tietoarkiston koko aineistovarantoa datatiedostoineen suoraan verkossa.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Tutkimusdata meriittinä

Opetus- ja kulttuuriministeriö julkisti pari viikkoa sitten tiekarttaraportin tutkimuksen sähköisten tietoaineistojen hyödyntämisestä. Siihen on koottu poikkihallinnollisen selvityshankkeen keskeiset ehdotukset alan hyvistä käytännöistä ja tietoaineistojen avoimuutta edistävistä toimenpiteistä. Aiemmin hanke oli tuottanut samaa aihepiiriä käsittelevän taustaraportin, joka luovutettiin opetusministerille vuosi sitten.

Tiekartta on laaja-alainen ja se tarjoaa hyviä polkuja ja myös konkreettisia toimenpide-ehdotuksia tutkimusdatan avoimelle saatavuudelle. Työ edellyttää laaja-alaista yhteistyötä aineistojen tuottajien ja välittäjien kesken sekä lisärahoitusta infrastruktuurien rakentamiseksi. Yksi perusongelma on. Tutkimusdatan pitkäaikaissäilytystä ja käytön avoimuutta tukevat rakenteet, välineet ja käytännöt puuttuvat edelleen lähes tyystin useilta tutkimusaloilta.

Rakenteet ovat pysyväksi tarkoitettuja organisaatioita tai järjestelyjä, joiden erityisvastuulla on tutkimusdatan elinkaaresta huolehtiminen. Välineet ovat esimerkiksi kuvailustandardeja, tietokantoja ja muita datan käytön tietoteknisiä sovelluksia, joiden avulla tutkijat löytävät ja saavat käyttöönsä haluamansa tutkimusaineistot. Käytännöt ovat puolestaan tutkimusyhteisön omaksumia toimintatapoja ja sääntöjä, tutkimuskulttuuria, joka koskee tutkimusaineistojen tekijyyttä ja avoimeen käyttöön saattamista.

Tiekartta nostaa aivan oikein yhdeksi keskeiseksi kansallisen datapolitiikan haasteeksi tutkimusaineistoihin liittyvät tieteelliset meriitit. Tältä osin tiekartta muun muassa toteaa (s. 29), että ”tutkijoiden meritoituminen tietoaineistojen tuottamisesta ja jakamisesta tulee ohjeistaa yhtenäisesti”. Vastuu olisi etenkin tutkimusrahoittajilla, kuten Suomen Akatemialla ja Tekesillä.

Olen itse meritoitumisen yleisestä merkityksestä samaa mieltä, mutta ohjeistamalla asia tuskin ratkeaa. Vastuu käytäntöjen muuttumisesta on myös tutkimusyhteisöllä ja laajasti kaikilla tutkimusta rahoittavilla tahoilla, kuten tutkimusinfrastruktuurirahoituksesta päävastuullisilla ministeriöillä. Tutkimusaineistoihin liittyvä meritoituminen on erinomainen esimerkki osoittamaan alan nykyisiä pullonkauloja.

Kyllä – tutkimusdatan tuottajien pitäisi saattaa datansa tutkimusyhteisön avoimeen käyttöön viimeistään hankkeittensa päätyttyä. Tämä ei välttämättä onnistu sormea napsauttamalla, vaikka tahtoa riittäisikin. Aineiston koonneen ryhmän tulee ensin kyetä sopimaan, kenen nimet ja missä järjestyksessä julkaistavaan aineistoon merkitään tekijöiksi ja kuka tai ketkä vastaavat aineiston jatkokäyttökuntoon saattamisesta.

Datan asianmukainen julkaiseminen puolestaan edellyttää datan kuvailun ja viittaustietojen vaatimia standardeja, jollaisia on valmiina vain harvoilla aloilla. Lisäksi datan julkaiseminen edellyttää sekä aineiston että sen keränneen hankkeen perustietojen kuvailua ja aina jonkin verran myös tutkimusaineiston muokkausta. Tämä vaatii aikaa ja työtä, joka ei läheskään kaikilla aloilla ole siirrettävissä olemassa olevan data-arkiston kontolle.

Lisäksi sekä tutkimusaineiston pitkäaikaissäilytys että sen jatkokäyttö muodostavat omat kokonaisuutensa meriitin muodostumisessa. Julkaistut datat saavat hyvää lisänäkyvyyttä avoimissa aineistotietokannoissa. Esimerkiksi Yhteiskuntatieteellinen tietoarkisto kääntää suomenkielisten aineistojen kuvailut englanniksi ja sijoittaa ne sitten avoimiin, kansainvälisiin datatietokantoihin. Näin ulkomaiset tutkijat pääsevät käyttämään suomalaisia tutkimusaineistoja, joista heillä ei muutoin olisi tietoa.

Luovuttaessaan arkistoituja data-aineistoja jatkokäyttöön tietoarkisto antaa niille viittaustiedon ja -ohjeet, joita jatkokäyttäjän tulee noudattaa. Tätä kautta aineistot ja niiden tekijät tulevat viitatuiksi tavanomaisin tieteellisin referenssein. Runsaassa jatkokäytössä olevat tutkimusaineistot ovat merkittävä meriitti alkuperäisille kokoajille, koska silloin toisten kokoama data on laajasti hyödyllistä tiedeyhteisölle.

Asianmukaisin standardein kuvailtu ja julkaistu tutkimusaineisto on tekijöilleen tieteellinen meriitti, jonka voi ilmoittaa ansioluettelossa. Tiedeyhteisön yhteiseen ja avoimeen käyttöön avatut datat mahdollistavat tieteen itsensäkorjaavuutta ja lisäävät sen yleistä luotettavuutta. Siksi nyt valmistuneen tiekartan toimenpide-ehdotukset pitää ottaa vakavasti.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Tutkimusdata meriittinä

Opetus- ja kulttuuriministeriö julkisti pari viikkoa sitten tiekarttaraportin tutkimuksen sähköisten tietoaineistojen hyödyntämisestä. Siihen on koottu poikkihallinnollisen selvityshankkeen keskeiset ehdotukset alan hyvistä käytännöistä ja tietoaineistojen avoimuutta edistävistä toimenpiteistä. Aiemmin hanke oli tuottanut samaa aihepiiriä käsittelevän taustaraportin, joka luovutettiin opetusministerille vuosi sitten.

Tiekartta on laaja-alainen ja se tarjoaa hyviä polkuja ja myös konkreettisia toimenpide-ehdotuksia tutkimusdatan avoimelle saatavuudelle. Työ edellyttää laaja-alaista yhteistyötä aineistojen tuottajien ja välittäjien kesken sekä lisärahoitusta infrastruktuurien rakentamiseksi. Yksi perusongelma on. Tutkimusdatan pitkäaikaissäilytystä ja käytön avoimuutta tukevat rakenteet, välineet ja käytännöt puuttuvat edelleen lähes tyystin useilta tutkimusaloilta.

Rakenteet ovat pysyväksi tarkoitettuja organisaatioita tai järjestelyjä, joiden erityisvastuulla on tutkimusdatan elinkaaresta huolehtiminen. Välineet ovat esimerkiksi kuvailustandardeja, tietokantoja ja muita datan käytön tietoteknisiä sovelluksia, joiden avulla tutkijat löytävät ja saavat käyttöönsä haluamansa tutkimusaineistot. Käytännöt ovat puolestaan tutkimusyhteisön omaksumia toimintatapoja ja sääntöjä, tutkimuskulttuuria, joka koskee tutkimusaineistojen tekijyyttä ja avoimeen käyttöön saattamista.

Tiekartta nostaa aivan oikein yhdeksi keskeiseksi kansallisen datapolitiikan haasteeksi tutkimusaineistoihin liittyvät tieteelliset meriitit. Tältä osin tiekartta muun muassa toteaa (s. 29), että ”tutkijoiden meritoituminen tietoaineistojen tuottamisesta ja jakamisesta tulee ohjeistaa yhtenäisesti”. Vastuu olisi etenkin tutkimusrahoittajilla, kuten Suomen Akatemialla ja Tekesillä.

Olen itse meritoitumisen yleisestä merkityksestä samaa mieltä, mutta ohjeistamalla asia tuskin ratkeaa. Vastuu käytäntöjen muuttumisesta on myös tutkimusyhteisöllä ja laajasti kaikilla tutkimusta rahoittavilla tahoilla, kuten tutkimusinfrastruktuurirahoituksesta päävastuullisilla ministeriöillä. Tutkimusaineistoihin liittyvä meritoituminen on erinomainen esimerkki osoittamaan alan nykyisiä pullonkauloja.

Kyllä – tutkimusdatan tuottajien pitäisi saattaa datansa tutkimusyhteisön avoimeen käyttöön viimeistään hankkeittensa päätyttyä. Tämä ei välttämättä onnistu sormea napsauttamalla, vaikka tahtoa riittäisikin. Aineiston koonneen ryhmän tulee ensin kyetä sopimaan, kenen nimet ja missä järjestyksessä julkaistavaan aineistoon merkitään tekijöiksi ja kuka tai ketkä vastaavat aineiston jatkokäyttökuntoon saattamisesta.

Datan asianmukainen julkaiseminen puolestaan edellyttää datan kuvailun ja viittaustietojen vaatimia standardeja, jollaisia on valmiina vain harvoilla aloilla. Lisäksi datan julkaiseminen edellyttää sekä aineiston että sen keränneen hankkeen perustietojen kuvailua ja aina jonkin verran myös tutkimusaineiston muokkausta. Tämä vaatii aikaa ja työtä, joka ei läheskään kaikilla aloilla ole siirrettävissä olemassa olevan data-arkiston kontolle.

Lisäksi sekä tutkimusaineiston pitkäaikaissäilytys että sen jatkokäyttö muodostavat omat kokonaisuutensa meriitin muodostumisessa. Julkaistut datat saavat hyvää lisänäkyvyyttä avoimissa aineistotietokannoissa. Esimerkiksi Yhteiskuntatieteellinen tietoarkisto kääntää suomenkielisten aineistojen kuvailut englanniksi ja sijoittaa ne sitten avoimiin, kansainvälisiin datatietokantoihin. Näin ulkomaiset tutkijat pääsevät käyttämään suomalaisia tutkimusaineistoja, joista heillä ei muutoin olisi tietoa.

Luovuttaessaan arkistoituja data-aineistoja jatkokäyttöön tietoarkisto antaa niille viittaustiedon ja -ohjeet, joita jatkokäyttäjän tulee noudattaa. Tätä kautta aineistot ja niiden tekijät tulevat viitatuiksi tavanomaisin tieteellisin referenssein. Runsaassa jatkokäytössä olevat tutkimusaineistot ovat merkittävä meriitti alkuperäisille kokoajille, koska silloin toisten kokoama data on laajasti hyödyllistä tiedeyhteisölle.

Asianmukaisin standardein kuvailtu ja julkaistu tutkimusaineisto on tekijöilleen tieteellinen meriitti, jonka voi ilmoittaa ansioluettelossa. Tiedeyhteisön yhteiseen ja avoimeen käyttöön avatut datat mahdollistavat tieteen itsensäkorjaavuutta ja lisäävät sen yleistä luotettavuutta. Siksi nyt valmistuneen tiekartan toimenpide-ehdotukset pitää ottaa vakavasti.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Dataintensiivinen tiede tarvitsee oikeanlaista metadataa

Ilman kuvailevaa tietoa, metadataa, sähköinen tutkimusaineisto, data, on merkityksetöntä bittimössöä. Jotta tutkimusaineistoa voidaan hyödyntää nyt ja tulevaisuudessa, tarvitaan tietoa esimerkiksi sen sisällöstä ja rakenteesta sekä mahdollisista muokkauksista ja käyttöoikeuksista. Näitä tarpeita varten eri maiden yhteiskuntatieteelliset data-arkistot kehittivät 1990-luvulla uuden monipuolisen kuvailuformaatin, DDI:n. Aluksi DDI keskittyi tutkimusaineistojen arkistointivaiheessa tarvittavaan metadataan, mutta tuorein versio, DDI 3, kattaa datan koko elinkaaren.

DDI:n käyttäjäkunta laajenee jatkuvasti. Viime vuoden joulukuussa järjestetty 2nd Annual European DDI Users Group Meeting, tuttavallisemmin EDDI, houkutteli talviseen Utrechtiin seitsemänkymmentä tutkimusaineistojen metadatan asiantuntijaa. Osallistujia oli data-arkistojen lisäksi muun muassa akateemisista tutkimusorganisaatioista, kaupallisista ohjelmistoyrityksistä, Eurostatista ja Australian tilastotoimesta. Yhteistä kaikille osallistujille oli halu hyödyntää olemassa olevien ja tulevien tietoaineistojen koko potentiaali ja tahto palvella dataa tuottavia ja käyttäviä sidosryhmiä parhaalla mahdollisella tavalla.

Tietoarkistosta meitä oli Utrechtissä kaksi: minä ja atk-erikoistutkijamme Matti Heinonen. Kaksipäiväisen seminaarin aikana ehdimme saada aimo annoksen sekä käytännön tietoa että uusia ideoita. Matti keskittyi teknisiin sessioihin, minulle jäivät ”yleisemmät teemat”. Yli kahdenkymmenen toinen toistaan paremman esityksen joukosta kiinnostavimmiksi nousivat mielestäni Peter Wittenburgin ja Steven Valen esitykset.

Max Planck -instituutin kieliarkistoa johtava Peter Wittenburg kertoi tieteellisen datan eurooppalaista e-infrastruktuuria visioineen korkean tason asiantuntijaryhmän työn tuloksista. Tämä HLEG-ryhmä luovutti lokakuussa Euroopan komissiolle loppuraporttinsa ”Riding the wave. How Europe can gain from the rising tide of scientific data”. Tiede on tällä hetkellä dataintensiivistä: tutkijat elävät suurten datamassojen keskellä ja tutkijoiden käytössä olevan datan määrä kasvaa koko ajan kaikilla tieteenaloilla. Tämä tieteen neljänneksi paradigmaksikin kutsuttu vaihe tarjoaa luonnollisesti runsaasti mahdollisuuksia, mutta esityksessään Wittenburg keskittyi haasteisiin. Datanhallinnan vaatimukset kasvavat kohisten. Esimerkiksi datan säilytysaika ja -strategiat vaihtelevat datan tyypin mukaan. Yleistäen voidaan sanoa, että luonnontieteissä ongelmana on datan määrä, yhteiskuntatieteissä ja humanistisissa tieteissä datan monimutkaisuus. Oikeanlainen metadata on keskeinen datanhallinnan väline.

Wittenburgin puheessa toistui myös sana luottamus: eri toimijoiden datan elinkaaren eri vaiheissa olisi voitava luottaa toisiinsa ja tietysti itse dataan. Tärkeää olisi myös saavuttaa laaja konsensus siitä, että arvokkaan tieteellisen datan laadukas dokumentointi, huolellinen säilyttäminen ja mahdollisimman avoin saatavuus jatkokäyttöön hyödyttävät sekä tiedeyhteisöä että yhteiskuntaa. Haasteet ovat samanlaisia tai ainakin hyvin samankaltaisia (Euroopan) eri maissa ja eri tieteenaloilla, ja ne ovat tuttuja tietoarkistotyön arjestakin.

YK:n Euroopan talouskomission UNECE:n Steven Vale tarkasteli esityksessään datanhallinnan ongelmia tilastojen tuottajan näkökulmasta. Tilastovirastojen yhteistyön helpottamiseksi ja tilastojen laadun parantamiseksi UNECE, Eurostat ja OECD:n METIS-työryhmä ovat tuottaneet tilastollisten metadatajärjestelmien perustietopaketin (the Common Metadata Framework). Paketin ehkä mielenkiintoisinta antia on tilastotuotannon yleinen prosessimalli GSPBM (Generic Statistical Business Process Model), jonka avulla voidaan vertailla, tutkia ja kehittää sekä organisaation sisäisiä että organisaatioiden välisiä prosesseja. Kuten Valekin toi esille, GSPBM:llä on huomattavia yhtäläisyyksiä DDI 3:n pohjana olevan elämänkaarimallin kanssa.

Tilastotuotanto ei yleensä etene suoraviivaisesti suunnittelusta jakeluun, joten GSPBM ole lineaarinen malli, vaan prosessimatriisi. Sen avulla voi kuvata monimutkaisiakin tilastotuotantoprosesseja. Teoreettinen GSBPM-malli ei kuitenkaan riitä; lisäksi tarvitaan muun muassa työkaluja ja metadataformaatteja. Ongelmana on, että ei ole olemassa sellaista metadatastandardia, joka kattaisi GSBPM:n kaikki prosessit. Vale heittikin pohdittavaksi ajatuksen DDI:n ja tilastotiedon siirto- ja kuvailuformaatin SDMX:n toisiaan tukevasta käytöstä prosessin eri vaiheissa.

Useamman jo olemassa olevan ja toisiaan tukevan ”täsmästandardin” käyttö kuulostaa kieltämättä järkevämmältä kuin yhden ison kaikenkattavan ja siten väistämättä hyvin monimutkaisen standardin rakentaminen.

Virallisen ohjelman jälkeen vapaamuotoinen keskustelu jatkui iltamyöhään. Tilaisuus oli käytettävä hyväksi, sillä näin suurta joukkoa tutkimusaineistojen metadatasta ja tiedonhallinnasta innostuneita eturivin asiantuntijoita tapaa vain harvoin! Seuraavassa EDDI-seminaarissa ensi syksynä Göteborgissa voimme toivottavasti esitellä tutkimusinfrastruktuuriimme kehittämiseen saamamme lisärahoituksen avulla toteutettavia parannuksia palveluihimme ja käytäntöihimme.

Mari Kleemola
Tietopalvelupäällikkö
DDI Alliance Expert Committee Vice Chair
etunimi.sukunimi [at] uta.fi

Dataintensiivinen tiede tarvitsee oikeanlaista metadataa

Ilman kuvailevaa tietoa, metadataa, sähköinen tutkimusaineisto, data, on merkityksetöntä bittimössöä. Jotta tutkimusaineistoa voidaan hyödyntää nyt ja tulevaisuudessa, tarvitaan tietoa esimerkiksi sen sisällöstä ja rakenteesta sekä mahdollisista muokkauksista ja käyttöoikeuksista. Näitä tarpeita varten eri maiden yhteiskuntatieteelliset data-arkistot kehittivät 1990-luvulla uuden monipuolisen kuvailuformaatin, DDI:n. Aluksi DDI keskittyi tutkimusaineistojen arkistointivaiheessa tarvittavaan metadataan, mutta tuorein versio, DDI 3, kattaa datan koko elinkaaren.

DDI:n käyttäjäkunta laajenee jatkuvasti. Viime vuoden joulukuussa järjestetty 2nd Annual European DDI Users Group Meeting, tuttavallisemmin EDDI, houkutteli talviseen Utrechtiin seitsemänkymmentä tutkimusaineistojen metadatan asiantuntijaa. Osallistujia oli data-arkistojen lisäksi muun muassa akateemisista tutkimusorganisaatioista, kaupallisista ohjelmistoyrityksistä, Eurostatista ja Australian tilastotoimesta. Yhteistä kaikille osallistujille oli halu hyödyntää olemassa olevien ja tulevien tietoaineistojen koko potentiaali ja tahto palvella dataa tuottavia ja käyttäviä sidosryhmiä parhaalla mahdollisella tavalla.

Tietoarkistosta meitä oli Utrechtissä kaksi: minä ja atk-erikoistutkijamme Matti Heinonen. Kaksipäiväisen seminaarin aikana ehdimme saada aimo annoksen sekä käytännön tietoa että uusia ideoita. Matti keskittyi teknisiin sessioihin, minulle jäivät ”yleisemmät teemat”. Yli kahdenkymmenen toinen toistaan paremman esityksen joukosta kiinnostavimmiksi nousivat mielestäni Peter Wittenburgin ja Steven Valen esitykset.

Max Planck -instituutin kieliarkistoa johtava Peter Wittenburg kertoi tieteellisen datan eurooppalaista e-infrastruktuuria visioineen korkean tason asiantuntijaryhmän työn tuloksista. Tämä HLEG-ryhmä luovutti lokakuussa Euroopan komissiolle loppuraporttinsa ”Riding the wave. How Europe can gain from the rising tide of scientific data”. Tiede on tällä hetkellä dataintensiivistä: tutkijat elävät suurten datamassojen keskellä ja tutkijoiden käytössä olevan datan määrä kasvaa koko ajan kaikilla tieteenaloilla. Tämä tieteen neljänneksi paradigmaksikin kutsuttu vaihe tarjoaa luonnollisesti runsaasti mahdollisuuksia, mutta esityksessään Wittenburg keskittyi haasteisiin. Datanhallinnan vaatimukset kasvavat kohisten. Esimerkiksi datan säilytysaika ja -strategiat vaihtelevat datan tyypin mukaan. Yleistäen voidaan sanoa, että luonnontieteissä ongelmana on datan määrä, yhteiskuntatieteissä ja humanistisissa tieteissä datan monimutkaisuus. Oikeanlainen metadata on keskeinen datanhallinnan väline.

Wittenburgin puheessa toistui myös sana luottamus: eri toimijoiden datan elinkaaren eri vaiheissa olisi voitava luottaa toisiinsa ja tietysti itse dataan. Tärkeää olisi myös saavuttaa laaja konsensus siitä, että arvokkaan tieteellisen datan laadukas dokumentointi, huolellinen säilyttäminen ja mahdollisimman avoin saatavuus jatkokäyttöön hyödyttävät sekä tiedeyhteisöä että yhteiskuntaa. Haasteet ovat samanlaisia tai ainakin hyvin samankaltaisia (Euroopan) eri maissa ja eri tieteenaloilla, ja ne ovat tuttuja tietoarkistotyön arjestakin.

YK:n Euroopan talouskomission UNECE:n Steven Vale tarkasteli esityksessään datanhallinnan ongelmia tilastojen tuottajan näkökulmasta. Tilastovirastojen yhteistyön helpottamiseksi ja tilastojen laadun parantamiseksi UNECE, Eurostat ja OECD:n METIS-työryhmä ovat tuottaneet tilastollisten metadatajärjestelmien perustietopaketin (the Common Metadata Framework). Paketin ehkä mielenkiintoisinta antia on tilastotuotannon yleinen prosessimalli GSPBM (Generic Statistical Business Process Model), jonka avulla voidaan vertailla, tutkia ja kehittää sekä organisaation sisäisiä että organisaatioiden välisiä prosesseja. Kuten Valekin toi esille, GSPBM:llä on huomattavia yhtäläisyyksiä DDI 3:n pohjana olevan elämänkaarimallin kanssa.

Tilastotuotanto ei yleensä etene suoraviivaisesti suunnittelusta jakeluun, joten GSPBM ole lineaarinen malli, vaan prosessimatriisi. Sen avulla voi kuvata monimutkaisiakin tilastotuotantoprosesseja. Teoreettinen GSBPM-malli ei kuitenkaan riitä; lisäksi tarvitaan muun muassa työkaluja ja metadataformaatteja. Ongelmana on, että ei ole olemassa sellaista metadatastandardia, joka kattaisi GSBPM:n kaikki prosessit. Vale heittikin pohdittavaksi ajatuksen DDI:n ja tilastotiedon siirto- ja kuvailuformaatin SDMX:n toisiaan tukevasta käytöstä prosessin eri vaiheissa.

Useamman jo olemassa olevan ja toisiaan tukevan ”täsmästandardin” käyttö kuulostaa kieltämättä järkevämmältä kuin yhden ison kaikenkattavan ja siten väistämättä hyvin monimutkaisen standardin rakentaminen.

Virallisen ohjelman jälkeen vapaamuotoinen keskustelu jatkui iltamyöhään. Tilaisuus oli käytettävä hyväksi, sillä näin suurta joukkoa tutkimusaineistojen metadatasta ja tiedonhallinnasta innostuneita eturivin asiantuntijoita tapaa vain harvoin! Seuraavassa EDDI-seminaarissa ensi syksynä Göteborgissa voimme toivottavasti esitellä tutkimusinfrastruktuuriimme kehittämiseen saamamme lisärahoituksen avulla toteutettavia parannuksia palveluihimme ja käytäntöihimme.

Mari Kleemola
Tietopalvelupäällikkö
DDI Alliance Expert Committee Vice Chair
etunimi.sukunimi [at] uta.fi

Oikealla asialla

Kuukausittaisen tietoarkistoblogin aloittamisesta päätettiin viime keväänä. Silloin ajattelimme, että ensimmäinen blogi olisi hyvä saada ulos painetun Tietoarkisto-lehden ilmestymisen aikoihin eli aivan vuoden lopulla. Tuolloin tiedeyhteisöön laajasti leviävä lehtemme vetää kotisivuillemme monia, jotka eivät siellä muulloin vieraile.

Blogin aloittaminen osoittautui erityisen mieluisaksi myös sen vuoksi, että olemme tietoarkistossa juuri saaneet tiedon merkittävästä lisärahoituksesta tutkimusinfrastruktuurimme kehittämiseen. Seuraavien viiden vuoden aikana Suomen Akatemia tukee palvelujemme laajentamista uusille tieteenaloille, palvelutoimintojemme merkittävää uudistamista ja koulutuspalvelujemme kehittämistä. Monet aiheet liittyvät eurooppalaiseen yhteistyöhömme. Näistä kerromme lisää tulevissa kirjoituksissa.

Mitä haluamme viestiä blogillamme? Päätavoitteemme on ottaa esille yksittäisiä tietoarkistoalan aiheita niin, että ne saavat vuorollaan ansaitsemansa huomion. Muuhunkin kuin tietoarkistoasioihin otamme kantaa, kun tarvetta ilmenee.

Me tutkimusaineistojen käytön avoimuuden puolestapuhujat uskomme olevamme oikealla asialla. Suomessakin kerätään paljon tutkimusaineistoja, joiden tietosisällöistä ja käyttömahdollisuuksista moni ei tunnu tietävän tuon taivaallista.

Suuremmin julistamatta tulemme perustelemaan argumentein ja esimerkein, miksi sähköiset tutkimusaineistot kannattaa kerätä ja dokumentoida huolella, miksi ja miten niiden pitkäaikaissäilytys voidaan parhaiten turvata, sekä miksi ja miten tutkimusdata on hyvä saattaa tiedeyhteisön avoimeen ja informoituun käyttöön.

Emme tee tätä työtä yksin vaan yhdessä aineistojen rahoittajien, kokoajien ja monien eri käyttäjäryhmien kanssa. Odotamme blogimme herättävän keskustelua työsarkamme asioista. Ehkä opimme näkemään paremmin alan yhteistyömahdollisuuksia.

Hyvää joulun aikaa ja uutta vuotta 2011!

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Oikealla asialla

Kuukausittaisen tietoarkistoblogin aloittamisesta päätettiin viime keväänä. Silloin ajattelimme, että ensimmäinen blogi olisi hyvä saada ulos painetun Tietoarkisto-lehden ilmestymisen aikoihin eli aivan vuoden lopulla. Tuolloin tiedeyhteisöön laajasti leviävä lehtemme vetää kotisivuillemme monia, jotka eivät siellä muulloin vieraile.

Blogin aloittaminen osoittautui erityisen mieluisaksi myös sen vuoksi, että olemme tietoarkistossa juuri saaneet tiedon merkittävästä lisärahoituksesta tutkimusinfrastruktuurimme kehittämiseen. Seuraavien viiden vuoden aikana Suomen Akatemia tukee palvelujemme laajentamista uusille tieteenaloille, palvelutoimintojemme merkittävää uudistamista ja koulutuspalvelujemme kehittämistä. Monet aiheet liittyvät eurooppalaiseen yhteistyöhömme. Näistä kerromme lisää tulevissa kirjoituksissa.

Mitä haluamme viestiä blogillamme? Päätavoitteemme on ottaa esille yksittäisiä tietoarkistoalan aiheita niin, että ne saavat vuorollaan ansaitsemansa huomion. Muuhunkin kuin tietoarkistoasioihin otamme kantaa, kun tarvetta ilmenee.

Me tutkimusaineistojen käytön avoimuuden puolestapuhujat uskomme olevamme oikealla asialla. Suomessakin kerätään paljon tutkimusaineistoja, joiden tietosisällöistä ja käyttömahdollisuuksista moni ei tunnu tietävän tuon taivaallista.

Suuremmin julistamatta tulemme perustelemaan argumentein ja esimerkein, miksi sähköiset tutkimusaineistot kannattaa kerätä ja dokumentoida huolella, miksi ja miten niiden pitkäaikaissäilytys voidaan parhaiten turvata, sekä miksi ja miten tutkimusdata on hyvä saattaa tiedeyhteisön avoimeen ja informoituun käyttöön.

Emme tee tätä työtä yksin vaan yhdessä aineistojen rahoittajien, kokoajien ja monien eri käyttäjäryhmien kanssa. Odotamme blogimme herättävän keskustelua työsarkamme asioista. Ehkä opimme näkemään paremmin alan yhteistyömahdollisuuksia.

Hyvää joulun aikaa ja uutta vuotta 2011!

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi