Tag Archives: datanhallinta

Vahvempi ja monipuolisempi

Tietoarkisto on laatinut strategiansa vuosille 2013-2016. Tavoitteisto on aikaisempaa tiiviimpi. Keskeisiä kokonaisuuksia on viisi ja kunkin seurannan tueksi rakennetaan indikaattorit.

Valtakunnallinen neuvottelukuntamme piti asiakirjaa onnistuneena ja niin pidämme mekin täällä tietoarkistossa. Tuulta päin.

Koko nelivuotiskautemme isoin juttu on palvelujemme laajentaminen muille tieteenaloille, etenkin terveystieteisiin, humanistisiin tieteisiin ja käyttäytymistieteisiin. Tähän olemme hakeneet ja haemme lisärahoitusta. Uskomme vakaasti, että olemme Suomen paras sijoituspaikka sentyyppisille tutkimusaineistoille, joita olemme tähänkin mennessä arkistoineet.

Toinen ja kolmas päätavoitteemme ovat palvelujen tehostaminen ja monipuolistaminen. Kuluvan kevään merkkitapaus on aineistojen tilaus- ja toimitusjärjestelmän muuttuminen sähköiseksi. Korkeakoulukäyttäjät voivat pian asioida meillä peruspalvelutunnuksillaan ja muille käyttäjille luodaan rinnakkainen rekisteröitymisjärjestelmä. Aineistojen saatavuus helpottuu.

Käsityksemme on, että ajan mittaan tämä uudistus muuttaa tietoarkistopalvelujen painopistettä. Liikkeestä ovat jo hyviä esimerkkejä tutkimusaineistojen hallintaan eri tavoin liittyvät koulutus- ja tietopalvelut.

Neljänneksi myös kansainvälinen yhteistyömme syvenee merkittävästi tästä vuodesta alkaen. Norjan ja Saksan pääosin rahoittama alamme eurooppalainen tutkimusinfrastruktuuri CESSDA aloittaa ensin yhtiömuotoisena ja muuttuu pian sen jälkeen niin sanotuksi ERIC-toimijaksi. FSD:stä tulee kansallinen palvelutuottaja. Yhteistyön ja palveluvalmiuden rakentaminen työllistävät tietoarkistoa koko nelivuotiskauden.

Toimintamme kasvu ei ole pelkästään omissa käsissämme. Haemme valtakunnalliselle mandaatillemme laajennusta, joka edellyttää neuvotteluja ja lisäresursseja. Tiedämme, että moni muukin tutkimusinfrastruktuuri on jonossa hattu kourassa.

Oma visiomme on vahvempi ja monipuolisempi Suomen tietoarkisto.

Sami Borg
johtaja
etunimi.sukunimi@uta.fi

Vahvempi ja monipuolisempi

Tietoarkisto on laatinut strategiansa vuosille 2013-2016. Tavoitteisto on aikaisempaa tiiviimpi. Keskeisiä kokonaisuuksia on viisi ja kunkin seurannan tueksi rakennetaan indikaattorit.

Valtakunnallinen neuvottelukuntamme piti asiakirjaa onnistuneena ja niin pidämme mekin täällä tietoarkistossa. Tuulta päin.

Koko nelivuotiskautemme isoin juttu on palvelujemme laajentaminen muille tieteenaloille, etenkin terveystieteisiin, humanistisiin tieteisiin ja käyttäytymistieteisiin. Tähän olemme hakeneet ja haemme lisärahoitusta. Uskomme vakaasti, että olemme Suomen paras sijoituspaikka sentyyppisille tutkimusaineistoille, joita olemme tähänkin mennessä arkistoineet.

Toinen ja kolmas päätavoitteemme ovat palvelujen tehostaminen ja monipuolistaminen. Kuluvan kevään merkkitapaus on aineistojen tilaus- ja toimitusjärjestelmän muuttuminen sähköiseksi. Korkeakoulukäyttäjät voivat pian asioida meillä peruspalvelutunnuksillaan ja muille käyttäjille luodaan rinnakkainen rekisteröitymisjärjestelmä. Aineistojen saatavuus helpottuu.

Käsityksemme on, että ajan mittaan tämä uudistus muuttaa tietoarkistopalvelujen painopistettä. Liikkeestä ovat jo hyviä esimerkkejä tutkimusaineistojen hallintaan eri tavoin liittyvät koulutus- ja tietopalvelut.

Neljänneksi myös kansainvälinen yhteistyömme syvenee merkittävästi tästä vuodesta alkaen. Norjan ja Saksan pääosin rahoittama alamme eurooppalainen tutkimusinfrastruktuuri CESSDA aloittaa ensin yhtiömuotoisena ja muuttuu pian sen jälkeen niin sanotuksi ERIC-toimijaksi. FSD:stä tulee kansallinen palvelutuottaja. Yhteistyön ja palveluvalmiuden rakentaminen työllistävät tietoarkistoa koko nelivuotiskauden.

Toimintamme kasvu ei ole pelkästään omissa käsissämme. Haemme valtakunnalliselle mandaatillemme laajennusta, joka edellyttää neuvotteluja ja lisäresursseja. Tiedämme, että moni muukin tutkimusinfrastruktuuri on jonossa hattu kourassa.

Oma visiomme on vahvempi ja monipuolisempi Suomen tietoarkisto.

Sami Borg
johtaja
etunimi.sukunimi@uta.fi

Epäiletkö aineistosi arvoa?

Viime keväänä annoin erään tutkijakoulun kurssilla tehtäväksi pohtia pienryhmissä, ovatko osallistujien omat empiiriset väitösaineistot arkistoitavissa jatkokäyttöön. Pyysin miettimään perusteita yhtä lailla sekä arkistointiin että sen mahdottomuuteen. Kaikki osallistujat olivat keränneet laadullisia haastatteluja omaan tutkimukseensa.

Ryhmätyön palautetilaisuudessa kävi ilmi, että kukaan ei katsonut voivansa arkistoida omaa aineistoaan tiedeyhteisön jatkokäytettäväksi. Tavallisimpana syynä olen tottunut kuulemaan perusteluja, joissa eettiset kysymykset ja tutkittaville annetut lupaukset estävät arkistoinnin. Yllätyksekseni tällä kertaa keskeisimmäksi arkistoinnin esteeksi miellettiin oman aineiston vähäinen merkitys ja arvo.

Yllättävä tulos palautti mieleeni vuosientakaisen keskustelun Ison-Britannian sisararkiston kollegan Libby Bishopin kanssa. Kävimme keskustelun, kun olin pitänyt oman esitykseni tutkittavien suhtautumisesta aineistojen arkistointiin ja jatkokäyttöön. Kysyttäessä tutkittavilta jälkikäteen lupaa heidän haastattelujensa arkistointiin valtaosa kannattaa sitä lämpimästi – vaikka tutkija olisi alun alkaen luvannut, ettei aineistoa näe kukaan muu. Olennaisinta tutkittavien suhtautumisessa on ajatus, että he ovat halunneet osallistua aihetta koskevan tutkimuksen edistämiseen ja arkistointi vain vahvistaa alkuperäistä toivetta. Tutkittavat eivät pidä laadullista haastattelutilannetta niin yksityisenä ja salassa pidettävänä, etteivätkö muut heille tuntemattomat tutkijat voisi haastattelua analysoida.

Kuultuaan suomalaisista kokemuksista Libby Bishop innostui kertomaan kokemuksiaan Isosta-Britanniasta. Bishopin mukaan heillä tutkijat usein vähättelevät laadullisen aineistonsa arvoa täsmentäen sen johtuvan siitä, ettei aineistossa ole mitään erityisen tunteikasta tai suuria henkilökohtaisia paljastuksia. Bishopin mukaan tutkijat kertovat asian peläten, että juuri heidän aineistonsa ei ehkä ole lainkaan hyvä laadullinen aineisto arkistoitavaksi. Isossa-Britanniassa tutkimuksen rahoittajat vaativat, että aineiston arkistointi tulee aina suunnitella ja neuvotella käytännön toteutuksesta paikallisen tietoarkiston kanssa. Siksi jokainen tutkija joutuu tarjoamaan aineistoaan arkistoitavaksi.

Harmillisesti laadullisten aineistojen eroa suhteessa kvantitatiivisiin aineistoihin usein korostetaan painottamalla muun ohessa laadullisen aineiston ainutlaatuisuutta, autenttisuutta ja sensitiivisyyttä. Valtaosa haastatteluvuorovaikutuksessa ja yllättävästi myös tutkittavien kirjoittamalla tuotetusta aineistosta on kuitenkin varsin arkista puhetta ja kerrontaa. Epäilen että tutkijoiden ja gradutekijöiden lisäksi haastattelulitteraattien läpilukemiseen ei välttämättä muilla riittäisi motivaatiota.

Lattealta, arkiselta ja jopa tylsältä tuntuva aineisto voi olla kuitenkin kiinnostava ja tärkeä analyysin kohde myös muille alkuperäisen tutkimuksen valmistuttua. Laadullisia arkistoaineistoja käytetään hyvin monenlaisiin tarkoituksiin ja aina eri tavalla kuin alkuperäisessä tutkimuksessa. Tietoarkistosta on haluttu etsiä esimerkiksi haastatteluja, joissa on läsnä yhtä aikaa kaksi eri-ikäistä haastateltavaa. Arkistoaineistot ovatkin hyvä lähde tutkimusvuorovaikutuksen analyysiin: analyysin kohteeksi voi valita useista haastatteluaineistoista ne yksittäiset haastattelut, jotka täyttävät tutkimusasetelmalle asetetut kriteerit. Aineistoja käytetään myös rinnan oman tuoreen aineiston kanssa, uuden tutkimuksen ideointiin ja menetelmäopetuksen analyysiharjoituksiin.

Laadullisen aineiston arvo ei määrity sen perusteella, sisältyykö siihen tutkittavien suuria tunteita ja erityisen arkaluonteisia paljastuksia. Arkistoinnin arvoisia ovat aineistot, joiden keruuta ja sisältöä koskevat tiedot ovat selkeät ja riittävät jatkokäytön näkökulmasta. Suuria tunteita ja paljastuksia sisältävä aineistokin voi olla käytännössä arvoton, jos on epäselvää, koska ja mihin tarkoitukseen aineisto on luotu ja tiedostojen tai litteraattien perustiedot puuttuvat. Kun haluaa turvata aineistonsa käytettävyyden, kannattaa perehtyä aineistonhallinnan käsikirjan ohjeisiin. Niiden avulla jokainen voi lisätä aineistonsa arvoa ja varmistaa sille loppumattoman elinkaaren.

Arja Kuula
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi

Epäiletkö aineistosi arvoa?

Viime keväänä annoin erään tutkijakoulun kurssilla tehtäväksi pohtia pienryhmissä, ovatko osallistujien omat empiiriset väitösaineistot arkistoitavissa jatkokäyttöön. Pyysin miettimään perusteita yhtä lailla sekä arkistointiin että sen mahdottomuuteen. Kaikki osallistujat olivat keränneet laadullisia haastatteluja omaan tutkimukseensa.

Ryhmätyön palautetilaisuudessa kävi ilmi, että kukaan ei katsonut voivansa arkistoida omaa aineistoaan tiedeyhteisön jatkokäytettäväksi. Tavallisimpana syynä olen tottunut kuulemaan perusteluja, joissa eettiset kysymykset ja tutkittaville annetut lupaukset estävät arkistoinnin. Yllätyksekseni tällä kertaa keskeisimmäksi arkistoinnin esteeksi miellettiin oman aineiston vähäinen merkitys ja arvo.

Yllättävä tulos palautti mieleeni vuosientakaisen keskustelun Ison-Britannian sisararkiston kollegan Libby Bishopin kanssa. Kävimme keskustelun, kun olin pitänyt oman esitykseni tutkittavien suhtautumisesta aineistojen arkistointiin ja jatkokäyttöön. Kysyttäessä tutkittavilta jälkikäteen lupaa heidän haastattelujensa arkistointiin valtaosa kannattaa sitä lämpimästi – vaikka tutkija olisi alun alkaen luvannut, ettei aineistoa näe kukaan muu. Olennaisinta tutkittavien suhtautumisessa on ajatus, että he ovat halunneet osallistua aihetta koskevan tutkimuksen edistämiseen ja arkistointi vain vahvistaa alkuperäistä toivetta. Tutkittavat eivät pidä laadullista haastattelutilannetta niin yksityisenä ja salassa pidettävänä, etteivätkö muut heille tuntemattomat tutkijat voisi haastattelua analysoida.

Kuultuaan suomalaisista kokemuksista Libby Bishop innostui kertomaan kokemuksiaan Isosta-Britanniasta. Bishopin mukaan heillä tutkijat usein vähättelevät laadullisen aineistonsa arvoa täsmentäen sen johtuvan siitä, ettei aineistossa ole mitään erityisen tunteikasta tai suuria henkilökohtaisia paljastuksia. Bishopin mukaan tutkijat kertovat asian peläten, että juuri heidän aineistonsa ei ehkä ole lainkaan hyvä laadullinen aineisto arkistoitavaksi. Isossa-Britanniassa tutkimuksen rahoittajat vaativat, että aineiston arkistointi tulee aina suunnitella ja neuvotella käytännön toteutuksesta paikallisen tietoarkiston kanssa. Siksi jokainen tutkija joutuu tarjoamaan aineistoaan arkistoitavaksi.

Harmillisesti laadullisten aineistojen eroa suhteessa kvantitatiivisiin aineistoihin usein korostetaan painottamalla muun ohessa laadullisen aineiston ainutlaatuisuutta, autenttisuutta ja sensitiivisyyttä. Valtaosa haastatteluvuorovaikutuksessa ja yllättävästi myös tutkittavien kirjoittamalla tuotetusta aineistosta on kuitenkin varsin arkista puhetta ja kerrontaa. Epäilen että tutkijoiden ja gradutekijöiden lisäksi haastattelulitteraattien läpilukemiseen ei välttämättä muilla riittäisi motivaatiota.

Lattealta, arkiselta ja jopa tylsältä tuntuva aineisto voi olla kuitenkin kiinnostava ja tärkeä analyysin kohde myös muille alkuperäisen tutkimuksen valmistuttua. Laadullisia arkistoaineistoja käytetään hyvin monenlaisiin tarkoituksiin ja aina eri tavalla kuin alkuperäisessä tutkimuksessa. Tietoarkistosta on haluttu etsiä esimerkiksi haastatteluja, joissa on läsnä yhtä aikaa kaksi eri-ikäistä haastateltavaa. Arkistoaineistot ovatkin hyvä lähde tutkimusvuorovaikutuksen analyysiin: analyysin kohteeksi voi valita useista haastatteluaineistoista ne yksittäiset haastattelut, jotka täyttävät tutkimusasetelmalle asetetut kriteerit. Aineistoja käytetään myös rinnan oman tuoreen aineiston kanssa, uuden tutkimuksen ideointiin ja menetelmäopetuksen analyysiharjoituksiin.

Laadullisen aineiston arvo ei määrity sen perusteella, sisältyykö siihen tutkittavien suuria tunteita ja erityisen arkaluonteisia paljastuksia. Arkistoinnin arvoisia ovat aineistot, joiden keruuta ja sisältöä koskevat tiedot ovat selkeät ja riittävät jatkokäytön näkökulmasta. Suuria tunteita ja paljastuksia sisältävä aineistokin voi olla käytännössä arvoton, jos on epäselvää, koska ja mihin tarkoitukseen aineisto on luotu ja tiedostojen tai litteraattien perustiedot puuttuvat. Kun haluaa turvata aineistonsa käytettävyyden, kannattaa perehtyä aineistonhallinnan käsikirjan ohjeisiin. Niiden avulla jokainen voi lisätä aineistonsa arvoa ja varmistaa sille loppumattoman elinkaaren.

Arja Kuula
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi

Dataintensiivinen tiede tarvitsee oikeanlaista metadataa

Ilman kuvailevaa tietoa, metadataa, sähköinen tutkimusaineisto, data, on merkityksetöntä bittimössöä. Jotta tutkimusaineistoa voidaan hyödyntää nyt ja tulevaisuudessa, tarvitaan tietoa esimerkiksi sen sisällöstä ja rakenteesta sekä mahdollisista muokkauksista ja käyttöoikeuksista. Näitä tarpeita varten eri maiden yhteiskuntatieteelliset data-arkistot kehittivät 1990-luvulla uuden monipuolisen kuvailuformaatin, DDI:n. Aluksi DDI keskittyi tutkimusaineistojen arkistointivaiheessa tarvittavaan metadataan, mutta tuorein versio, DDI 3, kattaa datan koko elinkaaren.

DDI:n käyttäjäkunta laajenee jatkuvasti. Viime vuoden joulukuussa järjestetty 2nd Annual European DDI Users Group Meeting, tuttavallisemmin EDDI, houkutteli talviseen Utrechtiin seitsemänkymmentä tutkimusaineistojen metadatan asiantuntijaa. Osallistujia oli data-arkistojen lisäksi muun muassa akateemisista tutkimusorganisaatioista, kaupallisista ohjelmistoyrityksistä, Eurostatista ja Australian tilastotoimesta. Yhteistä kaikille osallistujille oli halu hyödyntää olemassa olevien ja tulevien tietoaineistojen koko potentiaali ja tahto palvella dataa tuottavia ja käyttäviä sidosryhmiä parhaalla mahdollisella tavalla.

Tietoarkistosta meitä oli Utrechtissä kaksi: minä ja atk-erikoistutkijamme Matti Heinonen. Kaksipäiväisen seminaarin aikana ehdimme saada aimo annoksen sekä käytännön tietoa että uusia ideoita. Matti keskittyi teknisiin sessioihin, minulle jäivät ”yleisemmät teemat”. Yli kahdenkymmenen toinen toistaan paremman esityksen joukosta kiinnostavimmiksi nousivat mielestäni Peter Wittenburgin ja Steven Valen esitykset.

Max Planck -instituutin kieliarkistoa johtava Peter Wittenburg kertoi tieteellisen datan eurooppalaista e-infrastruktuuria visioineen korkean tason asiantuntijaryhmän työn tuloksista. Tämä HLEG-ryhmä luovutti lokakuussa Euroopan komissiolle loppuraporttinsa ”Riding the wave. How Europe can gain from the rising tide of scientific data”. Tiede on tällä hetkellä dataintensiivistä: tutkijat elävät suurten datamassojen keskellä ja tutkijoiden käytössä olevan datan määrä kasvaa koko ajan kaikilla tieteenaloilla. Tämä tieteen neljänneksi paradigmaksikin kutsuttu vaihe tarjoaa luonnollisesti runsaasti mahdollisuuksia, mutta esityksessään Wittenburg keskittyi haasteisiin. Datanhallinnan vaatimukset kasvavat kohisten. Esimerkiksi datan säilytysaika ja -strategiat vaihtelevat datan tyypin mukaan. Yleistäen voidaan sanoa, että luonnontieteissä ongelmana on datan määrä, yhteiskuntatieteissä ja humanistisissa tieteissä datan monimutkaisuus. Oikeanlainen metadata on keskeinen datanhallinnan väline.

Wittenburgin puheessa toistui myös sana luottamus: eri toimijoiden datan elinkaaren eri vaiheissa olisi voitava luottaa toisiinsa ja tietysti itse dataan. Tärkeää olisi myös saavuttaa laaja konsensus siitä, että arvokkaan tieteellisen datan laadukas dokumentointi, huolellinen säilyttäminen ja mahdollisimman avoin saatavuus jatkokäyttöön hyödyttävät sekä tiedeyhteisöä että yhteiskuntaa. Haasteet ovat samanlaisia tai ainakin hyvin samankaltaisia (Euroopan) eri maissa ja eri tieteenaloilla, ja ne ovat tuttuja tietoarkistotyön arjestakin.

YK:n Euroopan talouskomission UNECE:n Steven Vale tarkasteli esityksessään datanhallinnan ongelmia tilastojen tuottajan näkökulmasta. Tilastovirastojen yhteistyön helpottamiseksi ja tilastojen laadun parantamiseksi UNECE, Eurostat ja OECD:n METIS-työryhmä ovat tuottaneet tilastollisten metadatajärjestelmien perustietopaketin (the Common Metadata Framework). Paketin ehkä mielenkiintoisinta antia on tilastotuotannon yleinen prosessimalli GSPBM (Generic Statistical Business Process Model), jonka avulla voidaan vertailla, tutkia ja kehittää sekä organisaation sisäisiä että organisaatioiden välisiä prosesseja. Kuten Valekin toi esille, GSPBM:llä on huomattavia yhtäläisyyksiä DDI 3:n pohjana olevan elämänkaarimallin kanssa.

Tilastotuotanto ei yleensä etene suoraviivaisesti suunnittelusta jakeluun, joten GSPBM ole lineaarinen malli, vaan prosessimatriisi. Sen avulla voi kuvata monimutkaisiakin tilastotuotantoprosesseja. Teoreettinen GSBPM-malli ei kuitenkaan riitä; lisäksi tarvitaan muun muassa työkaluja ja metadataformaatteja. Ongelmana on, että ei ole olemassa sellaista metadatastandardia, joka kattaisi GSBPM:n kaikki prosessit. Vale heittikin pohdittavaksi ajatuksen DDI:n ja tilastotiedon siirto- ja kuvailuformaatin SDMX:n toisiaan tukevasta käytöstä prosessin eri vaiheissa.

Useamman jo olemassa olevan ja toisiaan tukevan ”täsmästandardin” käyttö kuulostaa kieltämättä järkevämmältä kuin yhden ison kaikenkattavan ja siten väistämättä hyvin monimutkaisen standardin rakentaminen.

Virallisen ohjelman jälkeen vapaamuotoinen keskustelu jatkui iltamyöhään. Tilaisuus oli käytettävä hyväksi, sillä näin suurta joukkoa tutkimusaineistojen metadatasta ja tiedonhallinnasta innostuneita eturivin asiantuntijoita tapaa vain harvoin! Seuraavassa EDDI-seminaarissa ensi syksynä Göteborgissa voimme toivottavasti esitellä tutkimusinfrastruktuuriimme kehittämiseen saamamme lisärahoituksen avulla toteutettavia parannuksia palveluihimme ja käytäntöihimme.

Mari Kleemola
Tietopalvelupäällikkö
DDI Alliance Expert Committee Vice Chair
etunimi.sukunimi [at] uta.fi

Dataintensiivinen tiede tarvitsee oikeanlaista metadataa

Ilman kuvailevaa tietoa, metadataa, sähköinen tutkimusaineisto, data, on merkityksetöntä bittimössöä. Jotta tutkimusaineistoa voidaan hyödyntää nyt ja tulevaisuudessa, tarvitaan tietoa esimerkiksi sen sisällöstä ja rakenteesta sekä mahdollisista muokkauksista ja käyttöoikeuksista. Näitä tarpeita varten eri maiden yhteiskuntatieteelliset data-arkistot kehittivät 1990-luvulla uuden monipuolisen kuvailuformaatin, DDI:n. Aluksi DDI keskittyi tutkimusaineistojen arkistointivaiheessa tarvittavaan metadataan, mutta tuorein versio, DDI 3, kattaa datan koko elinkaaren.

DDI:n käyttäjäkunta laajenee jatkuvasti. Viime vuoden joulukuussa järjestetty 2nd Annual European DDI Users Group Meeting, tuttavallisemmin EDDI, houkutteli talviseen Utrechtiin seitsemänkymmentä tutkimusaineistojen metadatan asiantuntijaa. Osallistujia oli data-arkistojen lisäksi muun muassa akateemisista tutkimusorganisaatioista, kaupallisista ohjelmistoyrityksistä, Eurostatista ja Australian tilastotoimesta. Yhteistä kaikille osallistujille oli halu hyödyntää olemassa olevien ja tulevien tietoaineistojen koko potentiaali ja tahto palvella dataa tuottavia ja käyttäviä sidosryhmiä parhaalla mahdollisella tavalla.

Tietoarkistosta meitä oli Utrechtissä kaksi: minä ja atk-erikoistutkijamme Matti Heinonen. Kaksipäiväisen seminaarin aikana ehdimme saada aimo annoksen sekä käytännön tietoa että uusia ideoita. Matti keskittyi teknisiin sessioihin, minulle jäivät ”yleisemmät teemat”. Yli kahdenkymmenen toinen toistaan paremman esityksen joukosta kiinnostavimmiksi nousivat mielestäni Peter Wittenburgin ja Steven Valen esitykset.

Max Planck -instituutin kieliarkistoa johtava Peter Wittenburg kertoi tieteellisen datan eurooppalaista e-infrastruktuuria visioineen korkean tason asiantuntijaryhmän työn tuloksista. Tämä HLEG-ryhmä luovutti lokakuussa Euroopan komissiolle loppuraporttinsa ”Riding the wave. How Europe can gain from the rising tide of scientific data”. Tiede on tällä hetkellä dataintensiivistä: tutkijat elävät suurten datamassojen keskellä ja tutkijoiden käytössä olevan datan määrä kasvaa koko ajan kaikilla tieteenaloilla. Tämä tieteen neljänneksi paradigmaksikin kutsuttu vaihe tarjoaa luonnollisesti runsaasti mahdollisuuksia, mutta esityksessään Wittenburg keskittyi haasteisiin. Datanhallinnan vaatimukset kasvavat kohisten. Esimerkiksi datan säilytysaika ja -strategiat vaihtelevat datan tyypin mukaan. Yleistäen voidaan sanoa, että luonnontieteissä ongelmana on datan määrä, yhteiskuntatieteissä ja humanistisissa tieteissä datan monimutkaisuus. Oikeanlainen metadata on keskeinen datanhallinnan väline.

Wittenburgin puheessa toistui myös sana luottamus: eri toimijoiden datan elinkaaren eri vaiheissa olisi voitava luottaa toisiinsa ja tietysti itse dataan. Tärkeää olisi myös saavuttaa laaja konsensus siitä, että arvokkaan tieteellisen datan laadukas dokumentointi, huolellinen säilyttäminen ja mahdollisimman avoin saatavuus jatkokäyttöön hyödyttävät sekä tiedeyhteisöä että yhteiskuntaa. Haasteet ovat samanlaisia tai ainakin hyvin samankaltaisia (Euroopan) eri maissa ja eri tieteenaloilla, ja ne ovat tuttuja tietoarkistotyön arjestakin.

YK:n Euroopan talouskomission UNECE:n Steven Vale tarkasteli esityksessään datanhallinnan ongelmia tilastojen tuottajan näkökulmasta. Tilastovirastojen yhteistyön helpottamiseksi ja tilastojen laadun parantamiseksi UNECE, Eurostat ja OECD:n METIS-työryhmä ovat tuottaneet tilastollisten metadatajärjestelmien perustietopaketin (the Common Metadata Framework). Paketin ehkä mielenkiintoisinta antia on tilastotuotannon yleinen prosessimalli GSPBM (Generic Statistical Business Process Model), jonka avulla voidaan vertailla, tutkia ja kehittää sekä organisaation sisäisiä että organisaatioiden välisiä prosesseja. Kuten Valekin toi esille, GSPBM:llä on huomattavia yhtäläisyyksiä DDI 3:n pohjana olevan elämänkaarimallin kanssa.

Tilastotuotanto ei yleensä etene suoraviivaisesti suunnittelusta jakeluun, joten GSPBM ole lineaarinen malli, vaan prosessimatriisi. Sen avulla voi kuvata monimutkaisiakin tilastotuotantoprosesseja. Teoreettinen GSBPM-malli ei kuitenkaan riitä; lisäksi tarvitaan muun muassa työkaluja ja metadataformaatteja. Ongelmana on, että ei ole olemassa sellaista metadatastandardia, joka kattaisi GSBPM:n kaikki prosessit. Vale heittikin pohdittavaksi ajatuksen DDI:n ja tilastotiedon siirto- ja kuvailuformaatin SDMX:n toisiaan tukevasta käytöstä prosessin eri vaiheissa.

Useamman jo olemassa olevan ja toisiaan tukevan ”täsmästandardin” käyttö kuulostaa kieltämättä järkevämmältä kuin yhden ison kaikenkattavan ja siten väistämättä hyvin monimutkaisen standardin rakentaminen.

Virallisen ohjelman jälkeen vapaamuotoinen keskustelu jatkui iltamyöhään. Tilaisuus oli käytettävä hyväksi, sillä näin suurta joukkoa tutkimusaineistojen metadatasta ja tiedonhallinnasta innostuneita eturivin asiantuntijoita tapaa vain harvoin! Seuraavassa EDDI-seminaarissa ensi syksynä Göteborgissa voimme toivottavasti esitellä tutkimusinfrastruktuuriimme kehittämiseen saamamme lisärahoituksen avulla toteutettavia parannuksia palveluihimme ja käytäntöihimme.

Mari Kleemola
Tietopalvelupäällikkö
DDI Alliance Expert Committee Vice Chair
etunimi.sukunimi [at] uta.fi