Tag Archives: DDI

FSD’s multilingual and qualitative data expertise brings in international visitors

During its 20 years of operation, FSD has established its status as a trusted partner in collaboration of data archives. On the initiative of our Japanese colleagues, we organised a seminar entitled Metadata, Data Catalogues and Tools for Findability in March.

The motivation for the seminar was a Japanese national project developing a joint data catalogue of several service providers. Our Japanese visitors chose to visit Finland and FSD because we have a long experience in successfully providing services in two languages, Finnish and English, as well as delivering metadata for harvesting by national and international joint catalogues.

We designed our presentations to answer the needs of our guests. FSD’s experts shared experiences of using the DDI-C metadata format, the process of joining national and international multidisciplinary catalogues, the significance and utilisation of controlled vocabularies, and the CoreTrustSeal certification, among others.

Professor Yukio Maeda presents JSPS’s plan for a federated data catalogue. Photo: Tuomas J. Alaterä

In addition to talks by FSD experts and our guests from Japan, the seminar featured presentations by the Director of CESSDA Ron Dekker and the Swedish National Data Service’s IT Systems Architect Olof Olsson. It is important for CESSDA to collaborate with organisations outside of Europe. The seminar in Tampere provided a good opportunity to share information about CESSDA strategy and objectives in responsible data sharing as well as the CESSDA Data Catalogue, which contains both FSD’s and SND’s metadata. SND makes use of the DDI-L format, and Olsson’s presentation on the topic offered a good comparison of two distinct metadata solutions. The presentation was also interesting from FSD’s systems development point of view.

Similar challenges

The seminar showed that the challenges of research data management and sharing are very similar everywhere. Similarly to Finland and Europe, researchers in Japan have a positive attitude towards data sharing in principle. However, when it comes to sharing their own data with others, they do not feel comfortable doing so or they prefer to share the data themselves rather than letting professionals do it for them. Our data acquisition team regularly encounters similar attitudes.

Seminar attendees. Photo: Misa Senbonmatsu

What also sounded familiar was the fact that the development of the data infrastructure is not actually nationally coordinated in Japan. Instead, the funder has opened a competition where different service providers are able to apply for funding for projects with certain pre-defined conditions. The big picture is then made up of what various organisations think is necessary and which project proposals the funder approves. Another thing to consider is how established the infrastructure operations will be after the funding period.

More information:

» DDI-C ja L documentation
» CESSDA ERIC
» Swedish National Data Service SND
» Japan Society for the Promotion of Science JSPS
» FSD metadata records in machine readable formats
» Data are described in the DDI format
» Vocabularies used in FSD’s data descriptions

Helena Laaksonen
director
firstname.surname [at] tuni.fi

This blog entry is also available in Finnish:
Monikielinen aineisto-osaaminen ja laadullisten aineistojen asiantuntemus tuovat kansainvälisiä vieraita Tietoarkistoon.

Monikielinen aineisto-osaaminen ja laadullisten aineistojen asiantuntemus tuovat kansainvälisiä vieraita Tietoarkistoon

Tietoarkisto on 20 toimintavuotensa aikana vakiinnuttanut asemansa luotettuna kumppanina data-arkistojen yhteistyössä. Maaliskuussa järjestimme japanilaisten kollegojen kanssa, heidän aloitteestaan, seminaarin Metadata, Data Catalogues and Tools for Findability.

Kansainvälisen seminaarin taustalla on Japanin kansallinen hanke, jossa he rakentavat usean palveluntarjoajan yhteistä aineistoluetteloa. Japanilaiset vieraat valitsivat Suomen ja Tietoarkiston vierailukohteekseen, koska Tietoarkistolla on pitkä kokemus onnistuneesta kaksikielisten palvelujen tuottamisesta suomeksi ja englanniksi sekä tutkimusaineistojen kuvailutietojen saattamisesta haravoitaviksi kansallisiin ja kansainvälisiin yhteisluetteloihin.

Tietoarkistossa koostimme oman osuutemme ohjelmaan vieraiden tiedontarpeesta lähtien. Tietoarkiston asiantuntijat kertoivat muun muassa DDI-C-kuvailuformaatin hyödyntämisestä Tietoarkistossa, liittymisestä kansallisiin ja kansainvälisiin monitieteisiin luetteloihin, monikielisten asiasanastojen merkityksestä ja hyödyntämisestä sekä CTS-sertifioinnista.

Professori Yukio Maeda esittelee JSPS:n suunnitelmaa yhteiskatalogiksi.
Kuva: Tuomas J. Alaterä

Seminaarissa esiintyivät Tietoarkiston asiantuntijoiden ja japanilaisten vieraiden lisäksi CESSDA ERICin johtaja Ron Dekker ja Ruotsin datapalvelun SND:n järjestelmäarkkitehti Olof Olsson. CESSDAlle on tärkeää luoda yhteistyösuhteita myös Euroopan ulkopuolelle. Tampereen seminaari antoi hyvän mahdollisuuden kertoa CESSDAn strategiasta ja tavoitteista tutkimusdatan vastuullisen avaamisen alalla, unohtamatta CESSDAn aineistoluetteloa, johon myös Tietoarkiston ja SND:n metadata haravoidaan. Ruotsin SND hyödyntää DDI-L-kuvailuformaattia. Olssonin esitys aiheesta tarjosi hyvän vertailukohdan kahden erilaisen metadataratkaisun välillä ja oli kiinnostava myös Tietoarkiston järjestelmäkehityksen näkökulmasta.

Samankaltaiset haasteet

Varsinaisen asiasisällön lisäksi seminaari osoitti kaikille osallistujille, että tutkimusaineistojen hallinnan ja avaamisen ongelmat ovat kaikkialla hyvin samanlaisia. Japanissakin tutkijat suhtautuvat periaatteessa myönteisesti, mutta eivät usein halua jakaa omaa dataansa muiden kanssa. Ja jos he haluavat, he usein tekevät sen mieluummin itse kuin antavat asiaan perehtyneiden ammattilaisten hoitaa tehtävän puolestaan. Tämä on Tietoarkiston aineistonhankinnassa tuttua.

Seminaariosallistujat. Kuva: Misa Senbonmatsu

Kovin tutulta vaikutti myös se, että datainfrastruktuurin rakentamista ei varsinaisesti koordinoida Japanissa kansallisesti. Rahoittaja on avannut kilpailun, josta eri palveluntarjoajat ovat voineet hakea rahoitusta tietyin ehdoin määritellyille hankkeille. Kansallinen kokonaiskuva rakentuu siitä, mitä erilliset organisaatiot pitävät tarpeellisena – ja mitä rahoittaja näistä esityksistä jatkoon valitsee. Perustamisvaiheen ohella pohdittavaa aiheuttaa infrastruktuurin toiminnan vakiinnuttaminen rahoituskauden päättyessä.

Lisätietoa:

» DDI-C ja L -dokumentaatio
» CESSDA ERIC
» Svensk nationell datatjänst SND
» Japan Society for the Promotion of Science JSPS
» Aineistokuvailut koneluettavissa formaateissa
» Aineistokuvailun DDI-formaatti
» Aineistonkuvailussa käytetyt sanastot

Helena Laaksonen
johtaja
etunimi.sukunimi [at] tuni.fi

Tämä blogikirjoitus on luettavissa myös englanniksi:
FSD’s multilingual and qualitative data expertise brings in international visitors.

Miten aineistot arkistoituvat Tietoarkistoon?

Kun tutkija tai tutkijaryhmä on lähettänyt tutkimusaineistonsa Tietoarkistoon arkistoitavaksi, varsinainen aineiston käsittelyprosessi vasta alkaa. Arkistoitavaksi toimitettu aineisto kulkee aina aineistonkäsittelijän sormien läpi ennen kuin se julkaistaan palveluportaali Ailassa jatkokäyttöä varten.

Erilaiset tietokoneohjelmat helpottavat, nopeuttavat ja virtaviivaistavat aineiston käsittelyä, mutta loppujen lopuksi aineiston käsittelyyn liittyvän työn tekevät ihmiset eivätkä koneet. Näin pystymme varmistamaan, että mitä moninaisimmat aineistot ovat tulevaisuudessakin tutkimusmaailman käytettävissä yhdenmukaiseksi suunniteltujen ohjeidemme mukaisesti.

Aineistonkäsittelijäntyö on Tietoarkiston ydintyötä, jota ilman Ailassa ei olisi jatkokäyttökelpoisia aineistoja. Tietoarkiston pitkäaikaiset tutkimusapulaiset Eliisa Haanpää (kvantitatiivisten aineistojen käsittely) ja Annika Sallinen (kvalitatiivisten aineistojen käsittely) kertovat, minkälaista aineistonkäsittelijän työ on, ja minkälaisen prosessin aineistot käyvät läpi ennen kuin ne ilmestyvät Ailaan.

Kyselytutkimukset arkistoituvat muuttuja muuttujalta

Eliisa

Aloitan kvantitatiivisen aineiston käsittelyn aina tutustumalla aineistoon, siihen sisältyviin muuttujiin sekä aineistoon liittyvään tutkimusraporttiin ja lisämateriaaliin. Avattuani datatiedoston, tarkastan ensimmäisenä kaikki muuttujat ja varmistan, että käsiteltävä data vastaa kyselylomaketta. Nimeän muuttujat kyselylomakkeen mukaisesti, mihin perustuen määrittelen myös muuttujien selitteet.

Tämän jälkeen arvioin aineiston tunnisteellisuutta ja arkaluontoisuutta, jonka jälkeen teen tarvittavat toimet vastaajien anonymiteetin säilyttämiseksi. Tässä vaiheessa apunani ovat usein Tilastokeskuksen erilaiset alue-, toimiala- ja tieteenalaluokitukset. Lopuksi vielä varsinaista dataa käsitellessäni tarkistan muuttujien frekvenssit suhteessa tutkimusraporttiin.

Käsittelen dataa SPSS:n syntaksin avulla. Numeroista ja loogisesta päättelystä pitävänä ihmisenä syntaksin työstäminen on mielestäni palkitsevaa puuhaa. Syntaksin tekemiseen sisältyy monia yksin ja yhdessä kollegojen kanssa pohdittavia haasteita, useita onnistumisen kokemuksia, kun komennot toimivat toivomallani tavalla ja tietysti työni kannalta tärkein tuotos, jatkokäyttöön valmistuva datatiedosto.

Varsinaisen datan valmistuttua siirryn aineiston kuvailuun, johon kuuluu muuttujien kuvailu sekä aineiston sisällöllinen kuvailu. Tietopankkina sisällöllistä kuvailua tehdessäni käytän tutkimusraporttia ja sieltä löytyviä aineistonkeruuseen liittyviä tietoja. Aineiston (eli datan sekä aineiston kuvailun) käsittelyn valmistuttua kirjaan tietokantaamme ”data valmis”-komennon, jonka jälkeen aineisto julkaistaan palveluportaali Ailassa.

Aineistoja käsitellessäni olen oppinut paljon paitsi tilastollisista menetelmistä ja kyselytutkimuksista, myös eri tieteenalojen tutkimusteemoista. Olen tähän mennessä käsitellyt aineistoja liittyen muun muassa lasten ja nuorten mediakäyttäytymiseen, lasten uhrikokemuksiin, suomalaisten hyvinvointiin, eduskuntavaaleihin, asumiseen ja kaupunkikuvaan, opiskeluun sekä vapaaehtoistoimintaan.

Aineiston käsittelyn eri vaiheissa olen yhteydessä yhteen tai useampaan tutkijaan, mikäli tarvitsen aineistosta lisätietoja. Yhteistyö sekä tutkijoiden suuntaan että kollegoiden kanssa on erittäin merkittävässä osassa työskentelyssäni aineistojen parissa.

Kvalitatiivisessa aineistossa tallentuu aina pala aikaa

Annika

Kvalitatiivisten aineistojen arkistointi poikkeaa kvantitatiivisten aineistojen arkistoinnista sikäli, ettei siinä tarvitse pohtia syntaksin komentoja, mutta lukulihaksia työ vaatii senkin edestä. Luemme tänne toimitetuista haastatteluista ja kirjoituksista jokaisen sivun. Tämä täytyy tehdä huolellisesti, että ihmisten tunnistetietoja ei jää luovutettavaan aineistoon. Tekstimassaa saattaa olla yhdessä aineistossa jopa lähes tuhat sivua.

Kvalitatiivisten aineistojen tarkastaminen on siis välillä uppoutumista lukemiseen, mutta työ sisältää myös järjestelmällistä tiedon poimimista sekä järjestelyä ja tietokoneohjelmien kanssa kikkailua – mikä on aina oma taiteenlajinsa.

Dokumentit nimetään järjestelmällisesti. Aineistojen taustatiedot järjestetään yhdenmukaisiksi ja niistä tehdään taustatietohakemisto jatkokäyttäjälle. Työssä käytetään lukuisia ohjelmia, joista tekninen palvelu keskustelee mm. termeillä DDI, HTML ja Python – minä keskityn opettelemaan konkreettisen käytön.

Koko arkistointiprosessin ajan teen muistiinpanoja eteen tulleista ongelmakohdista, niiden ratkaisuista ja vielä tehtävistä vaiheista. Listalla voi olla selvitettävänä, mitä tutkijan kryptinen merkintä muistiinpanoissa tarkoittaa, mihin teollisuusalaan karkeistetaan Suomussalmen Hallan lihajalostamo, sisältävätkö dokumentit piilodataa ja saisiko 400 erillisen tiedoston nimet muutettua automaattisesti toiseen muotoon, jotta kaikkea ei tarvitsisi tehdä käsin.

Kaikkeen löytyy yleensä vastaus, joko kollegoilta, tutkijoilta tai yhdeltä tärkeältä työkaverilta – internetistä. Netti on ollut oiva apu esimerkiksi tilanteessa, jossa oman pään kapasiteetti keksiä suomalaista naisten nimiä on tullut tiensä päätökseen.

Minun mielestäni kvalitatiivisten aineistojen arkistointi on erittäin mielenkiintoista, sillä tutkimusaineistoon perehtyminen on aina oma matkansa jonkin tieteenalan ja alueen tutkimuksen pariin. Aineistoja läpi kahlatessa oppii uusia käsitteitä ja ymmärtää taas elämää eri näkökulmista ehkä hitusen paremmin. Tutkittavat kertovat tutkijalle elämästään asioita, joita eivät muille välttämättä kerro. Työ sisältää myös varjopuolia. Koska kaikki työvaiheet vaativat tarkkuutta ja keskittymistä, silmien ja lukuhermojen ajoittaiselta väsymisiltä ei voi välttyä.

Arkistoinnin loppusuoralla kirjoitetaan vielä nettisivuille tuleva kuvaus aineistosta ja hiotaan aineiston yksityiskohtia. Esimerkiksi taustatietoihin tulee helposti virheitä. Minun tulee myös tarkastaa, että aineistoon on liitetty mukaan tutkimuskutsut, haastattelukysymykset ja muut tarvittavat dokumentit. Lisäksi haastattelukysymykset tulee tallentaa Aila-hakuun. Julkaisun jälkeen menen vielä nettisivuille katsomaan, että aineisto näyttää siellä siltä, miltä sen pitääkin!

Lisätietoa:
» Palveluportaali Aila

Annika Sallinen, tutkimusapulainen, etunimi.sukunimi [at] uta.fi
Eliisa Haanpää, tutkimusapulainen, etunimi.sukunimi [at] uta.fi

Miten aineistot arkistoituvat Tietoarkistoon?

Kun tutkija tai tutkijaryhmä on lähettänyt tutkimusaineistonsa Tietoarkistoon arkistoitavaksi, varsinainen aineiston käsittelyprosessi vasta alkaa. Arkistoitavaksi toimitettu aineisto kulkee aina aineistonkäsittelijän sormien läpi ennen kuin se julkaistaan palveluportaali Ailassa jatkokäyttöä varten.

Erilaiset tietokoneohjelmat helpottavat, nopeuttavat ja virtaviivaistavat aineiston käsittelyä, mutta loppujen lopuksi aineiston käsittelyyn liittyvän työn tekevät ihmiset eivätkä koneet. Näin pystymme varmistamaan, että mitä moninaisimmat aineistot ovat tulevaisuudessakin tutkimusmaailman käytettävissä yhdenmukaiseksi suunniteltujen ohjeidemme mukaisesti.

Aineistonkäsittelijäntyö on Tietoarkiston ydintyötä, jota ilman Ailassa ei olisi jatkokäyttökelpoisia aineistoja. Tietoarkiston pitkäaikaiset tutkimusapulaiset Eliisa Haanpää (kvantitatiivisten aineistojen käsittely) ja Annika Sallinen (kvalitatiivisten aineistojen käsittely) kertovat, minkälaista aineistonkäsittelijän työ on, ja minkälaisen prosessin aineistot käyvät läpi ennen kuin ne ilmestyvät Ailaan.

Kyselytutkimukset arkistoituvat muuttuja muuttujalta

Eliisa

Aloitan kvantitatiivisen aineiston käsittelyn aina tutustumalla aineistoon, siihen sisältyviin muuttujiin sekä aineistoon liittyvään tutkimusraporttiin ja lisämateriaaliin. Avattuani datatiedoston, tarkastan ensimmäisenä kaikki muuttujat ja varmistan, että käsiteltävä data vastaa kyselylomaketta. Nimeän muuttujat kyselylomakkeen mukaisesti, mihin perustuen määrittelen myös muuttujien selitteet.

Tämän jälkeen arvioin aineiston tunnisteellisuutta ja arkaluontoisuutta, jonka jälkeen teen tarvittavat toimet vastaajien anonymiteetin säilyttämiseksi. Tässä vaiheessa apunani ovat usein Tilastokeskuksen erilaiset alue-, toimiala- ja tieteenalaluokitukset. Lopuksi vielä varsinaista dataa käsitellessäni tarkistan muuttujien frekvenssit suhteessa tutkimusraporttiin.

Käsittelen dataa SPSS:n syntaksin avulla. Numeroista ja loogisesta päättelystä pitävänä ihmisenä syntaksin työstäminen on mielestäni palkitsevaa puuhaa. Syntaksin tekemiseen sisältyy monia yksin ja yhdessä kollegojen kanssa pohdittavia haasteita, useita onnistumisen kokemuksia, kun komennot toimivat toivomallani tavalla ja tietysti työni kannalta tärkein tuotos, jatkokäyttöön valmistuva datatiedosto.

Varsinaisen datan valmistuttua siirryn aineiston kuvailuun, johon kuuluu muuttujien kuvailu sekä aineiston sisällöllinen kuvailu. Tietopankkina sisällöllistä kuvailua tehdessäni käytän tutkimusraporttia ja sieltä löytyviä aineistonkeruuseen liittyviä tietoja. Aineiston (eli datan sekä aineiston kuvailun) käsittelyn valmistuttua kirjaan tietokantaamme ”data valmis”-komennon, jonka jälkeen aineisto julkaistaan palveluportaali Ailassa.

Aineistoja käsitellessäni olen oppinut paljon paitsi tilastollisista menetelmistä ja kyselytutkimuksista, myös eri tieteenalojen tutkimusteemoista. Olen tähän mennessä käsitellyt aineistoja liittyen muun muassa lasten ja nuorten mediakäyttäytymiseen, lasten uhrikokemuksiin, suomalaisten hyvinvointiin, eduskuntavaaleihin, asumiseen ja kaupunkikuvaan, opiskeluun sekä vapaaehtoistoimintaan.

Aineiston käsittelyn eri vaiheissa olen yhteydessä yhteen tai useampaan tutkijaan, mikäli tarvitsen aineistosta lisätietoja. Yhteistyö sekä tutkijoiden suuntaan että kollegoiden kanssa on erittäin merkittävässä osassa työskentelyssäni aineistojen parissa.

Kvalitatiivisessa aineistossa tallentuu aina pala aikaa

Annika

Kvalitatiivisten aineistojen arkistointi poikkeaa kvantitatiivisten aineistojen arkistoinnista sikäli, ettei siinä tarvitse pohtia syntaksin komentoja, mutta lukulihaksia työ vaatii senkin edestä. Luemme tänne toimitetuista haastatteluista ja kirjoituksista jokaisen sivun. Tämä täytyy tehdä huolellisesti, että ihmisten tunnistetietoja ei jää luovutettavaan aineistoon. Tekstimassaa saattaa olla yhdessä aineistossa jopa lähes tuhat sivua.

Kvalitatiivisten aineistojen tarkastaminen on siis välillä uppoutumista lukemiseen, mutta työ sisältää myös järjestelmällistä tiedon poimimista sekä järjestelyä ja tietokoneohjelmien kanssa kikkailua – mikä on aina oma taiteenlajinsa.

Dokumentit nimetään järjestelmällisesti. Aineistojen taustatiedot järjestetään yhdenmukaisiksi ja niistä tehdään taustatietohakemisto jatkokäyttäjälle. Työssä käytetään lukuisia ohjelmia, joista tekninen palvelu keskustelee mm. termeillä DDI, HTML ja Python – minä keskityn opettelemaan konkreettisen käytön.

Koko arkistointiprosessin ajan teen muistiinpanoja eteen tulleista ongelmakohdista, niiden ratkaisuista ja vielä tehtävistä vaiheista. Listalla voi olla selvitettävänä, mitä tutkijan kryptinen merkintä muistiinpanoissa tarkoittaa, mihin teollisuusalaan karkeistetaan Suomussalmen Hallan lihajalostamo, sisältävätkö dokumentit piilodataa ja saisiko 400 erillisen tiedoston nimet muutettua automaattisesti toiseen muotoon, jotta kaikkea ei tarvitsisi tehdä käsin.

Kaikkeen löytyy yleensä vastaus, joko kollegoilta, tutkijoilta tai yhdeltä tärkeältä työkaverilta – internetistä. Netti on ollut oiva apu esimerkiksi tilanteessa, jossa oman pään kapasiteetti keksiä suomalaista naisten nimiä on tullut tiensä päätökseen.

Minun mielestäni kvalitatiivisten aineistojen arkistointi on erittäin mielenkiintoista, sillä tutkimusaineistoon perehtyminen on aina oma matkansa jonkin tieteenalan ja alueen tutkimuksen pariin. Aineistoja läpi kahlatessa oppii uusia käsitteitä ja ymmärtää taas elämää eri näkökulmista ehkä hitusen paremmin. Tutkittavat kertovat tutkijalle elämästään asioita, joita eivät muille välttämättä kerro. Työ sisältää myös varjopuolia. Koska kaikki työvaiheet vaativat tarkkuutta ja keskittymistä, silmien ja lukuhermojen ajoittaiselta väsymisiltä ei voi välttyä.

Arkistoinnin loppusuoralla kirjoitetaan vielä nettisivuille tuleva kuvaus aineistosta ja hiotaan aineiston yksityiskohtia. Esimerkiksi taustatietoihin tulee helposti virheitä. Minun tulee myös tarkastaa, että aineistoon on liitetty mukaan tutkimuskutsut, haastattelukysymykset ja muut tarvittavat dokumentit. Lisäksi haastattelukysymykset tulee tallentaa Aila-hakuun. Julkaisun jälkeen menen vielä nettisivuille katsomaan, että aineisto näyttää siellä siltä, miltä sen pitääkin!

Lisätietoa:
» Palveluportaali Aila

Annika Sallinen, tutkimusapulainen, etunimi.sukunimi [at] uta.fi
Eliisa Haanpää, tutkimusapulainen, etunimi.sukunimi [at] uta.fi

Dataintensiivinen tiede tarvitsee oikeanlaista metadataa

Ilman kuvailevaa tietoa, metadataa, sähköinen tutkimusaineisto, data, on merkityksetöntä bittimössöä. Jotta tutkimusaineistoa voidaan hyödyntää nyt ja tulevaisuudessa, tarvitaan tietoa esimerkiksi sen sisällöstä ja rakenteesta sekä mahdollisista muokkauksista ja käyttöoikeuksista. Näitä tarpeita varten eri maiden yhteiskuntatieteelliset data-arkistot kehittivät 1990-luvulla uuden monipuolisen kuvailuformaatin, DDI:n. Aluksi DDI keskittyi tutkimusaineistojen arkistointivaiheessa tarvittavaan metadataan, mutta tuorein versio, DDI 3, kattaa datan koko elinkaaren.

DDI:n käyttäjäkunta laajenee jatkuvasti. Viime vuoden joulukuussa järjestetty 2nd Annual European DDI Users Group Meeting, tuttavallisemmin EDDI, houkutteli talviseen Utrechtiin seitsemänkymmentä tutkimusaineistojen metadatan asiantuntijaa. Osallistujia oli data-arkistojen lisäksi muun muassa akateemisista tutkimusorganisaatioista, kaupallisista ohjelmistoyrityksistä, Eurostatista ja Australian tilastotoimesta. Yhteistä kaikille osallistujille oli halu hyödyntää olemassa olevien ja tulevien tietoaineistojen koko potentiaali ja tahto palvella dataa tuottavia ja käyttäviä sidosryhmiä parhaalla mahdollisella tavalla.

Tietoarkistosta meitä oli Utrechtissä kaksi: minä ja atk-erikoistutkijamme Matti Heinonen. Kaksipäiväisen seminaarin aikana ehdimme saada aimo annoksen sekä käytännön tietoa että uusia ideoita. Matti keskittyi teknisiin sessioihin, minulle jäivät ”yleisemmät teemat”. Yli kahdenkymmenen toinen toistaan paremman esityksen joukosta kiinnostavimmiksi nousivat mielestäni Peter Wittenburgin ja Steven Valen esitykset.

Max Planck -instituutin kieliarkistoa johtava Peter Wittenburg kertoi tieteellisen datan eurooppalaista e-infrastruktuuria visioineen korkean tason asiantuntijaryhmän työn tuloksista. Tämä HLEG-ryhmä luovutti lokakuussa Euroopan komissiolle loppuraporttinsa ”Riding the wave. How Europe can gain from the rising tide of scientific data”. Tiede on tällä hetkellä dataintensiivistä: tutkijat elävät suurten datamassojen keskellä ja tutkijoiden käytössä olevan datan määrä kasvaa koko ajan kaikilla tieteenaloilla. Tämä tieteen neljänneksi paradigmaksikin kutsuttu vaihe tarjoaa luonnollisesti runsaasti mahdollisuuksia, mutta esityksessään Wittenburg keskittyi haasteisiin. Datanhallinnan vaatimukset kasvavat kohisten. Esimerkiksi datan säilytysaika ja -strategiat vaihtelevat datan tyypin mukaan. Yleistäen voidaan sanoa, että luonnontieteissä ongelmana on datan määrä, yhteiskuntatieteissä ja humanistisissa tieteissä datan monimutkaisuus. Oikeanlainen metadata on keskeinen datanhallinnan väline.

Wittenburgin puheessa toistui myös sana luottamus: eri toimijoiden datan elinkaaren eri vaiheissa olisi voitava luottaa toisiinsa ja tietysti itse dataan. Tärkeää olisi myös saavuttaa laaja konsensus siitä, että arvokkaan tieteellisen datan laadukas dokumentointi, huolellinen säilyttäminen ja mahdollisimman avoin saatavuus jatkokäyttöön hyödyttävät sekä tiedeyhteisöä että yhteiskuntaa. Haasteet ovat samanlaisia tai ainakin hyvin samankaltaisia (Euroopan) eri maissa ja eri tieteenaloilla, ja ne ovat tuttuja tietoarkistotyön arjestakin.

YK:n Euroopan talouskomission UNECE:n Steven Vale tarkasteli esityksessään datanhallinnan ongelmia tilastojen tuottajan näkökulmasta. Tilastovirastojen yhteistyön helpottamiseksi ja tilastojen laadun parantamiseksi UNECE, Eurostat ja OECD:n METIS-työryhmä ovat tuottaneet tilastollisten metadatajärjestelmien perustietopaketin (the Common Metadata Framework). Paketin ehkä mielenkiintoisinta antia on tilastotuotannon yleinen prosessimalli GSPBM (Generic Statistical Business Process Model), jonka avulla voidaan vertailla, tutkia ja kehittää sekä organisaation sisäisiä että organisaatioiden välisiä prosesseja. Kuten Valekin toi esille, GSPBM:llä on huomattavia yhtäläisyyksiä DDI 3:n pohjana olevan elämänkaarimallin kanssa.

Tilastotuotanto ei yleensä etene suoraviivaisesti suunnittelusta jakeluun, joten GSPBM ole lineaarinen malli, vaan prosessimatriisi. Sen avulla voi kuvata monimutkaisiakin tilastotuotantoprosesseja. Teoreettinen GSBPM-malli ei kuitenkaan riitä; lisäksi tarvitaan muun muassa työkaluja ja metadataformaatteja. Ongelmana on, että ei ole olemassa sellaista metadatastandardia, joka kattaisi GSBPM:n kaikki prosessit. Vale heittikin pohdittavaksi ajatuksen DDI:n ja tilastotiedon siirto- ja kuvailuformaatin SDMX:n toisiaan tukevasta käytöstä prosessin eri vaiheissa.

Useamman jo olemassa olevan ja toisiaan tukevan ”täsmästandardin” käyttö kuulostaa kieltämättä järkevämmältä kuin yhden ison kaikenkattavan ja siten väistämättä hyvin monimutkaisen standardin rakentaminen.

Virallisen ohjelman jälkeen vapaamuotoinen keskustelu jatkui iltamyöhään. Tilaisuus oli käytettävä hyväksi, sillä näin suurta joukkoa tutkimusaineistojen metadatasta ja tiedonhallinnasta innostuneita eturivin asiantuntijoita tapaa vain harvoin! Seuraavassa EDDI-seminaarissa ensi syksynä Göteborgissa voimme toivottavasti esitellä tutkimusinfrastruktuuriimme kehittämiseen saamamme lisärahoituksen avulla toteutettavia parannuksia palveluihimme ja käytäntöihimme.

Mari Kleemola
Tietopalvelupäällikkö
DDI Alliance Expert Committee Vice Chair
etunimi.sukunimi [at] uta.fi

Dataintensiivinen tiede tarvitsee oikeanlaista metadataa

Ilman kuvailevaa tietoa, metadataa, sähköinen tutkimusaineisto, data, on merkityksetöntä bittimössöä. Jotta tutkimusaineistoa voidaan hyödyntää nyt ja tulevaisuudessa, tarvitaan tietoa esimerkiksi sen sisällöstä ja rakenteesta sekä mahdollisista muokkauksista ja käyttöoikeuksista. Näitä tarpeita varten eri maiden yhteiskuntatieteelliset data-arkistot kehittivät 1990-luvulla uuden monipuolisen kuvailuformaatin, DDI:n. Aluksi DDI keskittyi tutkimusaineistojen arkistointivaiheessa tarvittavaan metadataan, mutta tuorein versio, DDI 3, kattaa datan koko elinkaaren.

DDI:n käyttäjäkunta laajenee jatkuvasti. Viime vuoden joulukuussa järjestetty 2nd Annual European DDI Users Group Meeting, tuttavallisemmin EDDI, houkutteli talviseen Utrechtiin seitsemänkymmentä tutkimusaineistojen metadatan asiantuntijaa. Osallistujia oli data-arkistojen lisäksi muun muassa akateemisista tutkimusorganisaatioista, kaupallisista ohjelmistoyrityksistä, Eurostatista ja Australian tilastotoimesta. Yhteistä kaikille osallistujille oli halu hyödyntää olemassa olevien ja tulevien tietoaineistojen koko potentiaali ja tahto palvella dataa tuottavia ja käyttäviä sidosryhmiä parhaalla mahdollisella tavalla.

Tietoarkistosta meitä oli Utrechtissä kaksi: minä ja atk-erikoistutkijamme Matti Heinonen. Kaksipäiväisen seminaarin aikana ehdimme saada aimo annoksen sekä käytännön tietoa että uusia ideoita. Matti keskittyi teknisiin sessioihin, minulle jäivät ”yleisemmät teemat”. Yli kahdenkymmenen toinen toistaan paremman esityksen joukosta kiinnostavimmiksi nousivat mielestäni Peter Wittenburgin ja Steven Valen esitykset.

Max Planck -instituutin kieliarkistoa johtava Peter Wittenburg kertoi tieteellisen datan eurooppalaista e-infrastruktuuria visioineen korkean tason asiantuntijaryhmän työn tuloksista. Tämä HLEG-ryhmä luovutti lokakuussa Euroopan komissiolle loppuraporttinsa ”Riding the wave. How Europe can gain from the rising tide of scientific data”. Tiede on tällä hetkellä dataintensiivistä: tutkijat elävät suurten datamassojen keskellä ja tutkijoiden käytössä olevan datan määrä kasvaa koko ajan kaikilla tieteenaloilla. Tämä tieteen neljänneksi paradigmaksikin kutsuttu vaihe tarjoaa luonnollisesti runsaasti mahdollisuuksia, mutta esityksessään Wittenburg keskittyi haasteisiin. Datanhallinnan vaatimukset kasvavat kohisten. Esimerkiksi datan säilytysaika ja -strategiat vaihtelevat datan tyypin mukaan. Yleistäen voidaan sanoa, että luonnontieteissä ongelmana on datan määrä, yhteiskuntatieteissä ja humanistisissa tieteissä datan monimutkaisuus. Oikeanlainen metadata on keskeinen datanhallinnan väline.

Wittenburgin puheessa toistui myös sana luottamus: eri toimijoiden datan elinkaaren eri vaiheissa olisi voitava luottaa toisiinsa ja tietysti itse dataan. Tärkeää olisi myös saavuttaa laaja konsensus siitä, että arvokkaan tieteellisen datan laadukas dokumentointi, huolellinen säilyttäminen ja mahdollisimman avoin saatavuus jatkokäyttöön hyödyttävät sekä tiedeyhteisöä että yhteiskuntaa. Haasteet ovat samanlaisia tai ainakin hyvin samankaltaisia (Euroopan) eri maissa ja eri tieteenaloilla, ja ne ovat tuttuja tietoarkistotyön arjestakin.

YK:n Euroopan talouskomission UNECE:n Steven Vale tarkasteli esityksessään datanhallinnan ongelmia tilastojen tuottajan näkökulmasta. Tilastovirastojen yhteistyön helpottamiseksi ja tilastojen laadun parantamiseksi UNECE, Eurostat ja OECD:n METIS-työryhmä ovat tuottaneet tilastollisten metadatajärjestelmien perustietopaketin (the Common Metadata Framework). Paketin ehkä mielenkiintoisinta antia on tilastotuotannon yleinen prosessimalli GSPBM (Generic Statistical Business Process Model), jonka avulla voidaan vertailla, tutkia ja kehittää sekä organisaation sisäisiä että organisaatioiden välisiä prosesseja. Kuten Valekin toi esille, GSPBM:llä on huomattavia yhtäläisyyksiä DDI 3:n pohjana olevan elämänkaarimallin kanssa.

Tilastotuotanto ei yleensä etene suoraviivaisesti suunnittelusta jakeluun, joten GSPBM ole lineaarinen malli, vaan prosessimatriisi. Sen avulla voi kuvata monimutkaisiakin tilastotuotantoprosesseja. Teoreettinen GSBPM-malli ei kuitenkaan riitä; lisäksi tarvitaan muun muassa työkaluja ja metadataformaatteja. Ongelmana on, että ei ole olemassa sellaista metadatastandardia, joka kattaisi GSBPM:n kaikki prosessit. Vale heittikin pohdittavaksi ajatuksen DDI:n ja tilastotiedon siirto- ja kuvailuformaatin SDMX:n toisiaan tukevasta käytöstä prosessin eri vaiheissa.

Useamman jo olemassa olevan ja toisiaan tukevan ”täsmästandardin” käyttö kuulostaa kieltämättä järkevämmältä kuin yhden ison kaikenkattavan ja siten väistämättä hyvin monimutkaisen standardin rakentaminen.

Virallisen ohjelman jälkeen vapaamuotoinen keskustelu jatkui iltamyöhään. Tilaisuus oli käytettävä hyväksi, sillä näin suurta joukkoa tutkimusaineistojen metadatasta ja tiedonhallinnasta innostuneita eturivin asiantuntijoita tapaa vain harvoin! Seuraavassa EDDI-seminaarissa ensi syksynä Göteborgissa voimme toivottavasti esitellä tutkimusinfrastruktuuriimme kehittämiseen saamamme lisärahoituksen avulla toteutettavia parannuksia palveluihimme ja käytäntöihimme.

Mari Kleemola
Tietopalvelupäällikkö
DDI Alliance Expert Committee Vice Chair
etunimi.sukunimi [at] uta.fi