Tag Archives: jatkokäyttö

Epäiletkö aineistosi arvoa?

Viime keväänä annoin erään tutkijakoulun kurssilla tehtäväksi pohtia pienryhmissä, ovatko osallistujien omat empiiriset väitösaineistot arkistoitavissa jatkokäyttöön. Pyysin miettimään perusteita yhtä lailla sekä arkistointiin että sen mahdottomuuteen. Kaikki osallistujat olivat keränneet laadullisia haastatteluja omaan tutkimukseensa.

Ryhmätyön palautetilaisuudessa kävi ilmi, että kukaan ei katsonut voivansa arkistoida omaa aineistoaan tiedeyhteisön jatkokäytettäväksi. Tavallisimpana syynä olen tottunut kuulemaan perusteluja, joissa eettiset kysymykset ja tutkittaville annetut lupaukset estävät arkistoinnin. Yllätyksekseni tällä kertaa keskeisimmäksi arkistoinnin esteeksi miellettiin oman aineiston vähäinen merkitys ja arvo.

Yllättävä tulos palautti mieleeni vuosientakaisen keskustelun Ison-Britannian sisararkiston kollegan Libby Bishopin kanssa. Kävimme keskustelun, kun olin pitänyt oman esitykseni tutkittavien suhtautumisesta aineistojen arkistointiin ja jatkokäyttöön. Kysyttäessä tutkittavilta jälkikäteen lupaa heidän haastattelujensa arkistointiin valtaosa kannattaa sitä lämpimästi – vaikka tutkija olisi alun alkaen luvannut, ettei aineistoa näe kukaan muu. Olennaisinta tutkittavien suhtautumisessa on ajatus, että he ovat halunneet osallistua aihetta koskevan tutkimuksen edistämiseen ja arkistointi vain vahvistaa alkuperäistä toivetta. Tutkittavat eivät pidä laadullista haastattelutilannetta niin yksityisenä ja salassa pidettävänä, etteivätkö muut heille tuntemattomat tutkijat voisi haastattelua analysoida.

Kuultuaan suomalaisista kokemuksista Libby Bishop innostui kertomaan kokemuksiaan Isosta-Britanniasta. Bishopin mukaan heillä tutkijat usein vähättelevät laadullisen aineistonsa arvoa täsmentäen sen johtuvan siitä, ettei aineistossa ole mitään erityisen tunteikasta tai suuria henkilökohtaisia paljastuksia. Bishopin mukaan tutkijat kertovat asian peläten, että juuri heidän aineistonsa ei ehkä ole lainkaan hyvä laadullinen aineisto arkistoitavaksi. Isossa-Britanniassa tutkimuksen rahoittajat vaativat, että aineiston arkistointi tulee aina suunnitella ja neuvotella käytännön toteutuksesta paikallisen tietoarkiston kanssa. Siksi jokainen tutkija joutuu tarjoamaan aineistoaan arkistoitavaksi.

Harmillisesti laadullisten aineistojen eroa suhteessa kvantitatiivisiin aineistoihin usein korostetaan painottamalla muun ohessa laadullisen aineiston ainutlaatuisuutta, autenttisuutta ja sensitiivisyyttä. Valtaosa haastatteluvuorovaikutuksessa ja yllättävästi myös tutkittavien kirjoittamalla tuotetusta aineistosta on kuitenkin varsin arkista puhetta ja kerrontaa. Epäilen että tutkijoiden ja gradutekijöiden lisäksi haastattelulitteraattien läpilukemiseen ei välttämättä muilla riittäisi motivaatiota.

Lattealta, arkiselta ja jopa tylsältä tuntuva aineisto voi olla kuitenkin kiinnostava ja tärkeä analyysin kohde myös muille alkuperäisen tutkimuksen valmistuttua. Laadullisia arkistoaineistoja käytetään hyvin monenlaisiin tarkoituksiin ja aina eri tavalla kuin alkuperäisessä tutkimuksessa. Tietoarkistosta on haluttu etsiä esimerkiksi haastatteluja, joissa on läsnä yhtä aikaa kaksi eri-ikäistä haastateltavaa. Arkistoaineistot ovatkin hyvä lähde tutkimusvuorovaikutuksen analyysiin: analyysin kohteeksi voi valita useista haastatteluaineistoista ne yksittäiset haastattelut, jotka täyttävät tutkimusasetelmalle asetetut kriteerit. Aineistoja käytetään myös rinnan oman tuoreen aineiston kanssa, uuden tutkimuksen ideointiin ja menetelmäopetuksen analyysiharjoituksiin.

Laadullisen aineiston arvo ei määrity sen perusteella, sisältyykö siihen tutkittavien suuria tunteita ja erityisen arkaluonteisia paljastuksia. Arkistoinnin arvoisia ovat aineistot, joiden keruuta ja sisältöä koskevat tiedot ovat selkeät ja riittävät jatkokäytön näkökulmasta. Suuria tunteita ja paljastuksia sisältävä aineistokin voi olla käytännössä arvoton, jos on epäselvää, koska ja mihin tarkoitukseen aineisto on luotu ja tiedostojen tai litteraattien perustiedot puuttuvat. Kun haluaa turvata aineistonsa käytettävyyden, kannattaa perehtyä aineistonhallinnan käsikirjan ohjeisiin. Niiden avulla jokainen voi lisätä aineistonsa arvoa ja varmistaa sille loppumattoman elinkaaren.

Arja Kuula
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi

Kannatusmittauksia moneen junaan

Olin hiljattain muutaman kuukauden projektitehtävissä toimittaakseni kokoomateoksen viime eduskuntavaaleista. Muutosvaalit 2011 -teoksen kirjoitti 18 politiikan ja viestinnän tutkijaa ja hankkeen rahoitti oikeusministeriö. Tutkimuksen pääaineistona oli Taloustutkimuksen heti eduskuntavaalien jälkeen kokoama käyntikysely. Aineisto on nyt tallennettu tietoarkistoon, josta se on saatavissa maksutta jatkokäyttöön tutkimukseen, opetukseen ja opiskeluun.

En nyt esittele tätä tutkimusta mutta pysyn eduskuntavaaliteemassa. Avaan ja arvioin hieman niihin liittyvää kannatusmittaustoimintaa. Ennen vaaleja vaalitulosta ja valitsijoiden äänestyskäyttäytymistä ennakoivat erityisesti viestimet ja puolueet. Puolueet tilaavat äänestysaikomusmittauksia kampanjasuunnittelun tueksi. Tällaiset gallupit ovat pääsääntöisesti salaisia, eikä niiden ennustearvoa tai muuta laatua ole siksi mahdollista arvioida.

Viestinten teettämät julkiset puoluekannatusmittaukset tarjoavat puolestaan valitsijoille, puolueille ja ehdokkaille tietoa siitä, mitä kansalaiset puolueista ajattelevat ja miten he aikovat äänestää. Moniin muihin kyselytutkimusaiheisiin verrattuna puoluekannatusmittaukset ovat sikäli kiinnostavia, että niiden tietoja voidaan verrata sekä menneiden että tulevien vaalien tuloksiin. Tavallisesti kyselytutkimuksissa ei nimittäin ole mahdollista verrata käyttäytymisaikomuksia ja mielipiteitä todelliseen käyttäytymiseen.

Tietoja menneiden vaalien äänestyskäyttäytymisestä käytetäänkin vakiintuneesti tarkentamaan arvioita tulevien vaalien tuloksesta ja mittaushetken puoluekannatuksesta. Näitä menettelyjä selostetaan esimerkiksi YLE Uutisten puoluekannatusmittarissa. Käytännössä nämä menettelyt lisäävät mittausten osumatarkkuutta siten, että puolueiden eduskuntavaalivaalikannatus on yleensä kyetty ennakoimaan yhdestä kahteen prosenttiyksikön tarkkuudella suuntaan tai toiseen.

Viime eduskuntavaalit olivat tosin poikkeus. Viimeksi julkistetut valtakunnalliset mittaukset eivät päässeet kiinni kampanjan parin viime viikon aikana tapahtuneisiin muutoksiin. Esimerkiksi Taloustutkimuksen viimeisin valtakunnallinen mittaus yliarvioi keskustan ääniosuuden kolmella ja aliarvioi perussuomalaisten ääniosuuden lähes neljällä prosenttiyksiköllä. Kannattaa muuten lukea Pertti Suhosen artikkeli Muutosvaalit 2011 -kirjasta. Siinä hän analysoi kiinnostavasti puoluekannatusmittauksia ja niiden metodiikkaa sekä muita viime eduskuntavaalien alla julkaistuja mielipidetutkimuksia.

Kirjoitin itse viime vuoden lopulla tiiviin analyysin viime eduskuntavaalien vaalipiirikohtaisista kannatusmittauksista. Se julkaistiin Matti Wibergin toimittamassa Populismi – Kriittinen arvio -kirjassa (Edita). Puoluekannatuksen osumatarkkuuden osalta vaalipiirikohtaiset mittaukset olivat suurin piirtein yhtä onnistuneita tai epäonnistuneita kuin valtakunnalliset mittaukset. Joukkoon mahtui tosin joitakin pahasti pieleen menneitä arvioita.

Muutamissa vaalipiirikohtaisissa mittauksissa yritettiin myös aprikoida kyselytiedoin läpimenevien ehdokkaiden nimiä. Tämä on mielestäni täysin turhaa puuhastelua, koska niin monet valitsijat päättävät ehdokkaastaan hyvin myöhään ja useat äänestäjät eivät halua kertoa ehdokkaansa nimeä vaalisalaisuuden säilymisen vuoksi.

Vaalipiirikohtainen puoluekannatusarviointi kyllä toimii, kunhan pohjana käytetään kunnollisia otoksia, kuten nyt pääosin nähtiin. Sen sijaan kansanedustajien nimien ennakointi huterien ja epäedustavien tietojen perusteella on edesvastuutonta ja loukkaa pahimmillaan räikeästi kampanjoivien ehdokkaiden tasavertaisuutta.

Toisen esimerkin erittäin heikkolaatuisesta kyselyennakoinnista tarjoavat ovensuukyselyt, joita jotkin maakuntalehdet toteuttivat viime eduskuntavaaleissakin joillakin ennakkoäänestyspaikoilla. Ensimmäisten ennakkoäänestyspäivien äänestäjäkunta on millä tahansa äänestyspaikalla erittäin epäedustava otos koko arvioitavasta äänestäjäkunnasta, koska esimerkiksi iäkkäimmät äänioikeutetut käyttävät vaaleissa hanakasti mahdollisuutta äänestää ennakkoon. Lisäksi monet juuri äänestäneet eivät halua kertoa äänestämäänsä puoluetta äänestyspaikkojen liepeillä, jolloin kantansa salanneiden osuus kasvaa. Tämäkin heikentää merkittävästi ovensuukyselyiden luotettavuutta.

Onneksi Suomessa ei tarvitse käyttää ovensuukyselyjä vaali-iltojen tuloslähetyksissä, kuten useissa maissa tehdään. Meillä niin moni käy äänestämässä ennakkoon, että vaalihuoneistojen sulkeutumisen jälkeen heti julkistettavat ennakkoäänitulokset riittävät tyydyttämään tiedonnälän. Ennakkoäänet eivät tosin yleensä ennakoi puolueiden lopullista ääniosuutta paljonkaan tarkemmin kuin viimeiset valtakunnalliset gallupit, mutta ovat ne kuitenkin oikeita laskettuja ääniä.

Palataanpa lopuksi Muutosvaalit-tutkimukseen. Kun Taloustutkimus haastatteli vaalien jälkeen noin 1300 satunnaisesti valittua äänioikeutettua, tiedot vuoden 2011 vaaleissa äänestetystä eivät olleet osumatarkkuudeltaan sen parempia kuin vaaleja edeltäneet mittaukset. Vaalien jälkeen aineistolle on kuitenkin mahdollista laskea painokerroin, joka painottaa eri puolueiden äänestäjien määrät vaalitulosta vastaavaksi dataa analysoitaessa. Näin on mahdollista tarkastella melko luotettavasti ja vaalitulostietoja monin verroin monipuolisemmin sitä, miten eri väestöryhmät äänestävät ja millaisia syitä he valinnoilleen antavat.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Kannatusmittauksia moneen junaan

Olin hiljattain muutaman kuukauden projektitehtävissä toimittaakseni kokoomateoksen viime eduskuntavaaleista. Muutosvaalit 2011 -teoksen kirjoitti 18 politiikan ja viestinnän tutkijaa ja hankkeen rahoitti oikeusministeriö. Tutkimuksen pääaineistona oli Taloustutkimuksen heti eduskuntavaalien jälkeen kokoama käyntikysely. Aineisto on nyt tallennettu tietoarkistoon, josta se on saatavissa maksutta jatkokäyttöön tutkimukseen, opetukseen ja opiskeluun.

En nyt esittele tätä tutkimusta mutta pysyn eduskuntavaaliteemassa. Avaan ja arvioin hieman niihin liittyvää kannatusmittaustoimintaa. Ennen vaaleja vaalitulosta ja valitsijoiden äänestyskäyttäytymistä ennakoivat erityisesti viestimet ja puolueet. Puolueet tilaavat äänestysaikomusmittauksia kampanjasuunnittelun tueksi. Tällaiset gallupit ovat pääsääntöisesti salaisia, eikä niiden ennustearvoa tai muuta laatua ole siksi mahdollista arvioida.

Viestinten teettämät julkiset puoluekannatusmittaukset tarjoavat puolestaan valitsijoille, puolueille ja ehdokkaille tietoa siitä, mitä kansalaiset puolueista ajattelevat ja miten he aikovat äänestää. Moniin muihin kyselytutkimusaiheisiin verrattuna puoluekannatusmittaukset ovat sikäli kiinnostavia, että niiden tietoja voidaan verrata sekä menneiden että tulevien vaalien tuloksiin. Tavallisesti kyselytutkimuksissa ei nimittäin ole mahdollista verrata käyttäytymisaikomuksia ja mielipiteitä todelliseen käyttäytymiseen.

Tietoja menneiden vaalien äänestyskäyttäytymisestä käytetäänkin vakiintuneesti tarkentamaan arvioita tulevien vaalien tuloksesta ja mittaushetken puoluekannatuksesta. Näitä menettelyjä selostetaan esimerkiksi YLE Uutisten puoluekannatusmittarissa. Käytännössä nämä menettelyt lisäävät mittausten osumatarkkuutta siten, että puolueiden eduskuntavaalivaalikannatus on yleensä kyetty ennakoimaan yhdestä kahteen prosenttiyksikön tarkkuudella suuntaan tai toiseen.

Viime eduskuntavaalit olivat tosin poikkeus. Viimeksi julkistetut valtakunnalliset mittaukset eivät päässeet kiinni kampanjan parin viime viikon aikana tapahtuneisiin muutoksiin. Esimerkiksi Taloustutkimuksen viimeisin valtakunnallinen mittaus yliarvioi keskustan ääniosuuden kolmella ja aliarvioi perussuomalaisten ääniosuuden lähes neljällä prosenttiyksiköllä. Kannattaa muuten lukea Pertti Suhosen artikkeli Muutosvaalit 2011 -kirjasta. Siinä hän analysoi kiinnostavasti puoluekannatusmittauksia ja niiden metodiikkaa sekä muita viime eduskuntavaalien alla julkaistuja mielipidetutkimuksia.

Kirjoitin itse viime vuoden lopulla tiiviin analyysin viime eduskuntavaalien vaalipiirikohtaisista kannatusmittauksista. Se julkaistiin Matti Wibergin toimittamassa Populismi – Kriittinen arvio -kirjassa (Edita). Puoluekannatuksen osumatarkkuuden osalta vaalipiirikohtaiset mittaukset olivat suurin piirtein yhtä onnistuneita tai epäonnistuneita kuin valtakunnalliset mittaukset. Joukkoon mahtui tosin joitakin pahasti pieleen menneitä arvioita.

Muutamissa vaalipiirikohtaisissa mittauksissa yritettiin myös aprikoida kyselytiedoin läpimenevien ehdokkaiden nimiä. Tämä on mielestäni täysin turhaa puuhastelua, koska niin monet valitsijat päättävät ehdokkaastaan hyvin myöhään ja useat äänestäjät eivät halua kertoa ehdokkaansa nimeä vaalisalaisuuden säilymisen vuoksi.

Vaalipiirikohtainen puoluekannatusarviointi kyllä toimii, kunhan pohjana käytetään kunnollisia otoksia, kuten nyt pääosin nähtiin. Sen sijaan kansanedustajien nimien ennakointi huterien ja epäedustavien tietojen perusteella on edesvastuutonta ja loukkaa pahimmillaan räikeästi kampanjoivien ehdokkaiden tasavertaisuutta.

Toisen esimerkin erittäin heikkolaatuisesta kyselyennakoinnista tarjoavat ovensuukyselyt, joita jotkin maakuntalehdet toteuttivat viime eduskuntavaaleissakin joillakin ennakkoäänestyspaikoilla. Ensimmäisten ennakkoäänestyspäivien äänestäjäkunta on millä tahansa äänestyspaikalla erittäin epäedustava otos koko arvioitavasta äänestäjäkunnasta, koska esimerkiksi iäkkäimmät äänioikeutetut käyttävät vaaleissa hanakasti mahdollisuutta äänestää ennakkoon. Lisäksi monet juuri äänestäneet eivät halua kertoa äänestämäänsä puoluetta äänestyspaikkojen liepeillä, jolloin kantansa salanneiden osuus kasvaa. Tämäkin heikentää merkittävästi ovensuukyselyiden luotettavuutta.

Onneksi Suomessa ei tarvitse käyttää ovensuukyselyjä vaali-iltojen tuloslähetyksissä, kuten useissa maissa tehdään. Meillä niin moni käy äänestämässä ennakkoon, että vaalihuoneistojen sulkeutumisen jälkeen heti julkistettavat ennakkoäänitulokset riittävät tyydyttämään tiedonnälän. Ennakkoäänet eivät tosin yleensä ennakoi puolueiden lopullista ääniosuutta paljonkaan tarkemmin kuin viimeiset valtakunnalliset gallupit, mutta ovat ne kuitenkin oikeita laskettuja ääniä.

Palataanpa lopuksi Muutosvaalit-tutkimukseen. Kun Taloustutkimus haastatteli vaalien jälkeen noin 1300 satunnaisesti valittua äänioikeutettua, tiedot vuoden 2011 vaaleissa äänestetystä eivät olleet osumatarkkuudeltaan sen parempia kuin vaaleja edeltäneet mittaukset. Vaalien jälkeen aineistolle on kuitenkin mahdollista laskea painokerroin, joka painottaa eri puolueiden äänestäjien määrät vaalitulosta vastaavaksi dataa analysoitaessa. Näin on mahdollista tarkastella melko luotettavasti ja vaalitulostietoja monin verroin monipuolisemmin sitä, miten eri väestöryhmät äänestävät ja millaisia syitä he valinnoilleen antavat.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Tekninen kehitys laajentaa tietoarkistojen toimintaa

Ensimmäiset yhteiskuntatieteelliset data-arkistot aloittivat toimintansa 1960-luvulla Yhdysvalloissa ja Euroopassa. Niiden syntyyn vaikutti keskeisesti tietokoneiden ja laajoihin surveyaineistoihin perustuvien tutkimusmenetelmien kehittyminen sekä näiden suosion nopea kasvu useilla ihmistieteellisillä aloilla. Data-arkistoja ryhdyttiin perustamaan myös kaupallisten mielipidetutkimuslaitosten yhteyteen erityisesti Yhdysvalloissa.

Data-arkistot toimivat kolme ensimmäistä vuosikymmentään ja osin vielä 1990-luvullakin keskustietokoneympäristöissä. Varsinkin tästä syystä niiden säilyttämien henkilötason tutkimusaineistojen käyttäjät olivat lähes yksinomaan tutkijoita. Sähköiset datatiedostot haettiin joko paikan päältä arkistoista tai ne kuljetettiin eri tallennevälineillä käyttäjilleen.

Kun itse tilasin 90-luvun alkupuolella Saksan yhteiskuntatieteellisestä data-arkistosta Kölnistä Eurobarometrien data-aineistoja, ne toimitettiin työhuoneeseeni Tampereelle postitse kelanauhoina. Sitten marssin tavaran kanssa yliopistomme tietokonekeskukseen, jossa tiedostot siirrettiin (maksutta) keskuskoneen käyttäjätunnukselleni. Tämän jälkeen vuorossa olivat ascii-muotoisten tiedostojen määrittelyt sellaiseen muotoon, että tilastollinen tietojenkäsittelyohjelma sai datasta tolkkua. Keskuskone oli sen verran ruuhkainen, että suurimmat tietokoneajot piti suosiolla ajoittaa suoritettavaksi illemmalla eikä työpäivän aikana.

Toisin on tänään. Vaikka en edes kuulu varhaiseen reikäkortti- ja lajittelijasukupolveen enkä ole siis värjötellyt tietojenkäsittelyn Siperiassa, olen silti todistanut mikrotietokoneiden ja Internetin vallankumouksen koko tähänastisen polun. Data-arkistoalalle teknologian nopea kehitys on tuonut useita muutoksia ja isoja haasteita. Aikaisemmin ala keskittyi data-aineistojen arkistointiin, pitkäaikaissäilytykseen ja jakeluun erityisesti tutkimuskäyttöä ajatellen. Kansainvälisessä yhteistyössä arkistot toimivat data-aineistojen välittäjinä tutkijoille siten, että kansalliset data-arkistot toimivat oman maansa tutkijoille ulkomaisten aineistojen välittäjinä.

Internet-sukupolvelle ajatus välikäsistä ja pitkistä toimitusajoista on vieras. Yhä useamman tutkijankin mielestä tutkimuksen tietoaineistojen tulisi olla ladattavissa suoraan omalle tietokoneelle luotettavista lähteistä heti ja lähtökohtaisesti myös maksutta. Lisäksi tietojen pitäisi olla vaivattomasti yhdisteltävissä muihin tietoihin ja niiden tulisi muutoinkin olla helppokäyttöisiä. Hyvä näin, sillä todellinen edistys edellyttää aina sitä, että joku vaatii muutosta. Näihin haasteisiin vastaaminen edellyttää toimivia palveluinfrastruktuureja.

Data-arkistoalalla teknologian kehitys on jo avartanut suunnattomasti tutkimusaineistojen käyttötapoja ja -mahdollisuuksia. Avoimet datatietokannat ovat lisänneet huomattavasti soveltuvien tutkimusaineistojen löytymistä ja saatavuutta. Joskus suunniteltu uusi tutkimusaineisto on jäänyt kokonaan keräämättä. Omassa toiminnassamme meitä on ilahduttanut erityisesti se, että perustutkinto-opiskelijat käyttävät tietoarkistoon arkistoituja aineistoja kasvavassa määrin omiin opinnäytetöihinsä.

Myös tietoaineistojen opetuskäytön erilaisia mahdollisuuksia tulisi oppia hyödyntämään täysipainoisesti. Data-projektori ja Internet opetustilassa mahdollistavat jo nyt eri aiheisiin liittyvien dataperustaisten online-palvelujen käytön kontaktiopetuksessa. Näin opetus perustuu ajantasaisimpaan tietoon.

Tietoarkisto on laajentamassa palvelujaan tähän suuntaan. Jo nyt muun muassa Menetelmäopetuksen tietovarannon harjoitusaineistot ovat vapaasti heti käytettävissä. Tavoitteena on myös uusia aineistojen toimitusjärjestelmä vuoden 2012 loppuun mennessä. Uudistuksen valmistuttua rekisteröityneet asiakkaat voivat hyödyntää tietoarkiston koko aineistovarantoa datatiedostoineen suoraan verkossa.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Tekninen kehitys laajentaa tietoarkistojen toimintaa

Ensimmäiset yhteiskuntatieteelliset data-arkistot aloittivat toimintansa 1960-luvulla Yhdysvalloissa ja Euroopassa. Niiden syntyyn vaikutti keskeisesti tietokoneiden ja laajoihin surveyaineistoihin perustuvien tutkimusmenetelmien kehittyminen sekä näiden suosion nopea kasvu useilla ihmistieteellisillä aloilla. Data-arkistoja ryhdyttiin perustamaan myös kaupallisten mielipidetutkimuslaitosten yhteyteen erityisesti Yhdysvalloissa.

Data-arkistot toimivat kolme ensimmäistä vuosikymmentään ja osin vielä 1990-luvullakin keskustietokoneympäristöissä. Varsinkin tästä syystä niiden säilyttämien henkilötason tutkimusaineistojen käyttäjät olivat lähes yksinomaan tutkijoita. Sähköiset datatiedostot haettiin joko paikan päältä arkistoista tai ne kuljetettiin eri tallennevälineillä käyttäjilleen.

Kun itse tilasin 90-luvun alkupuolella Saksan yhteiskuntatieteellisestä data-arkistosta Kölnistä Eurobarometrien data-aineistoja, ne toimitettiin työhuoneeseeni Tampereelle postitse kelanauhoina. Sitten marssin tavaran kanssa yliopistomme tietokonekeskukseen, jossa tiedostot siirrettiin (maksutta) keskuskoneen käyttäjätunnukselleni. Tämän jälkeen vuorossa olivat ascii-muotoisten tiedostojen määrittelyt sellaiseen muotoon, että tilastollinen tietojenkäsittelyohjelma sai datasta tolkkua. Keskuskone oli sen verran ruuhkainen, että suurimmat tietokoneajot piti suosiolla ajoittaa suoritettavaksi illemmalla eikä työpäivän aikana.

Toisin on tänään. Vaikka en edes kuulu varhaiseen reikäkortti- ja lajittelijasukupolveen enkä ole siis värjötellyt tietojenkäsittelyn Siperiassa, olen silti todistanut mikrotietokoneiden ja Internetin vallankumouksen koko tähänastisen polun. Data-arkistoalalle teknologian nopea kehitys on tuonut useita muutoksia ja isoja haasteita. Aikaisemmin ala keskittyi data-aineistojen arkistointiin, pitkäaikaissäilytykseen ja jakeluun erityisesti tutkimuskäyttöä ajatellen. Kansainvälisessä yhteistyössä arkistot toimivat data-aineistojen välittäjinä tutkijoille siten, että kansalliset data-arkistot toimivat oman maansa tutkijoille ulkomaisten aineistojen välittäjinä.

Internet-sukupolvelle ajatus välikäsistä ja pitkistä toimitusajoista on vieras. Yhä useamman tutkijankin mielestä tutkimuksen tietoaineistojen tulisi olla ladattavissa suoraan omalle tietokoneelle luotettavista lähteistä heti ja lähtökohtaisesti myös maksutta. Lisäksi tietojen pitäisi olla vaivattomasti yhdisteltävissä muihin tietoihin ja niiden tulisi muutoinkin olla helppokäyttöisiä. Hyvä näin, sillä todellinen edistys edellyttää aina sitä, että joku vaatii muutosta. Näihin haasteisiin vastaaminen edellyttää toimivia palveluinfrastruktuureja.

Data-arkistoalalla teknologian kehitys on jo avartanut suunnattomasti tutkimusaineistojen käyttötapoja ja -mahdollisuuksia. Avoimet datatietokannat ovat lisänneet huomattavasti soveltuvien tutkimusaineistojen löytymistä ja saatavuutta. Joskus suunniteltu uusi tutkimusaineisto on jäänyt kokonaan keräämättä. Omassa toiminnassamme meitä on ilahduttanut erityisesti se, että perustutkinto-opiskelijat käyttävät tietoarkistoon arkistoituja aineistoja kasvavassa määrin omiin opinnäytetöihinsä.

Myös tietoaineistojen opetuskäytön erilaisia mahdollisuuksia tulisi oppia hyödyntämään täysipainoisesti. Data-projektori ja Internet opetustilassa mahdollistavat jo nyt eri aiheisiin liittyvien dataperustaisten online-palvelujen käytön kontaktiopetuksessa. Näin opetus perustuu ajantasaisimpaan tietoon.

Tietoarkisto on laajentamassa palvelujaan tähän suuntaan. Jo nyt muun muassa Menetelmäopetuksen tietovarannon harjoitusaineistot ovat vapaasti heti käytettävissä. Tavoitteena on myös uusia aineistojen toimitusjärjestelmä vuoden 2012 loppuun mennessä. Uudistuksen valmistuttua rekisteröityneet asiakkaat voivat hyödyntää tietoarkiston koko aineistovarantoa datatiedostoineen suoraan verkossa.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Tutkimusdata meriittinä

Opetus- ja kulttuuriministeriö julkisti pari viikkoa sitten tiekarttaraportin tutkimuksen sähköisten tietoaineistojen hyödyntämisestä. Siihen on koottu poikkihallinnollisen selvityshankkeen keskeiset ehdotukset alan hyvistä käytännöistä ja tietoaineistojen avoimuutta edistävistä toimenpiteistä. Aiemmin hanke oli tuottanut samaa aihepiiriä käsittelevän taustaraportin, joka luovutettiin opetusministerille vuosi sitten.

Tiekartta on laaja-alainen ja se tarjoaa hyviä polkuja ja myös konkreettisia toimenpide-ehdotuksia tutkimusdatan avoimelle saatavuudelle. Työ edellyttää laaja-alaista yhteistyötä aineistojen tuottajien ja välittäjien kesken sekä lisärahoitusta infrastruktuurien rakentamiseksi. Yksi perusongelma on. Tutkimusdatan pitkäaikaissäilytystä ja käytön avoimuutta tukevat rakenteet, välineet ja käytännöt puuttuvat edelleen lähes tyystin useilta tutkimusaloilta.

Rakenteet ovat pysyväksi tarkoitettuja organisaatioita tai järjestelyjä, joiden erityisvastuulla on tutkimusdatan elinkaaresta huolehtiminen. Välineet ovat esimerkiksi kuvailustandardeja, tietokantoja ja muita datan käytön tietoteknisiä sovelluksia, joiden avulla tutkijat löytävät ja saavat käyttöönsä haluamansa tutkimusaineistot. Käytännöt ovat puolestaan tutkimusyhteisön omaksumia toimintatapoja ja sääntöjä, tutkimuskulttuuria, joka koskee tutkimusaineistojen tekijyyttä ja avoimeen käyttöön saattamista.

Tiekartta nostaa aivan oikein yhdeksi keskeiseksi kansallisen datapolitiikan haasteeksi tutkimusaineistoihin liittyvät tieteelliset meriitit. Tältä osin tiekartta muun muassa toteaa (s. 29), että ”tutkijoiden meritoituminen tietoaineistojen tuottamisesta ja jakamisesta tulee ohjeistaa yhtenäisesti”. Vastuu olisi etenkin tutkimusrahoittajilla, kuten Suomen Akatemialla ja Tekesillä.

Olen itse meritoitumisen yleisestä merkityksestä samaa mieltä, mutta ohjeistamalla asia tuskin ratkeaa. Vastuu käytäntöjen muuttumisesta on myös tutkimusyhteisöllä ja laajasti kaikilla tutkimusta rahoittavilla tahoilla, kuten tutkimusinfrastruktuurirahoituksesta päävastuullisilla ministeriöillä. Tutkimusaineistoihin liittyvä meritoituminen on erinomainen esimerkki osoittamaan alan nykyisiä pullonkauloja.

Kyllä – tutkimusdatan tuottajien pitäisi saattaa datansa tutkimusyhteisön avoimeen käyttöön viimeistään hankkeittensa päätyttyä. Tämä ei välttämättä onnistu sormea napsauttamalla, vaikka tahtoa riittäisikin. Aineiston koonneen ryhmän tulee ensin kyetä sopimaan, kenen nimet ja missä järjestyksessä julkaistavaan aineistoon merkitään tekijöiksi ja kuka tai ketkä vastaavat aineiston jatkokäyttökuntoon saattamisesta.

Datan asianmukainen julkaiseminen puolestaan edellyttää datan kuvailun ja viittaustietojen vaatimia standardeja, jollaisia on valmiina vain harvoilla aloilla. Lisäksi datan julkaiseminen edellyttää sekä aineiston että sen keränneen hankkeen perustietojen kuvailua ja aina jonkin verran myös tutkimusaineiston muokkausta. Tämä vaatii aikaa ja työtä, joka ei läheskään kaikilla aloilla ole siirrettävissä olemassa olevan data-arkiston kontolle.

Lisäksi sekä tutkimusaineiston pitkäaikaissäilytys että sen jatkokäyttö muodostavat omat kokonaisuutensa meriitin muodostumisessa. Julkaistut datat saavat hyvää lisänäkyvyyttä avoimissa aineistotietokannoissa. Esimerkiksi Yhteiskuntatieteellinen tietoarkisto kääntää suomenkielisten aineistojen kuvailut englanniksi ja sijoittaa ne sitten avoimiin, kansainvälisiin datatietokantoihin. Näin ulkomaiset tutkijat pääsevät käyttämään suomalaisia tutkimusaineistoja, joista heillä ei muutoin olisi tietoa.

Luovuttaessaan arkistoituja data-aineistoja jatkokäyttöön tietoarkisto antaa niille viittaustiedon ja -ohjeet, joita jatkokäyttäjän tulee noudattaa. Tätä kautta aineistot ja niiden tekijät tulevat viitatuiksi tavanomaisin tieteellisin referenssein. Runsaassa jatkokäytössä olevat tutkimusaineistot ovat merkittävä meriitti alkuperäisille kokoajille, koska silloin toisten kokoama data on laajasti hyödyllistä tiedeyhteisölle.

Asianmukaisin standardein kuvailtu ja julkaistu tutkimusaineisto on tekijöilleen tieteellinen meriitti, jonka voi ilmoittaa ansioluettelossa. Tiedeyhteisön yhteiseen ja avoimeen käyttöön avatut datat mahdollistavat tieteen itsensäkorjaavuutta ja lisäävät sen yleistä luotettavuutta. Siksi nyt valmistuneen tiekartan toimenpide-ehdotukset pitää ottaa vakavasti.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Tutkimusdata meriittinä

Opetus- ja kulttuuriministeriö julkisti pari viikkoa sitten tiekarttaraportin tutkimuksen sähköisten tietoaineistojen hyödyntämisestä. Siihen on koottu poikkihallinnollisen selvityshankkeen keskeiset ehdotukset alan hyvistä käytännöistä ja tietoaineistojen avoimuutta edistävistä toimenpiteistä. Aiemmin hanke oli tuottanut samaa aihepiiriä käsittelevän taustaraportin, joka luovutettiin opetusministerille vuosi sitten.

Tiekartta on laaja-alainen ja se tarjoaa hyviä polkuja ja myös konkreettisia toimenpide-ehdotuksia tutkimusdatan avoimelle saatavuudelle. Työ edellyttää laaja-alaista yhteistyötä aineistojen tuottajien ja välittäjien kesken sekä lisärahoitusta infrastruktuurien rakentamiseksi. Yksi perusongelma on. Tutkimusdatan pitkäaikaissäilytystä ja käytön avoimuutta tukevat rakenteet, välineet ja käytännöt puuttuvat edelleen lähes tyystin useilta tutkimusaloilta.

Rakenteet ovat pysyväksi tarkoitettuja organisaatioita tai järjestelyjä, joiden erityisvastuulla on tutkimusdatan elinkaaresta huolehtiminen. Välineet ovat esimerkiksi kuvailustandardeja, tietokantoja ja muita datan käytön tietoteknisiä sovelluksia, joiden avulla tutkijat löytävät ja saavat käyttöönsä haluamansa tutkimusaineistot. Käytännöt ovat puolestaan tutkimusyhteisön omaksumia toimintatapoja ja sääntöjä, tutkimuskulttuuria, joka koskee tutkimusaineistojen tekijyyttä ja avoimeen käyttöön saattamista.

Tiekartta nostaa aivan oikein yhdeksi keskeiseksi kansallisen datapolitiikan haasteeksi tutkimusaineistoihin liittyvät tieteelliset meriitit. Tältä osin tiekartta muun muassa toteaa (s. 29), että ”tutkijoiden meritoituminen tietoaineistojen tuottamisesta ja jakamisesta tulee ohjeistaa yhtenäisesti”. Vastuu olisi etenkin tutkimusrahoittajilla, kuten Suomen Akatemialla ja Tekesillä.

Olen itse meritoitumisen yleisestä merkityksestä samaa mieltä, mutta ohjeistamalla asia tuskin ratkeaa. Vastuu käytäntöjen muuttumisesta on myös tutkimusyhteisöllä ja laajasti kaikilla tutkimusta rahoittavilla tahoilla, kuten tutkimusinfrastruktuurirahoituksesta päävastuullisilla ministeriöillä. Tutkimusaineistoihin liittyvä meritoituminen on erinomainen esimerkki osoittamaan alan nykyisiä pullonkauloja.

Kyllä – tutkimusdatan tuottajien pitäisi saattaa datansa tutkimusyhteisön avoimeen käyttöön viimeistään hankkeittensa päätyttyä. Tämä ei välttämättä onnistu sormea napsauttamalla, vaikka tahtoa riittäisikin. Aineiston koonneen ryhmän tulee ensin kyetä sopimaan, kenen nimet ja missä järjestyksessä julkaistavaan aineistoon merkitään tekijöiksi ja kuka tai ketkä vastaavat aineiston jatkokäyttökuntoon saattamisesta.

Datan asianmukainen julkaiseminen puolestaan edellyttää datan kuvailun ja viittaustietojen vaatimia standardeja, jollaisia on valmiina vain harvoilla aloilla. Lisäksi datan julkaiseminen edellyttää sekä aineiston että sen keränneen hankkeen perustietojen kuvailua ja aina jonkin verran myös tutkimusaineiston muokkausta. Tämä vaatii aikaa ja työtä, joka ei läheskään kaikilla aloilla ole siirrettävissä olemassa olevan data-arkiston kontolle.

Lisäksi sekä tutkimusaineiston pitkäaikaissäilytys että sen jatkokäyttö muodostavat omat kokonaisuutensa meriitin muodostumisessa. Julkaistut datat saavat hyvää lisänäkyvyyttä avoimissa aineistotietokannoissa. Esimerkiksi Yhteiskuntatieteellinen tietoarkisto kääntää suomenkielisten aineistojen kuvailut englanniksi ja sijoittaa ne sitten avoimiin, kansainvälisiin datatietokantoihin. Näin ulkomaiset tutkijat pääsevät käyttämään suomalaisia tutkimusaineistoja, joista heillä ei muutoin olisi tietoa.

Luovuttaessaan arkistoituja data-aineistoja jatkokäyttöön tietoarkisto antaa niille viittaustiedon ja -ohjeet, joita jatkokäyttäjän tulee noudattaa. Tätä kautta aineistot ja niiden tekijät tulevat viitatuiksi tavanomaisin tieteellisin referenssein. Runsaassa jatkokäytössä olevat tutkimusaineistot ovat merkittävä meriitti alkuperäisille kokoajille, koska silloin toisten kokoama data on laajasti hyödyllistä tiedeyhteisölle.

Asianmukaisin standardein kuvailtu ja julkaistu tutkimusaineisto on tekijöilleen tieteellinen meriitti, jonka voi ilmoittaa ansioluettelossa. Tiedeyhteisön yhteiseen ja avoimeen käyttöön avatut datat mahdollistavat tieteen itsensäkorjaavuutta ja lisäävät sen yleistä luotettavuutta. Siksi nyt valmistuneen tiekartan toimenpide-ehdotukset pitää ottaa vakavasti.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi