Tag Archives: avoimuus

Tutkimusetiikan ja tietosuojan välisestä suhteesta

Etiikalla ja tietosuojalla on läheinen suhde, joka ulottuu tietosuojan alkuaikoihin. Tietosuoja kehittyi tietojenkäsittelyn mahdollisuuksien lisääntyessä. Ruotsin vuoden 1973 Datalagin (1973:289) valmistelu aloitettiin 60-luvulla. Sääntely perustui lisenssimalliin, jonka henkistä perintöä ilmentää Suomen henkilötietolakiin (523/1999) jäänyt – ja uuden tietosuoja-asetuksen (2016/679) myötä kumoutuva – mahdollisuus tietosuojalautakunnalle myöntää lupa henkilötietojen käsittelyyn eräissä tilanteissa.

Ruotsissa lisenssien myöntämisedellytykset tieteellisessä tutkimuksessa yhdistyivät kirjalliseen muotoon koonnettuihin eettisiin normistoihin. Eettisten normistojen erot vaikuttivat henkilötietojen käsittelyyn eri tieteenaloilla.1 Menettelyssä ei ollut kyse nimenomaan eettisestä ennakkoarvioinnista, vaan käsittelyn lainmukaisuuden arvioinnista lautakunnassa. Eettisyyttä pidettiin kiinteänä osana henkilötietojen käsittelyn laillista sallittavuutta.

80-luvun keskustelua Suomessa

Klaus Mäkelä kirjoitti vuonna 1987, että ”[t]ämän hetken polttavimmat tutkimuseettiset kysymykset liittyvätkin usein tietosuojaan pikemmin kuin tiedonhankintatapoihin”.2 Samana vuonna julkaistiin Tieteen keskustoimikunnan asettaman jaoston raportti ”Yhteiskuntatieteellisen tutkimuksen tietosuoja”.3 Molemmat liittyivät Suomessa vuoden 1988 alussa voimaan astuneeseen, nyt jo kumottuun, henkilörekisterilakiin (471/1987). Uusi lainsäädäntö, joka korvasi rikosoikeudelliseen lähestymistapaan perustuvaa ajattelumallia, aiheutti tarpeen reflektoida tutkimusetiikan ja tietosuojan välistä suhdetta.

Edellä mainitun raportin keskeisiä ajatuksia oli, että lainsäädännön sanamuoto ei yksin riitä kattavaksi ohjeistukseksi kaikkiin käytännön ongelmiin. Toisaalta kaikkea laillista ei pidetty välttämättä eettisesti hyväksyttävänä. Jaosto kiinnitti huomiota tasapainoiluun eettisten ohjeiden yleisyyden ja yksityiskohtaisuuden välillä ja suositti kehittämään käytäntöjä ja ohjeita, jotka herkistävät eettisten ongelmien havaitsemiseen.4 Tutkimusetiikka ja tietosuojaa koskeva lainsäädäntö elävät vuorovaikutussuhteessa keskenään.

Tutkimuskäytäntöjä säätelevät niin eettiset ohjeet kuin lainsäädäntö

Tutkimuseettiset periaatteet eroavat lainsäädännöstä siinä, että eettiset periaatteet perustuvat itsesääntelyyn ja vapaaehtoiseen sitoutumiseen. Oikeustieteen näkökulmasta eettisissä periaatteissa on kyseessä ns. soft law -tyyppinen sääntely. Eettisiä ohjeita ei voi suoraan rinnastaa tuomioistuimen soveltamaan lakiin (Nieminen 2018, s. 16).5

Taustalla voi nähdä yhteyden Suomen perustuslain (731/1999) 3 §:ään kirjattuun valtiollisten tehtävien jakoon, jossa tuomiovalta ja lainsäädäntövalta on eriytetty erillisille instituutioille. Vaikka eettiset ohjeet eivät perustu parlamentaarisessa menettelyssä säädettyyn lakiin, niillä on huomattava käytännön merkitys tutkijoiden vastuun ja tutkittavien oikeuksien määrittämisessä.

Tutkimuseettisillä periaatteilla on vahva side lainsäädäntöön sitä kautta, että lainsäädäntö edellyttää tietynlaisissa tutkimuksissa eettistä ennakkoarviointia. Esimerkiksi laki lääketieteellisestä tutkimuksesta (1999/488) 17.2 § edellyttää eettistä toimikuntaa selvittävän lausuntoaan varten, onko tutkimussuunnitelmassa otettu huomioon tässä tai muussa laissa taikka lain nojalla annetut lääketieteellistä tutkimusta koskevat säännökset tai määräykset. Lainkohdan esitöissä (HE 65/2010 vp) viitataan tietosuojaa koskeviin säännöksiin.

EU:n tietosuojadirektiivi (95/46/EY), joka toimeenpantiin Suomessa henkilötietolailla, ei sisältänyt nimenomaista mainintaa eettisistä normistoista. Myöskään henkilötietolaki ei maininnut nimenomaisesti eettisiä normistoja. Lain esitöissä eettisten normistojen noudattaminen oli kuitenkin yhdistetty arkaluonteisten tietojen käsittelyyn. Tilanne on muuttunut uuden yleisen tietosuoja-asetuksen myötä. Tietosuoja-asetuksen johdanto-osan kappaleessa 33 mainitaan nimenomaisesti tieteellisen tutkimuksen tunnustetut eettiset standardit.

Uusi tietosuoja-asetus edistää tutkittavien eettistä kohtelua

EU:n yleisestä tietosuoja-asetuksesta ja tieteellisestä tutkimuksesta on viime aikoina kirjoitettu ja keskusteltu suhteellisen paljon. Mukaan on mahtunut useita myyttejä ja tarpeetonta pelottelua. Etenkin tietosuoja-asetuksen valmisteluvaiheessa esitettiin kannanottoja, joiden mukaan tieteellinen tutkimus estyy kokonaan. Toinen usein esillä oleva teema on ollut hallinnolliset sanktiot, joita on käytetty pelotteena palvelujen markkinoinnissa. Harvemmin on kerrottu sitä, että hallinnollisten sanktioiden määräämisen tulee olla jokaisessa yksittäistapauksessa oikeansuhtaista, varoittavaa ja tehokasta. Tietosuoja on useiden väärinkäsitysten vuoksi saanut tarpeettoman negatiivisen sävyn. Useimmat tilanteet ovat ratkaistavissa huolellisella suunnittelulla ja ottamalla tietosuoja huomioon mahdollisimman varhaisessa vaiheessa.

Tutkittavien kohtelua ja suojelua koskevilla tutkimuseettisillä periaatteilla ja tietosuojalainsäädännöllä on useita samanlaisia päämääriä. Selvennykseksi on hyvä todeta, että tietosuoja ei suojaa tietoa itsessään vaan yksilöä, jota tämä tieto koskee. Tietosuojalainsäädäntö ei liity ainoastaan yksityisyyden tai henkilötietojen suojaan. Tietosuoja-asetuksen tavoitteena on suojella myös laajemmin luonnollisen henkilön perusoikeuksia ja -vapauksia. Tietosuoja-asetus suojelee sivutuotteena esimerkiksi Euroopan unionin perusoikeuskirjassa (2012/C 326/02) turvattuja ihmisarvoa, oikeutta ruumiilliseen ja henkiseen koskemattomuuteen sekä oikeutta vapauteen ja henkilökohtaiseen turvallisuuteen.

”Tietosuoja ei suojaa tietoa itsessään vaan yksilöä, jota tämä tieto koskee.”

Tiedon ei-julkista luonnetta tai tiedon antajan ja vastaanottajan erityistä suhdetta on kuvattu erilaisissa eettisissä ohjeissa vaihtelevilla ilmaisuilla. Käytettyjä ilmaisuja ovat esimerkiksi yksityisyys, luottamuksellisuus, vaitiolo ja salassapito. Lisäksi tiedon käyttötavoille on voitu asettaa rajoituksia. Ilmaisuille voi muodostua tietyissä konteksteissa ajan myötä vakiintuneita merkityssisältöjä, mutta ne ovat ainakin ulkopuolisten vaikeasti selvitettävissä.

Yksityisyyden sisällöstä ja rajoista on jokaisella kirjoittajalla oma tulkintansa. Tietosuoja-asetus olisi hyvä nähdä tässä yhteydessä kokoelmana ennalta hyväksyttyjä menettelytapoja tutkittavan ja häntä koskevien tietojen suojelemiseksi. Tietosuoja-asetus ja sitä täydentävä kansallinen lainsäädäntö tarjoaa tutkijoille työkalupakin tutkittavien suojaamiseen liittyvien ongelmien ratkaisemiseksi.

Antti Ketola
lakimies
etunimi.sukunimi [at] uta.fi

1 Jansson, Carl Gunnar: Country Report Sweden: Privacy Legislation and Social Research in Sweden. Teoksessa (toim.) Mochmann, Ekkehard & Müller, Paul: Data Protection and Social Science Research: Perspectives from Ten Countries. Campus Verlag GmbH. Frankfurt 1979, s. 32–33.
2 Mäkelä, Klaus: Yhteiskuntatieteellisen tiedonhankinnan eettiset normit ja tietosuoja. Teoksessa (toim.) Mäkelä, Klaus: Tieteen vapaus ja tutkimuksen etiikka. Kustannusosakeyhtiö Tammi. Helsinki 1987, s. 180–195
3 1/87 Yhteiskuntatieteellisen tutkimuksen tietosuoja. Tieteen keskustoimikunnan asettaman jaoston raportti.
4 ibid. s. 3–4, 8–10.
5 Nieminen, Liisa: Ammattieettiset ohjeet juristin haasteena. Viestintäoikeuden vuosikirja 2017. Helsingin yliopiston oikeustieteellisen tiedekunnan julkaisuja. Helsinki 2018.

Aineistojen tietosuoja luupin alla – jäännösriskin arviointi ja uudet ohjeet

Euroopan unionin tietosuoja-asetusta sovelletaan 25. toukokuuta alkaen. Viimeisen vuoden aikana Tietoarkistossa on valmistauduttu muutokseen monella tavalla. Olemme muun muassa arvioineet jäännösriskiä ja uudistaneet anonymisointia koskevat ohjeet.

Jäännösriskin (residual risk) arviointi tarkoittaa henkilötietoja sisältävien tietojen systemaattista arviointia tasaisin aikavälein. Siinä arvioidaan kertaalleen anonymisoiduista datoista yksittäisten henkilöiden tai ryppäiden paljastumisriskiä niin itse datan kuin ulkopuolisten tietojen valossa. Tietoarkisto aloitti jo arkistoitujen aineistojen jäännösriskin arvioimisen viime syksynä, ja iloksemme saamme todeta, että työ on edistynyt hienosti.

Jäännösriskin arvioinnin aikaansaannokset käytännössä

Kvantitatiivisissa aineistoissamme, joita meillä on yhteensä yli tuhat, jäännösriskin arviointi aloitettiin kartoittamalla riskialtteimmat aineistosarjat ja suorittamalla niille tarvittavat täydentävät anonymisointitoimenpiteet. Datat on kyllä anonymisoitu aikanaan parhaan taidon mukaan, mutta osaamisemme on kehittynyt vuosien varrella. Viimeisen kymmenen vuoden aikana tiedon saatavuus on helpottunut, erityisesti internetistä löytyy paljon tietoja. Riskialttiutta arvioitiinkin eniten suhteessa niihin. Tietoarkiston kokemuksen mukaan muualta saatavat tiedot ovat hyvin ratkaisevia, kun arvioidaan mitä kaikkea aineistolle tulee tehdä, jotta se on mahdollisimman anonyymi.

Erityisesti opiskelua ja tutkintoja koskevia tietoja on nykyisin saatavilla huomattavasti enemmän kuin kymmenen tai vaikkapa vain viisi vuotta sitten. Siksi jäännösriskin arviointi aloitettiin opiskelua käsittelevistä aineistosarjoista. Reilun puolen vuoden aikana on täydentävästi anonymisoitu 70 kvantitatiivista aineistoa ja käyty läpi kuudesosa kaikista sarjoistamme. Tyypillisin muutos on ollut muuttujien arvojen uudelleen luokittelu.

Kvalitatiivisten aineistojen, joita meillä on noin parisen sataa, jäännösriskin arvioinnissa on anonymisoitu täysin yhdeksänkymmentä haastattelua sisältävä aineistosarja. Alun alkaen sarja oli vain de-identifioitu, siis aineistoista oli poistettu vain suorat tunnisteet, kuten osoitteet. Lisäksi on tarkistettu 60 prosenttia ennen vuotta 2017 valmistuneista aineistoista (yht. 180 kpl). Tutkittavien tietosuojan kannalta on hienoa, että vain kuutta prosenttia aineistoista tarvitsi anonymisoida lisää. Koko aineistoa koskevia muutoksia tarvitsi tehdä vain kahteen aineistoon.

Uusia toimintatapoja

Tietoarkistossa on tähänkin asti tarkoin dokumentoitu datamuutokset ja anonymisointi. Jäännösriskin arvioinnissa luotiin uusi toimintatapa: karttuville aineistosarjoille laaditaan jatkossa sarjakohtaisia anonymisointisuunnitelmia, eräänlaisia anonymisoinnin viitekehyksiä.

Sarjaa koskevassa anonymisoinnin viitekehyksessä datatiedoston sisäisen tarkastelun lisäksi kiinnitetään huomiota mahdollisiin muihin saatavilla oleviin tietoihin. Viitekehystä täydennetään ajan kuluessa ja se ohjaa datan käsittelijää tarkastelemaan itse datatiedoston ohella käyttöympäristöä. Erityisesti tulee selvittää, mitä tietoja kohdepopulaatiosta on saatavilla internetissä.

Yksityiskohtainen tarkastelu tulee tehdä joka tapauksessa myös jokaiseen aineistosarjan uuteen dataan. Anonymisoinnin viitekehys ei siis aina riitä ohjeeksi – tutkijat kun tykkäävät välillä muutella myös sarja-aineistojaan, esimerkiksi lisäämällä niihin uusia taustamuuttujia ja kysymyksiä tutkittaville. Jos viitekehystä täsmennetään aineiston uusien muuttujien tai muualta saatavan tiedon kasvun vuoksi, tulee myös sarjan aiemmat aineistot tarkistaa ja tarvittaessa muuttaa. Näin jäännösriskin arviointi tulee osaksi aineistosarjojen peruskäsittelyä.

Anonymisointiohjeistukset muutoksessa

Tietosuoja-asetuksen tuoma käsitteistö ja anonymisoinnin toimintatapojen uudistukset Tietoarkistossa antoivat sysäyksen myös Aineistonhallinnan käsikirjan tunnisteellisuutta ja anonymisointia koskevien ohjeiden uudistamiselle. Opas tarjoaa nyt ohjeita käsitteitä koskeviin epäselvyyksiin esimerkiksi pohdittaessa, miten erottaa pseydonyymi ja anonyymi tieto toisistaan. Lisäksi lukija saa laajan kattauksen siitä, mitä pitää ottaa huomioon anonymisointia suunniteltaessa.

Erityisesti kvantitutkijoiden kannattaa nyt heristää korviaan, sillä täydensimme urakassa nimenomaan kvantitatiivisten aineistojen anonymisointiohjeita ja -menetelmiä.

Tutkijoiden tietotaidon kartuttaminen Aineistonhallinnan käsikirjan avulla vahvistaa myös Tietoarkistoon arkistoitavien aineistojen tietosuojaa. Viime vuonna valmistuneista arkistoiduista aineistoista jouduimme tekemään lisäanonymisointia 60 prosentille – vaikka usein tutkija oli olettanut aineistonsa jo anonyymiksi. Toivomme, että käsikirjamme uudistetut ohjeet pienentävät jatkossa tuota osuutta.

Suosittelemme siis lämpimästi tutustumista uusiin ohjeisiimme. Koska ohjeistukset ovat nimenmaan aineistonkäyttäjiä varten, otamme niistä myös mielellään palautetta vastaan!

Lisätietoa:
» Tietoarkiston asiakaspalvelu: asiakaspalvelu.fsd at uta.fi
» Aineistonhallinnan käsikirja, Tunnisteellisuus ja anonymisointi

Annika Sallinen
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi

Tutkimusaineistojen avaaminen on tutkittavien etu

Terveys- ja lääketieteellisistä asioista olisi paljonkin kirjoitettavaa, mutta tämä blogiteksti jää viimeiseksi kirjoituksekseni Tietoarkistossa. Kun yksi ovi sulkeutuu, toisia avautuu – tällä kertaa ovi avautui Terveyden ja hyvinvoinnin laitoksessa, jossa nyt työskentelen.

Tämä kirjoitus käsittelee tärkeää aihetta, eli sitä mikä on tutkittavan etu lääketieteellisten tutkimusaineistojen avaamisessa. Taustalla ovat yhä lisääntyvät vaatimukset tutkimuksen avoimuudesta. Niistä lääketieteen tutkimuksen kannalta merkittävin on kansainvälisten lääketieteellisten lehtien komitean (ICMJE) tavoite, jonka mukaan kaikkien kliinisten tutkimusten aineistot on jatkossa aukaistava.

Miksi sitten sellainen instituutio kuin ICMJE suosittelee kliinisten tutkimusten datojen avaamista? Monella varmasti herää kysymys, eivätkö he ajattele tutkimukseen osallistuvien tietosuojaa? Ehkä vähän yllättäen, ICMJE kuitenkin perustelee tutkimusaineistojen avaamista juuri osallistujien edulla.

Heidän mukaansa kyse on ennen kaikkea tutkijan vastuusta tutkittavilleen. Jo suostumuksessa osallistujille tehdään selväksi, että tutkimuksen hyödyt eivät välttämättä suoraan koidu heille itselleen, vaan tuleville potilaille. Osallistuessaan tutkimukseen tutkittavat siis asettavat terveytensä, hyvinvointinsa ja taloudellisen toimeentulonsa alttiiksi riskeille hyödyttääkseen tulevia potilaita. Siksi on eettisesti välttämätöntä, että tutkimusaineisto ja sen tulokset käytetään hyödyksi mahdollisimman tarkoin.

Se ei onnistu, mikäli tutkimusaineistoa pääsee käyttämään vain datan kerännyt yritys tai akateeminen tutkimusryhmä. On epätodennäköistä, että tutkijat pystyvät analysoimaan täydellisesti kaikkea keräämäänsä dataa. Tutkimuksen tulokset voivat myös jäädä epäselviksi, jos tutkittavien joukko on ollut liian pieni, jotta intervention vaikutukset saataisiin tutkimuksessa selville. Tutkimuksen puutteetkin havaitaan helpommin ulkopuolisen silmin.

Siksi data on tärkeää antaa myös muiden tutkijoiden saataville. He voivat ottaa datan oman tutkimusaineistonsa rinnalle, jolloin tutkimusjoukon kasvu pienentää havaitun vaikutuksen suuruuteen ja suuntaan liittyvää epävarmuutta. Datan jakaminen auttaa pääsemään varmuuteen hoidon vaikuttavuudesta nopeammin ja potilaat hyötyvät paitsi nopeammasta uudesta hoidosta, myös siitä, ettei tutkimusta tarvitse toistaa yhtä monta kertaa ja altistaa yhä uusia osallistujia riskeille.

ICMJE esittää, että lähivuosina tutkimusaineistojen avaamisesta tehdään pakollista. Se ei ole vaatimuksineen yksin – yhä useampi tutkimusrahoittaja ja muun muassa Institute of Medicine/National Academy of Medicine sekä European Medicines Agency vaativat tutkimusaineistojen avaamista.

Potentiaalisena tulevien hoitojen ja lääkkeiden käyttäjänä kannatan lämpimästi myös lääketieteellisten aineistojen avaamista. Tänä tietotekniikan aikakautena tutkittavien tietosuoja saadaan varmasti taattua kaikkia osapuolia tyydyttävällä tavalla vaikkapa tietoturvallisten etäkäyttöjärjestelmien avulla. Suomessa tällainen etäkäyttöjärjestelmä on jo rakenteilla rekisteritietojen tietoturvallista käyttöä varten.

Annaleena Okuloff
erikoissuunnittelija, THL
Tietoarkiston entinen terveystieteiden tieteenala-asiantuntija
fsd [at] uta.fi

Emilia Korkea-aho: Tsaarinaikaista avoimuutta?

Korkein hallinto-oikeus teki päätöksen eduskunnan vierailijalistojen julkisuudesta 20.12.2016 (diaarinumero 291/1/15). Valittaja (A taustayhteisönsä Avoin Ministeriö ry:n nimissä) oli hakenut päätöstä eduskunnan kansliatoimikunnan tekemään päätökseen, jonka mukaan vierailijalistojen tiedot kansanedustajien vieraista sekä eduskunnassa virka- tai työsuhteessa olevien henkilöiden yksityisasioissa tapaamista vieraista ovat salassa pidettävää tietoa. Tuomioistuin katsoi kuitenkin, että eduskunnan vierailijatietojärjestelmä ja kulunvalvontapöytäkirjat ovat julkisuuslain 6 […]

Aineiston avaajan muistilista

Tietoarkiston tieteenala-asiantuntija Katja Fält ja tutkimusamanuenssi Eliisa Haanpää antoivat Jyväskylässä pidetyllä Metodifestivaalilla hyviä käytännönvinkkejä tutkimusaineistojen avaamiseen.

Aineistojen avaaminen tarkoittaa, että oma tutkimusaineisto saatetaan muun tiedeyhteisön käyttöön avoimen tieteen periaatteiden mukaisesti. Tätä vaativat tai suosittelevat nykyisin jo useimmat suomalaiset sekä kansainväliset yliopistot, julkaisijat ja rahoittajat. Aineiston avaaminen on myös tutkijalle itselleen tieteellinen meriitti, ja se lisää oman tutkimuksen vaikuttavuutta.

Aineistojen avaamista käsittelevä sessio herätti Metodifestivaalilla paljon kiinnostusta, mistä voi päätellä, että tutkijat kaipaavat asiassa konkreettisia neuvoja. Kokosimmekin Tietoarkistoblogiin Haanpään ja Fältin esityksiin perustuvan muistilistan, josta toivottavasti on apua aineiston avaamista suunnitteleville tutkijoille myös jatkossa! Vinkeistä on apua sekä siinä vaiheessa, kun aineistonkeruu on vasta suunnitelmissa että silloin, kun aineisto on jo olemassa, ja se on päätetty arkistoida.

Kun oman aineiston arkistoiminen ja avaaminen tulevat ajankohtaisiksi, kannattaa tutustua myös Tietoarkiston Aineistonhallinnan käsikirjaan ja ottaa yhteyttä Tietoarkiston asiakaspalveluun. Asiantuntijoiltamme saat aina parhaat täsmäneuvot juuri oman aineistosi vastuulliseen avaamiseen.

1. Tee aineistonhallintasuunnitelma

Aineistonkeruun suunnitteluun ja aineiston käsittelyyn kannattaa käyttää aikaa, että aineiston avaaminen jatkokäyttöä varten onnistuu tutkimuksen lopuksi. Olennaista on kiinnittää huomiota siihen, että aineisto on alusta asti johdonmukaisesti kerätty, kuvailtu ja toteutettu.

Aineistonhallintasuunnitelmassa kannattaa kertoa ainakin, minkälaista aineistoa aikoo kerätä, mitkä ovat aineistoon liittyvät oikeudet, minkälaisia tietosuoja- tai tietoturvakysymyksiä aineistoa kerätessä, käsitellessä ja säilytettäessä pitää huomioida, minkälaisia tiedostoformaatteja ja ohjelmistoja aineistoon liittyy, miten aineistoa aiotaan käsitellä, miten se kuvaillaan ja millainen aineiston elinkaaresta kokonaisuudessaan ajan myötä muodostuu.

Aineistonhallintasuunnitelman laatimiseen saa hyviä neuvoja Aineistonhallinnan käsikirjasta. Konkreettinen apu on myös aineistonhallintasuunnitelman laatimista varten kehitetty työkalu DMPTuuli.

2. Pohdi onko aineistossasi tunnisteellisia tietoja

Ihmistieteiden tutkimusaineistot sisältävät useimmiten enemmän tai vähemmän tutkittavien henkilötietoja. Tiedot ovat tunnisteellisia, jos niiden perusteella on mahdollista tunnistaa yksittäinen henkilö. Henkilötietolain ja EU:n tietosuoja-asetuksen määritelmien mukaisesti käytännössä mikä tahansa elävää ihmistä koskeva tieto voi olla tunnistamisen mahdollistava henkilötieto. Henkilötietojen käsittely vaatii aina tutkittavien nimenomaisen suostumuksen, ja tunnisteellisen aineiston avaaminen on usein tietosuojasyistä haastavaa.

Jos tunnisteellisen aineiston anonymisoi, siihen ei enää tarvitse soveltaa henkilötietolakia tai tietosuoja-asetusta. Anonymisointi tarkoittaa sitä, että tunnisteelliset tiedot häivytetään aineistosta niin täydellisesti, että yksittäisen henkilön tunnistaminen ei enää ole mahdollista.

Henkilötiedoista ja aineistojen anonymisoinnista voi lukea tarkemmin kvalitatiivista aineistoa ja kvalitatiivista aineistoa koskevista blogikirjoituksista.

3. Varmista onko aineisto tekijänoikeuden alaista

Erityisesti laadullisen aineiston avaaja törmää usein tekijänoikeuteen liittyviin kysymyksiin. Teossuojaa saavan aineiston avaaminen saattaa olla ongelmallista, mutta useimmiten se on kuitenkin mahdollista erikseen sopimalla. Tärkeintä on ymmärtää, että tekijänoikeuden haltija määrää aineiston käyttötavat, joten aineiston jatkokäyttöön on yleensä saatava suostumus tekijänoikeuden haltijalta.

Tietoarkisto on solminut Kopioston kanssa sopimuksen, jonka perusteella teossuojaa saavat sanomalehti-, aikakauslehti- ja kuva-aineistot, eli kaikki Kopiosto-sopimuksen alaiset aineistot voi arkistoida Tietoarkistoon. Näiden aineistojen kohdalla tutkijan ei siis tarvitse enää ryhtyä itse kysymään teossuojaa saavien aineistojen avaamiseen erillisiä lupia.

Esimerkiksi tutkittavien ottamien valokuvien tai heidän kirjoittamiensa teoksiksi tulkittavien tekstien avaamiseen sen sijaan tarvitaan erillinen lupa. Sosiaalisen median aineistojen avaamisessa tekijänoikeudet muodostuvat valitettavasti usein aineiston avaamissuunnitelmat pysäyttäväksi kynnyskysymykseksi, koska Suomen laissa ei ole ainakaan vielä tutkimuskäyttöä mahdollistavaa poikkeussäännöstä.

4. Tallenna aineisto huolellisesti

Kun aineisto on kerätty, tallenna havaintomatriisi, haastattelulitteraatiot tai muu aineisto varmaan paikkaan. Huolehdi myös siitä, että aineistosta tulee otettua säännöllisesti varmuuskopio. Uusi varmuuskopio kannattaa ottaa aina esimerkiksi silloin, jos lisäät aineistoon jotain taustatietoja. Näin varmistat, ettei aineisto katoa kesken analysoinnin tai ennen kuin se on ehditty avata jatkokäyttöön.

5. Nimeä aineiston muuttujat loogisesti

Aineistoa kuvaillessaan kannattaa miettiä, minkä verran aineistosta pitäisi kertoa, jotta itse pystyisi vielä kymmenen vuoden päästä ymmärtämään, mistä aineistossa on kyse ja käyttämään sitä vaivatta uuteen tutkimukseen.

Nimeä kvantitatiivisen aineiston muuttujat ja niiden selitteet niin, että ne vastaavat mahdollisimman yksiselitteisesti kyselylomaketta tai muuta keruuinstrumenttia. Myös muuttuja-arvot ja niiden selitteet kannattaa avata kokonaisuudessaan. Lyhenteiden käyttäminen on riski, koska lyhenteet saattavat sekoittua toisiinsa.

Muuttuja-arvoille tehdyt muutokset kannattaa raportoida mahdollisimman hyvin, niin alkuperäisen muuttujan selvittäminen onnistuu tarvittaessa. Kerro aina myös mahdollisesta painomuuttujien käytöstä ja kuvaile tarkasti painomuuttujiin liittyvät tiedot.

Myös puuttuvien tietojen määritteleminen on tärkeää. Jos siis vastaaja ei ole esimerkiksi vastannut kyselytutkimuksessa johonkin kysymykseen mitään, vastauksen voi koodata selkeästi muista vastausvaihtoehdoista erottuvalla numerolla kuten 999.

6. Kuvaile tutkimuksen toteutustapa riittävän tarkasti

Kuvaile mahdollisimman tarkasti aineistonkeruuseen liittyvät yksityiskohdat, eli milloin keruu on aloitettu, milloin se on lopetettu ja minkälaisia yksityiskohtia aineistonkeruuseen liittyy. Muista kirjata ylös tutkimuksen alkuperäinen käyttötarkoitus, eli se minkä vuoksi aineisto on kerätty, samoin se, ketkä ovat aineiston tekijät. Pidä mahdollisimman tarkkaa listaa myös siitä, minkälaisiin julkaisuihin aineistoa on käytetty, jotta mahdollinen jatkokäyttäjä tietää, minkälaisia julkaisuja aineistosta on jo tehty.

Aineiston perusjoukko eli aineiston kattama populaatio kannattaa määritellä mahdollisimman tarkasti jo aineistonkeruuvaiheessa. Myös havaintoyksikön määritteleminen on olennaista. Huomaa, että perusjoukko ja havaintoyksikkö voivat olla keskenään eri asiat. Jos esimerkiksi havaintoyksikkönä on kunta, ja tutkimuksessa on haluttu selvittää yksittäisten kuntien tai useiden kuntien tilannetta, perusjoukkona aineistossa saattavat olla esimerkiksi kunnanjohtajat, joita on haastateltu, jotta saadaan tietoa havaintoyksiköstä eli kunnasta.

7. Muista, että huolellinen suunnittelutyö palkitaan

Vaikka aineistonkeruun suunnitteleminen, käsittely ja anonymisointi voivat tuntua työläiltä, kannattaa pitää mielessä, että käytetty aika maksaa itsensä takaisin. Aineistonhallinnan suunnittelu ja johdonmukainen käsittely auttavat jo tutkimuksen toteuttamisvaiheessa, ja takaavat sen, että aineiston avaaminen sujuu helposti ilman ylimääräisiä ponnisteluja.

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Aineiston avaajan muistilista

Tietoarkiston tieteenala-asiantuntija Katja Fält ja tutkimusamanuenssi Eliisa Haanpää antoivat Jyväskylässä pidetyllä Metodifestivaalilla hyviä käytännönvinkkejä tutkimusaineistojen avaamiseen.

Aineistojen avaaminen tarkoittaa, että oma tutkimusaineisto saatetaan muun tiedeyhteisön käyttöön avoimen tieteen periaatteiden mukaisesti. Tätä vaativat tai suosittelevat nykyisin jo useimmat suomalaiset sekä kansainväliset yliopistot, julkaisijat ja rahoittajat. Aineiston avaaminen on myös tutkijalle itselleen tieteellinen meriitti, ja se lisää oman tutkimuksen vaikuttavuutta.

Aineistojen avaamista käsittelevä sessio herätti Metodifestivaalilla paljon kiinnostusta, mistä voi päätellä, että tutkijat kaipaavat asiassa konkreettisia neuvoja. Kokosimmekin Tietoarkistoblogiin Haanpään ja Fältin esityksiin perustuvan muistilistan, josta toivottavasti on apua aineiston avaamista suunnitteleville tutkijoille myös jatkossa! Vinkeistä on apua sekä siinä vaiheessa, kun aineistonkeruu on vasta suunnitelmissa että silloin, kun aineisto on jo olemassa, ja se on päätetty arkistoida.

Kun oman aineiston arkistoiminen ja avaaminen tulevat ajankohtaisiksi, kannattaa tutustua myös Tietoarkiston Aineistonhallinnan käsikirjaan ja ottaa yhteyttä Tietoarkiston asiakaspalveluun. Asiantuntijoiltamme saat aina parhaat täsmäneuvot juuri oman aineistosi vastuulliseen avaamiseen.

1. Tee aineistonhallintasuunnitelma

Aineistonkeruun suunnitteluun ja aineiston käsittelyyn kannattaa käyttää aikaa, että aineiston avaaminen jatkokäyttöä varten onnistuu tutkimuksen lopuksi. Olennaista on kiinnittää huomiota siihen, että aineisto on alusta asti johdonmukaisesti kerätty, kuvailtu ja toteutettu.

Aineistonhallintasuunnitelmassa kannattaa kertoa ainakin, minkälaista aineistoa aikoo kerätä, mitkä ovat aineistoon liittyvät oikeudet, minkälaisia tietosuoja- tai tietoturvakysymyksiä aineistoa kerätessä, käsitellessä ja säilytettäessä pitää huomioida, minkälaisia tiedostoformaatteja ja ohjelmistoja aineistoon liittyy, miten aineistoa aiotaan käsitellä, miten se kuvaillaan ja millainen aineiston elinkaaresta kokonaisuudessaan ajan myötä muodostuu.

Aineistonhallintasuunnitelman laatimiseen saa hyviä neuvoja Aineistonhallinnan käsikirjasta. Konkreettinen apu on myös aineistonhallintasuunnitelman laatimista varten kehitetty työkalu DMPTuuli.

2. Pohdi onko aineistossasi tunnisteellisia tietoja

Ihmistieteiden tutkimusaineistot sisältävät useimmiten enemmän tai vähemmän tutkittavien henkilötietoja. Tiedot ovat tunnisteellisia, jos niiden perusteella on mahdollista tunnistaa yksittäinen henkilö. Henkilötietolain ja EU:n tietosuoja-asetuksen määritelmien mukaisesti käytännössä mikä tahansa elävää ihmistä koskeva tieto voi olla tunnistamisen mahdollistava henkilötieto. Henkilötietojen käsittely vaatii aina tutkittavien nimenomaisen suostumuksen, ja tunnisteellisen aineiston avaaminen on usein tietosuojasyistä haastavaa.

Jos tunnisteellisen aineiston anonymisoi, siihen ei enää tarvitse soveltaa henkilötietolakia tai tietosuoja-asetusta. Anonymisointi tarkoittaa sitä, että tunnisteelliset tiedot häivytetään aineistosta niin täydellisesti, että yksittäisen henkilön tunnistaminen ei enää ole mahdollista.

Henkilötiedoista ja aineistojen anonymisoinnista voi lukea tarkemmin kvalitatiivista aineistoa ja kvalitatiivista aineistoa koskevista blogikirjoituksista.

3. Varmista onko aineisto tekijänoikeuden alaista

Erityisesti laadullisen aineiston avaaja törmää usein tekijänoikeuteen liittyviin kysymyksiin. Teossuojaa saavan aineiston avaaminen saattaa olla ongelmallista, mutta useimmiten se on kuitenkin mahdollista erikseen sopimalla. Tärkeintä on ymmärtää, että tekijänoikeuden haltija määrää aineiston käyttötavat, joten aineiston jatkokäyttöön on yleensä saatava suostumus tekijänoikeuden haltijalta.

Tietoarkisto on solminut Kopioston kanssa sopimuksen, jonka perusteella teossuojaa saavat sanomalehti-, aikakauslehti- ja kuva-aineistot, eli kaikki Kopiosto-sopimuksen alaiset aineistot voi arkistoida Tietoarkistoon. Näiden aineistojen kohdalla tutkijan ei siis tarvitse enää ryhtyä itse kysymään teossuojaa saavien aineistojen avaamiseen erillisiä lupia.

Esimerkiksi tutkittavien ottamien valokuvien tai heidän kirjoittamiensa teoksiksi tulkittavien tekstien avaamiseen sen sijaan tarvitaan erillinen lupa. Sosiaalisen median aineistojen avaamisessa tekijänoikeudet muodostuvat valitettavasti usein aineiston avaamissuunnitelmat pysäyttäväksi kynnyskysymykseksi, koska Suomen laissa ei ole ainakaan vielä tutkimuskäyttöä mahdollistavaa poikkeussäännöstä.

4. Tallenna aineisto huolellisesti

Kun aineisto on kerätty, tallenna havaintomatriisi, haastattelulitteraatiot tai muu aineisto varmaan paikkaan. Huolehdi myös siitä, että aineistosta tulee otettua säännöllisesti varmuuskopio. Uusi varmuuskopio kannattaa ottaa aina esimerkiksi silloin, jos lisäät aineistoon jotain taustatietoja. Näin varmistat, ettei aineisto katoa kesken analysoinnin tai ennen kuin se on ehditty avata jatkokäyttöön.

5. Nimeä aineiston muuttujat loogisesti

Aineistoa kuvaillessaan kannattaa miettiä, minkä verran aineistosta pitäisi kertoa, jotta itse pystyisi vielä kymmenen vuoden päästä ymmärtämään, mistä aineistossa on kyse ja käyttämään sitä vaivatta uuteen tutkimukseen.

Nimeä kvantitatiivisen aineiston muuttujat ja niiden selitteet niin, että ne vastaavat mahdollisimman yksiselitteisesti kyselylomaketta tai muuta keruuinstrumenttia. Myös muuttuja-arvot ja niiden selitteet kannattaa avata kokonaisuudessaan. Lyhenteiden käyttäminen on riski, koska lyhenteet saattavat sekoittua toisiinsa.

Muuttuja-arvoille tehdyt muutokset kannattaa raportoida mahdollisimman hyvin, niin alkuperäisen muuttujan selvittäminen onnistuu tarvittaessa. Kerro aina myös mahdollisesta painomuuttujien käytöstä ja kuvaile tarkasti painomuuttujiin liittyvät tiedot.

Myös puuttuvien tietojen määritteleminen on tärkeää. Jos siis vastaaja ei ole esimerkiksi vastannut kyselytutkimuksessa johonkin kysymykseen mitään, vastauksen voi koodata selkeästi muista vastausvaihtoehdoista erottuvalla numerolla kuten 999.

6. Kuvaile tutkimuksen toteutustapa riittävän tarkasti

Kuvaile mahdollisimman tarkasti aineistonkeruuseen liittyvät yksityiskohdat, eli milloin keruu on aloitettu, milloin se on lopetettu ja minkälaisia yksityiskohtia aineistonkeruuseen liittyy. Muista kirjata ylös tutkimuksen alkuperäinen käyttötarkoitus, eli se minkä vuoksi aineisto on kerätty, samoin se, ketkä ovat aineiston tekijät. Pidä mahdollisimman tarkkaa listaa myös siitä, minkälaisiin julkaisuihin aineistoa on käytetty, jotta mahdollinen jatkokäyttäjä tietää, minkälaisia julkaisuja aineistosta on jo tehty.

Aineiston perusjoukko eli aineiston kattama populaatio kannattaa määritellä mahdollisimman tarkasti jo aineistonkeruuvaiheessa. Myös havaintoyksikön määritteleminen on olennaista. Huomaa, että perusjoukko ja havaintoyksikkö voivat olla keskenään eri asiat. Jos esimerkiksi havaintoyksikkönä on kunta, ja tutkimuksessa on haluttu selvittää yksittäisten kuntien tai useiden kuntien tilannetta, perusjoukkona aineistossa saattavat olla esimerkiksi kunnanjohtajat, joita on haastateltu, jotta saadaan tietoa havaintoyksiköstä eli kunnasta.

7. Muista, että huolellinen suunnittelutyö palkitaan

Vaikka aineistonkeruun suunnitteleminen, käsittely ja anonymisointi voivat tuntua työläiltä, kannattaa pitää mielessä, että käytetty aika maksaa itsensä takaisin. Aineistonhallinnan suunnittelu ja johdonmukainen käsittely auttavat jo tutkimuksen toteuttamisvaiheessa, ja takaavat sen, että aineiston avaaminen sujuu helposti ilman ylimääräisiä ponnisteluja.

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Aineistojen avoimuus saattaisi ratkaista monta lääketieteen tutkimuksen ongelmaa

Tutkimusaineistojen avoimuus on päivän trendi. Ehkä vähän yllättäen myös arkaluonteista tietoa sisältävien aineistojen avaamisen puolesta puhuu yhä useampi tutkija, ja lääketieteen julkaisut ovat alkaneet vaatia artikkelin julkaisijoita avaamaan tutkimusaineistonsa. Nyt on hyvä hetki istua alas ja pohtia syitä, joiden vuoksi aineistojen avoimuutta halutaan edistää terveys- ja lääketieteen tutkimuksen alalla.

En tässä kirjoituksessa kajoa tietosuojakysymyksiin tai aineistojen avaamisesta tutkittaville koituviin hyötyihin. Jälkimmäisestä aiheesta on tulossa Tietoarkistoblogiin oma kirjoitus, ja Euroopan unionin yleisen tietosuojan kansallinen tulkinta on vielä sen verran kesken, että tietosuoja-asiaan kannattaa paneutua vasta myöhemmin. Kannattaa seurata Tietoarkiston tapahtumia, esimerkiksi loka-marraskuussa on luvassa kaksi aiheeseen liittyvää seminaaria.

Sitten takaisin blogin varsinaiseen aiheeseen.

Kaikessa tutkimuksessa, ei pelkästään terveys- ja lääketieteissä, on ongelmallista, jos tutkimustuloksia ei pystytä toistamaan. Lääketieteissä toistettavuuden puute johtaa epävarmuuteen siitä, mikä olisi paras tapa hoitaa potilaita. Lääketieteissä seuraukset ovat siis moniin muihin tieteenaloihin verrattuna erityisen vakavia.

Toistettavuuden puute voi johtua monista tekijöistä. Aineisto voi olla liian pieni, jolloin tulokset voivat olla sattumalöydöksiä. Aineistossa tai sen analyysissa käytetyissä menetelmissä voi olla puutteita, joiden seurauksena löytyy eroja, joita ei todellisuudessa ole. Tai yhteyttä ei ole olemassakaan, mutta vasta kun takana on riittävän monta laadukasta tutkimusta, jotka eivät hypoteesia vahvista, voidaan todeta, ettei hypoteesi pitänyt paikkaansa.

Tutkimusaineistojen avoimuutta halutaan, koska se parantaa tutkimuksen laatua ja laadukkaammat tutkimukset johtavat parempaan toistettavuuteen. Epidemiologisesta tutkimuksesta voidaan siirtyä nopeammin varsinaisten syy-yhteyksien selvittämiseen. Yhtenäisistä tutkimustuloksista saadaan käypä hoito -suosituksia, joiden perustana on vahva näyttö vaikuttavuudesta. Meta-analyyseihin kun pätee sama ”garbage in, garbage out” -periaate kuin monella muullakin alalla: meta-analyysi tai systemaattinen kirjallisuuskatsaus voi olla vain niin hyvä kuin ovat ne alkuperäiset tutkimustulokset, joiden pohjalta analyysit ja koosteet tehdään.

Tutkimusaineistojen avoimuuden lisääntyminen mahdollistaa myös yhä useammin yksilötason potilastietoihin perustuvat individual patient data (IPD)-meta-analyysit sen sijaan, että jouduttaisiin tyytymään pelkkiin artikkeleiden tarjoamiin tunnuslukuihin. Avoimien aineistojen avulla tutkimuksen tuloksia voi vertailla helposti toisenlaiseen populaatioon, (jonka dataa ei ole analysoitu vielä ihan samalla tavalla) ja löydökset joko vahvistuvat tai osoittautuvat merkityksettömiksi.

Avoimesta tutkimusaineistosta voi myös varmistaa alkuperäiset tulokset ja käytettyjen menetelmien asianmukaisuuden. On valitettavan tavallista vaihtaa ja muokata alkuperäisen kiinnostuksen kohteina olleita tulosmuuttujia, päävasteita, parempien tulosten toivossa. Avoin data auttaa varmistamaan, että alun perin kiinnostavat vasteet myös analysoidaan ja tulokset julkaistaan. Dataväärennöksiä datojen avaaminen tuskin kokonaan lopettaa, mutta niiden tekeminen ainakin vaikeutuu.

Sitten on hyvin tunnettu ongelma, eli julkaisuharha. Negatiivisia tutkimustuloksia ei haluta julkaista, tai vaikka haluttaisiinkin, niitä ei välttämättä saa julkaistua. Lääketehdas voi olla halukas hautaamaan vakavia sivuvaikutuksia tuottaneen lääkkeen tutkimuksen kokonaan ja samaa lääkeainetta voi sitten testata jokin muu taho tietämättä jo todettuja haittavaikutuksia. Jos kaikkien rekisteröityjen tutkimusten aineistot on pakko avata, näitä negatiivisia kokeita ei ole yhtä helppo haudata.

Tehdyistä tutkimuksista voi ottaa myös oppia. Julkaistusta datasta voi saada lisätietoa siitä, mitä taustatekijöitä on syytä ottaa huomioon satunnaistettaessa tutkittavia ryhmiin. Datan saattaminen muiden tutkijoiden käyttöön auttaa saamaan aiheeseen uusia näkökulmia ja havaitsemaan millainen tutkimus toimii ja millainen ei. Kaiken kaikkiaan tarve tutkia samoja ilmiöitä, hoitoja ja lääkkeitä yhä uudelleen vähenee.

Avoimuuden sivuilmiönä tutkijat kertovat tekevänsä tutkimusaineiston avaamiseen tähtäävää tutkimusta huomaamattaan hieman huolellisemmin kuin tutkimusta, jonka aineisto ja menetelmät jäävät vain heidän omaan käyttöönsä. Kun tietää joutuvansa perustelemaan jokaisen päätöksen, tulee tarkasteltua tarkemmin menetelmällisiä valintoja, joita aiemmin on pitänyt itsestään selvinä.

Tutkimusaineistojen avoimuus ei siis ehkä korjaa kaikkia lääketieteen tutkimuksen ongelmia, mutta auttaa kyllä hyvin monen nujertamisessa.

Annaleena Okuloff
erikoissuunnittelija, THL
Tietoarkiston entinen terveystieteiden tieteenala-asiantuntija
fsd [at] uta.fi

Aineistojen avoimuus saattaisi ratkaista monta lääketieteen tutkimuksen ongelmaa

Tutkimusaineistojen avoimuus on päivän trendi. Ehkä vähän yllättäen myös arkaluonteista tietoa sisältävien aineistojen avaamisen puolesta puhuu yhä useampi tutkija, ja lääketieteen julkaisut ovat alkaneet vaatia artikkelin julkaisijoita avaamaan tutkimusaineistonsa. Nyt on hyvä hetki istua alas ja pohtia syitä, joiden vuoksi aineistojen avoimuutta halutaan edistää terveys- ja lääketieteen tutkimuksen alalla.

En tässä kirjoituksessa kajoa tietosuojakysymyksiin tai aineistojen avaamisesta tutkittaville koituviin hyötyihin. Jälkimmäisestä aiheesta on tulossa Tietoarkistoblogiin oma kirjoitus, ja Euroopan unionin yleisen tietosuojan kansallinen tulkinta on vielä sen verran kesken, että tietosuoja-asiaan kannattaa paneutua vasta myöhemmin. Kannattaa seurata Tietoarkiston tapahtumia, esimerkiksi loka-marraskuussa on luvassa kaksi aiheeseen liittyvää seminaaria.

Sitten takaisin blogin varsinaiseen aiheeseen.

Kaikessa tutkimuksessa, ei pelkästään terveys- ja lääketieteissä, on ongelmallista, jos tutkimustuloksia ei pystytä toistamaan. Lääketieteissä toistettavuuden puute johtaa epävarmuuteen siitä, mikä olisi paras tapa hoitaa potilaita. Lääketieteissä seuraukset ovat siis moniin muihin tieteenaloihin verrattuna erityisen vakavia.

Toistettavuuden puute voi johtua monista tekijöistä. Aineisto voi olla liian pieni, jolloin tulokset voivat olla sattumalöydöksiä. Aineistossa tai sen analyysissa käytetyissä menetelmissä voi olla puutteita, joiden seurauksena löytyy eroja, joita ei todellisuudessa ole. Tai yhteyttä ei ole olemassakaan, mutta vasta kun takana on riittävän monta laadukasta tutkimusta, jotka eivät hypoteesia vahvista, voidaan todeta, ettei hypoteesi pitänyt paikkaansa.

Tutkimusaineistojen avoimuutta halutaan, koska se parantaa tutkimuksen laatua ja laadukkaammat tutkimukset johtavat parempaan toistettavuuteen. Epidemiologisesta tutkimuksesta voidaan siirtyä nopeammin varsinaisten syy-yhteyksien selvittämiseen. Yhtenäisistä tutkimustuloksista saadaan käypä hoito -suosituksia, joiden perustana on vahva näyttö vaikuttavuudesta. Meta-analyyseihin kun pätee sama ”garbage in, garbage out” -periaate kuin monella muullakin alalla: meta-analyysi tai systemaattinen kirjallisuuskatsaus voi olla vain niin hyvä kuin ovat ne alkuperäiset tutkimustulokset, joiden pohjalta analyysit ja koosteet tehdään.

Tutkimusaineistojen avoimuuden lisääntyminen mahdollistaa myös yhä useammin yksilötason potilastietoihin perustuvat individual patient data (IPD)-meta-analyysit sen sijaan, että jouduttaisiin tyytymään pelkkiin artikkeleiden tarjoamiin tunnuslukuihin. Avoimien aineistojen avulla tutkimuksen tuloksia voi vertailla helposti toisenlaiseen populaatioon, (jonka dataa ei ole analysoitu vielä ihan samalla tavalla) ja löydökset joko vahvistuvat tai osoittautuvat merkityksettömiksi.

Avoimesta tutkimusaineistosta voi myös varmistaa alkuperäiset tulokset ja käytettyjen menetelmien asianmukaisuuden. On valitettavan tavallista vaihtaa ja muokata alkuperäisen kiinnostuksen kohteina olleita tulosmuuttujia, päävasteita, parempien tulosten toivossa. Avoin data auttaa varmistamaan, että alun perin kiinnostavat vasteet myös analysoidaan ja tulokset julkaistaan. Dataväärennöksiä datojen avaaminen tuskin kokonaan lopettaa, mutta niiden tekeminen ainakin vaikeutuu.

Sitten on hyvin tunnettu ongelma, eli julkaisuharha. Negatiivisia tutkimustuloksia ei haluta julkaista, tai vaikka haluttaisiinkin, niitä ei välttämättä saa julkaistua. Lääketehdas voi olla halukas hautaamaan vakavia sivuvaikutuksia tuottaneen lääkkeen tutkimuksen kokonaan ja samaa lääkeainetta voi sitten testata jokin muu taho tietämättä jo todettuja haittavaikutuksia. Jos kaikkien rekisteröityjen tutkimusten aineistot on pakko avata, näitä negatiivisia kokeita ei ole yhtä helppo haudata.

Tehdyistä tutkimuksista voi ottaa myös oppia. Julkaistusta datasta voi saada lisätietoa siitä, mitä taustatekijöitä on syytä ottaa huomioon satunnaistettaessa tutkittavia ryhmiin. Datan saattaminen muiden tutkijoiden käyttöön auttaa saamaan aiheeseen uusia näkökulmia ja havaitsemaan millainen tutkimus toimii ja millainen ei. Kaiken kaikkiaan tarve tutkia samoja ilmiöitä, hoitoja ja lääkkeitä yhä uudelleen vähenee.

Avoimuuden sivuilmiönä tutkijat kertovat tekevänsä tutkimusaineiston avaamiseen tähtäävää tutkimusta huomaamattaan hieman huolellisemmin kuin tutkimusta, jonka aineisto ja menetelmät jäävät vain heidän omaan käyttöönsä. Kun tietää joutuvansa perustelemaan jokaisen päätöksen, tulee tarkasteltua tarkemmin menetelmällisiä valintoja, joita aiemmin on pitänyt itsestään selvinä.

Tutkimusaineistojen avoimuus ei siis ehkä korjaa kaikkia lääketieteen tutkimuksen ongelmia, mutta auttaa kyllä hyvin monen nujertamisessa.

Annaleena Okuloff
erikoissuunnittelija, THL
Tietoarkiston entinen terveystieteiden tieteenala-asiantuntija
fsd [at] uta.fi

Tietoarkisto on FAIR

Avoimen tieteen piirissä on viimeisen vuoden aikana alettu puhua FAIR-periaatteista. Kiinnostuksen selittänee pitkälti EU:n Horisontti 2020 -ohjelma, joka painottaa tutkimusaineistojen hyvää hallintaa ja FAIR-periaatteita.

FAIR on lyhenne sanoista Findable, Accessible, Interoperable ja Re-usable. Suomeksi voitaisiin puhua tutkimusaineistojen löydettävyydestä, saavutettavuudesta, yhteentoimivuudesta ja uudelleenkäytettävyydestä – kaikki periaatteita, joita Tietoarkisto on edistänyt jo kohta kaksikymmentä vuotta ja vanhimmat yhteiskuntatieteelliset sisararkistomme (kuten brittien UKDS) jo puoli vuosisataa.

Vaikka kyse ei olekaan meille uudesta asiasta, FAIR-keskustelu on tarjonnut oivan herätteen tarkastella Tietoarkiston toimintaa hieman erilaisesta näkökulmasta. Yksi sysäys tarkastelullemme oli myös marraskuussa OpenAIRE2020-hankkeen järjestämä työpaja. Siellä FAIR-periaatteista keskusteltiin erilaisia tutkimuksen tukipalveluja vertailukohtana käyttäen. Tietoarkisto oli yksi mukana olleista palveluista.

Koska tarjoamme aineistojen arkistointi- ja avaamispalvelujen lisäksi neuvontaa ja ohjausta tutkimusdatan hallintaan (ks. tieteenala-asiantuntijamme Katja Fältin oiva katsaus olemassa oleviin aineistonhallinnan resursseihin ja palveluihin, onkin aiheellista ja reilua kysyä: Kuinka FAIR Tietoarkisto on?

Vastaukseni on, että Tietoarkisto on erittäin FAIR. Tässä tiivistetyt perustelut:

  • Tietoarkistoon arkistoidut aineistot on kuvailtu yksityiskohtaisesti. Metadata on vapaasti saatavilla ja hyödynnettävissä, vaikka datassa voi olla rajoituksia. Annamme aineistoille aina pysyvän tunnisteen. Aineistot ovat löydettävissä Tietoarkiston oman Aila-palveluportaalin kautta ja esimerkiksi myös kansallisten Finna- ja Etsin-palveluiden kautta.
  • Metadata on vapaasti saatavilla Ailan kautta sekä Tietoarkiston OAI-PMH-rajapinnasta. Rekisteröityneet käyttäjät voivat ladata dataa Ailasta. Aila hyödyntää HAKA-käyttäjätunnistusjärjestelmää.
  • Tietoarkisto käyttää aineistojen kuvailuun kansainvälistä DDI Codebook -kuvailuformaattia sekä useita kansainvälisiä sanastoja. Metadata sisältää myös viittauksia muuhun metadataan, dataan ja julkaisuihin. Data on saatavilla yhteiskuntatieteilijöiden yleisesti käyttämässä SPSS-formaatissa.
  • Aineistojen DDI Codebook -muotoinen metadata sisältää laajasti tietoa aineiston sisällöstä, tekijöistä, keruusta, muuttujista ja aineistoon viittaamisesta. Datan käyttöehdot ovat selkeät ja sisältyvät metadataan. Metadata on saatavilla CC-lisenssillä.

Tietoarkiston kannalta haasteellisin FAIR-periaate on yhteentoimivuus. FAIRin taustalla on idea koneellisesti saavutettavasta, käsiteltävästä ja tulkittavasta tiedosta. Se ei Tietoarkiston datan osalta toteudu täydellisesti, mutta mielestämme kuitenkin niin hyvin kuin on mahdollista ja tarkoituksenmukaista.

Marraskuun OpenAIRE2020-seminaarissa pohdittiinkin, mikä riittää siihen, että datan, organisaation tai palvelun voi sanoa olevan FAIR. Mitään yhtä vastausta tähän ei saatu – eikä mielestäni tarvitsekaan saada.

Esimerkiksi organisaatioiden toiminnan arviointiin on olemassa yksityiskohtaisia sertifikaatteja ja standardeja kuten OAIS, Data Seal of Approval ja ISO 16363. FAIR-periaatteet ovat sen sijaan iskevästi nimettyjä ja ilmaistuja yleisiä tavoitteita, ja ne toimivat sellaisina hyvin.

Tietoarkiston käytäntöjen FAIR-yhteensopivuus ei ollut yllätys, onhan meillä jo DSA-sertifikaatti. Aina on kuitenkin varaa parantaa, ja FAIR-periaatteet auttavat hahmottamaan, mitkä osa-alueet ovat vahvoja ja minkä osa-alueiden kehittämistä tulisi tutkiskella tarkemmin. Uskon, että FAIR-periaatteiden avulla on myös helppo herättää yleisempää keskustelua tutkimusaineistojen avaamisesta ja hallinnasta sekä niihin liittyvistä hyvistä käytännöistä.

Lisätietoa FAIR-periaatteista:
Wilkinson, Mark D. et al (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data 3, Article number 160018. http://dx.doi.org/10.1038/sdata.2016.18

Mari Kleemola
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi

Tietoarkisto on FAIR

Avoimen tieteen piirissä on viimeisen vuoden aikana alettu puhua FAIR-periaatteista. Kiinnostuksen selittänee pitkälti EU:n Horisontti 2020 -ohjelma, joka painottaa tutkimusaineistojen hyvää hallintaa ja FAIR-periaatteita.

FAIR on lyhenne sanoista Findable, Accessible, Interoperable ja Re-usable. Suomeksi voitaisiin puhua tutkimusaineistojen löydettävyydestä, saavutettavuudesta, yhteentoimivuudesta ja uudelleenkäytettävyydestä – kaikki periaatteita, joita Tietoarkisto on edistänyt jo kohta kaksikymmentä vuotta ja vanhimmat yhteiskuntatieteelliset sisararkistomme (kuten brittien UKDS) jo puoli vuosisataa.

Vaikka kyse ei olekaan meille uudesta asiasta, FAIR-keskustelu on tarjonnut oivan herätteen tarkastella Tietoarkiston toimintaa hieman erilaisesta näkökulmasta. Yksi sysäys tarkastelullemme oli myös marraskuussa OpenAIRE2020-hankkeen järjestämä työpaja. Siellä FAIR-periaatteista keskusteltiin erilaisia tutkimuksen tukipalveluja vertailukohtana käyttäen. Tietoarkisto oli yksi mukana olleista palveluista.

Koska tarjoamme aineistojen arkistointi- ja avaamispalvelujen lisäksi neuvontaa ja ohjausta tutkimusdatan hallintaan (ks. tieteenala-asiantuntijamme Katja Fältin oiva katsaus olemassa oleviin aineistonhallinnan resursseihin ja palveluihin, onkin aiheellista ja reilua kysyä: Kuinka FAIR Tietoarkisto on?

Vastaukseni on, että Tietoarkisto on erittäin FAIR. Tässä tiivistetyt perustelut:

  • Tietoarkistoon arkistoidut aineistot on kuvailtu yksityiskohtaisesti. Metadata on vapaasti saatavilla ja hyödynnettävissä, vaikka datassa voi olla rajoituksia. Annamme aineistoille aina pysyvän tunnisteen. Aineistot ovat löydettävissä Tietoarkiston oman Aila-palveluportaalin kautta ja esimerkiksi myös kansallisten Finna- ja Etsin-palveluiden kautta.
  • Metadata on vapaasti saatavilla Ailan kautta sekä Tietoarkiston OAI-PMH-rajapinnasta. Rekisteröityneet käyttäjät voivat ladata dataa Ailasta. Aila hyödyntää HAKA-käyttäjätunnistusjärjestelmää.
  • Tietoarkisto käyttää aineistojen kuvailuun kansainvälistä DDI Codebook -kuvailuformaattia sekä useita kansainvälisiä sanastoja. Metadata sisältää myös viittauksia muuhun metadataan, dataan ja julkaisuihin. Data on saatavilla yhteiskuntatieteilijöiden yleisesti käyttämässä SPSS-formaatissa.
  • Aineistojen DDI Codebook -muotoinen metadata sisältää laajasti tietoa aineiston sisällöstä, tekijöistä, keruusta, muuttujista ja aineistoon viittaamisesta. Datan käyttöehdot ovat selkeät ja sisältyvät metadataan. Metadata on saatavilla CC-lisenssillä.

Tietoarkiston kannalta haasteellisin FAIR-periaate on yhteentoimivuus. FAIRin taustalla on idea koneellisesti saavutettavasta, käsiteltävästä ja tulkittavasta tiedosta. Se ei Tietoarkiston datan osalta toteudu täydellisesti, mutta mielestämme kuitenkin niin hyvin kuin on mahdollista ja tarkoituksenmukaista.

Marraskuun OpenAIRE2020-seminaarissa pohdittiinkin, mikä riittää siihen, että datan, organisaation tai palvelun voi sanoa olevan FAIR. Mitään yhtä vastausta tähän ei saatu – eikä mielestäni tarvitsekaan saada.

Esimerkiksi organisaatioiden toiminnan arviointiin on olemassa yksityiskohtaisia sertifikaatteja ja standardeja kuten OAIS, Data Seal of Approval ja ISO 16363. FAIR-periaatteet ovat sen sijaan iskevästi nimettyjä ja ilmaistuja yleisiä tavoitteita, ja ne toimivat sellaisina hyvin.

Tietoarkiston käytäntöjen FAIR-yhteensopivuus ei ollut yllätys, onhan meillä jo DSA-sertifikaatti. Aina on kuitenkin varaa parantaa, ja FAIR-periaatteet auttavat hahmottamaan, mitkä osa-alueet ovat vahvoja ja minkä osa-alueiden kehittämistä tulisi tutkiskella tarkemmin. Uskon, että FAIR-periaatteiden avulla on myös helppo herättää yleisempää keskustelua tutkimusaineistojen avaamisesta ja hallinnasta sekä niihin liittyvistä hyvistä käytännöistä.

Lisätietoa FAIR-periaatteista:
Wilkinson, Mark D. et al (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data 3, Article number 160018. http://dx.doi.org/10.1038/sdata.2016.18

Mari Kleemola
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi