Tag Archives: jatkokäyttö

Sosiaalisen median ja internetin aineistot – mitä voin arkistoida Tietoarkistoon?

Tietoarkistolta kysytään säännöllisin väliajoin voiko sosiaalisen median aineistoja ja erilaisia verkkoaineistoja arkistoida jatkokäyttöä varten. Sosiaalisen median ja verkon aineistot ovat varsin monimuotoisia, kuten niitä hyödyntävä tutkimuskin. Usein tutkijan onkin tarpeen eritellä, millaista aineistoa on keräämässä ja millaisilta alustoilta. Arkistointimahdollisuus riippuu nimittäin pitkälti siitä, tutkiiko verkkokeskusteluja, organisaatioiden nettisivuja vai esimerkiksi nettiblogeja. Lisäksi kysymykseen vaikuttavat muun muassa tekijänoikeuteen ja tietosuojaan liittyvät seikat. Asia ei siis ole yksinkertainen, mutta ei onneksi mahdotonkaan.

Aineistoista haasteellisimman kokonaisuuden muodostavat sosiaalisen median aineistot. Somedataa on yleensä mahdollista kerätä eri sosiaalisen median alustoilta ja käyttää tutkimustarkoituksiin. Ongelmaksi kuitenkin nousee aineistojen arkistointi ja jatkokäyttö, jota sosiaalisen median alustojen liiketoimintamalli ei pääsääntöisesti salli. Esimerkiksi Facebook, LinkedIn ja Google omistavat oikeuden ostaa ja myydä käyttäjiensä tuottamaa sisältöä, ja pidättävät siten sen omistusoikeuden. Käytännössä alustat haluavat siis ensisijaisesti hyödyntää käyttäjädataa itse, eivätkä antaa sitä kolmansille osapuolille jatkohyödynnettäväksi. Muun muassa tästä syystä sosiaalisen median aineistojen arkistointi jatkokäyttöä varten esimerkiksi Tietoarkistoon ei ole mahdollista.

Myös muualta verkosta kerätyissä aineistoissa on arkistoinnin näkökulmasta muutamia rajoitteita. Yksityisten henkilöiden välinen viestintä, joka tapahtuu keskustelupalstoilla, blogeissa tai muissa vastaavissa ei ole arkistoitavissa. Näin on etenkin sellaisissa tapauksissa, kun palstalle tai blogiin pääsy vaatii kirjautumisen. Arkistointi on yleensä mahdotonta myös silloin, kun verkkosivuilla on sisältöä, johon sivun ylläpitäjällä ei ole oikeuksia. Käytännössä tämä tarkoittaa esimerkiksi sivustoja, joiden sisältö on otettu jostain muualta tai sisällön ovat tuottaneet jotkut muut kuin sivuston ylläpitäjä. Asiaa monimutkaistaa vielä se, että kaikkien verkkosivujen kohdalla ei aina ole selvää, kenellä on tekijänoikeus sisältöön. Epäselvissä tapauksissa asiasta kannattaa aina kysyä sivuston ylläpitäjältä.

Vaikka rajoitteet saattavat aluksi tuntua lannistavilta, verkossa on runsaasti aineistoja, joita voi arkistoida jatkokäyttöön. Tietoarkiston ja Kopioston välinen sopimus mahdollistaa erilaisten verkkosisältöjen keräämisen ja arkistoimisen sivustoilta, jotka eivät edellytä kirjautumista tai lisenssin hankkimista. Jos kuva- tai tekstiaineisto on kerätty kaikille avoimilta nettisivuilta, esimerkiksi julkisten organisaatioiden sivuilta, sen voi arkistoida Tietoarkistoon. Tämä pätee myös yleisiin blogiteksteihin kuten lehtien ylläpitämiin tai muutoin toimitettuihin blogeihin. Kannattaa kuitenkin muistaa, että arkistoida saa vain varsinaisia blogitekstejä, ei mahdollista kommenttiosiota, jossa yksityishenkilöt viestivät keskenään.

Tietoarkistoon on mahdollista arkistoida myös sellaista verkkosivuilta kerättyä tekstiä, joka on lisensoitu CC-lisenssillä eli Creative Commons -lisenssillä. Tällä lisenssillä teoksen tekijä voi jakaa tekijänoikeuslain suomia yksinoikeuksia muille. Yleisin lisenssi on CC BY, jonka mukaisesti lisensoitua teosta ja sen pohjalta tehtyjä muokattuja versioita saa kopioida, levittää, näyttää ja esittää julkisesti. Lisäksi lisensoidun tekstiaineiston arkistointi edellyttää luvan pyytämistä tekijältä.

Verkko- ja someaineistoja keräävä tutkija voikin siis noudattaa peukalosääntönä seuraavaa:

Tietoarkistoon on mahdollista arkistoida

  • Vapaasti kaikkien saatavilla olevien verkkosivujen kuva- ja tekstiaineistoja
  • Yleisiä blogitekstejä kuten lehtien ylläpitämiä ja toimitettuja blogeja
  • CC-lisensoituja kuva- ja tekstiaineistoja verkkosivuilla, jos arkistointiin saa luvan tekijältä

Tietoarkistoon ei ole mahdollista arkistoida

  • Sosiaalisen median dataa
  • Yksityisten henkilöiden välistä viestintää keskustelupalstoilla, blogeissa tai muissa vastaavissa
  • Verkkosivustoilta kopioitua sisältöä silloin, kun osa sivusta on muualta otettua tai muiden tekemää sisältöä, joiden oikeuksien haltija ei ole verkkosivun ylläpitäjä

Lisäksi kannattaa muistaa, että AllerMedian ja Kielipankin sopimuksen mukaisesti Suomi24-aineistojen käyttö on mahdollista Kielipankin kautta. Kielipankin kautta on käytettävissä myös Helsingin Sanomien kotimaan uutisia ja niiden kommentteja sisältävä aineisto.

Mikäli et ohjeistuksesta huolimatta ole varma, soveltuuko aineistosi arkistoitavaksi, ota suoraan yhteyttä Tietoarkiston asiakaspalveluun ja kysy neuvoa!

Lisätietoa:
» Tietoarkiston asiakaspalvelu: asiakaspalvelu.fsd at uta.fi
» Kielipankki
» Tietoarkistolehti (45, 2/2016): Someaineistojen arkistointi ja jatkokäyttö kaatuvat useimpien alustojen käyttöehtoihin

Katja Fält
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi

Tutkimusaineistojen avaaminen on tutkittavien etu

Terveys- ja lääketieteellisistä asioista olisi paljonkin kirjoitettavaa, mutta tämä blogiteksti jää viimeiseksi kirjoituksekseni Tietoarkistossa. Kun yksi ovi sulkeutuu, toisia avautuu – tällä kertaa ovi avautui Terveyden ja hyvinvoinnin laitoksessa, jossa nyt työskentelen.

Tämä kirjoitus käsittelee tärkeää aihetta, eli sitä mikä on tutkittavan etu lääketieteellisten tutkimusaineistojen avaamisessa. Taustalla ovat yhä lisääntyvät vaatimukset tutkimuksen avoimuudesta. Niistä lääketieteen tutkimuksen kannalta merkittävin on kansainvälisten lääketieteellisten lehtien komitean (ICMJE) tavoite, jonka mukaan kaikkien kliinisten tutkimusten aineistot on jatkossa aukaistava.

Miksi sitten sellainen instituutio kuin ICMJE suosittelee kliinisten tutkimusten datojen avaamista? Monella varmasti herää kysymys, eivätkö he ajattele tutkimukseen osallistuvien tietosuojaa? Ehkä vähän yllättäen, ICMJE kuitenkin perustelee tutkimusaineistojen avaamista juuri osallistujien edulla.

Heidän mukaansa kyse on ennen kaikkea tutkijan vastuusta tutkittavilleen. Jo suostumuksessa osallistujille tehdään selväksi, että tutkimuksen hyödyt eivät välttämättä suoraan koidu heille itselleen, vaan tuleville potilaille. Osallistuessaan tutkimukseen tutkittavat siis asettavat terveytensä, hyvinvointinsa ja taloudellisen toimeentulonsa alttiiksi riskeille hyödyttääkseen tulevia potilaita. Siksi on eettisesti välttämätöntä, että tutkimusaineisto ja sen tulokset käytetään hyödyksi mahdollisimman tarkoin.

Se ei onnistu, mikäli tutkimusaineistoa pääsee käyttämään vain datan kerännyt yritys tai akateeminen tutkimusryhmä. On epätodennäköistä, että tutkijat pystyvät analysoimaan täydellisesti kaikkea keräämäänsä dataa. Tutkimuksen tulokset voivat myös jäädä epäselviksi, jos tutkittavien joukko on ollut liian pieni, jotta intervention vaikutukset saataisiin tutkimuksessa selville. Tutkimuksen puutteetkin havaitaan helpommin ulkopuolisen silmin.

Siksi data on tärkeää antaa myös muiden tutkijoiden saataville. He voivat ottaa datan oman tutkimusaineistonsa rinnalle, jolloin tutkimusjoukon kasvu pienentää havaitun vaikutuksen suuruuteen ja suuntaan liittyvää epävarmuutta. Datan jakaminen auttaa pääsemään varmuuteen hoidon vaikuttavuudesta nopeammin ja potilaat hyötyvät paitsi nopeammasta uudesta hoidosta, myös siitä, ettei tutkimusta tarvitse toistaa yhtä monta kertaa ja altistaa yhä uusia osallistujia riskeille.

ICMJE esittää, että lähivuosina tutkimusaineistojen avaamisesta tehdään pakollista. Se ei ole vaatimuksineen yksin – yhä useampi tutkimusrahoittaja ja muun muassa Institute of Medicine/National Academy of Medicine sekä European Medicines Agency vaativat tutkimusaineistojen avaamista.

Potentiaalisena tulevien hoitojen ja lääkkeiden käyttäjänä kannatan lämpimästi myös lääketieteellisten aineistojen avaamista. Tänä tietotekniikan aikakautena tutkittavien tietosuoja saadaan varmasti taattua kaikkia osapuolia tyydyttävällä tavalla vaikkapa tietoturvallisten etäkäyttöjärjestelmien avulla. Suomessa tällainen etäkäyttöjärjestelmä on jo rakenteilla rekisteritietojen tietoturvallista käyttöä varten.

Annaleena Okuloff
erikoissuunnittelija, THL
Tietoarkiston entinen terveystieteiden tieteenala-asiantuntija
fsd [at] uta.fi

Aineiston avaajan muistilista

Tietoarkiston tieteenala-asiantuntija Katja Fält ja tutkimusamanuenssi Eliisa Haanpää antoivat Jyväskylässä pidetyllä Metodifestivaalilla hyviä käytännönvinkkejä tutkimusaineistojen avaamiseen.

Aineistojen avaaminen tarkoittaa, että oma tutkimusaineisto saatetaan muun tiedeyhteisön käyttöön avoimen tieteen periaatteiden mukaisesti. Tätä vaativat tai suosittelevat nykyisin jo useimmat suomalaiset sekä kansainväliset yliopistot, julkaisijat ja rahoittajat. Aineiston avaaminen on myös tutkijalle itselleen tieteellinen meriitti, ja se lisää oman tutkimuksen vaikuttavuutta.

Aineistojen avaamista käsittelevä sessio herätti Metodifestivaalilla paljon kiinnostusta, mistä voi päätellä, että tutkijat kaipaavat asiassa konkreettisia neuvoja. Kokosimmekin Tietoarkistoblogiin Haanpään ja Fältin esityksiin perustuvan muistilistan, josta toivottavasti on apua aineiston avaamista suunnitteleville tutkijoille myös jatkossa! Vinkeistä on apua sekä siinä vaiheessa, kun aineistonkeruu on vasta suunnitelmissa että silloin, kun aineisto on jo olemassa, ja se on päätetty arkistoida.

Kun oman aineiston arkistoiminen ja avaaminen tulevat ajankohtaisiksi, kannattaa tutustua myös Tietoarkiston Aineistonhallinnan käsikirjaan ja ottaa yhteyttä Tietoarkiston asiakaspalveluun. Asiantuntijoiltamme saat aina parhaat täsmäneuvot juuri oman aineistosi vastuulliseen avaamiseen.

1. Tee aineistonhallintasuunnitelma

Aineistonkeruun suunnitteluun ja aineiston käsittelyyn kannattaa käyttää aikaa, että aineiston avaaminen jatkokäyttöä varten onnistuu tutkimuksen lopuksi. Olennaista on kiinnittää huomiota siihen, että aineisto on alusta asti johdonmukaisesti kerätty, kuvailtu ja toteutettu.

Aineistonhallintasuunnitelmassa kannattaa kertoa ainakin, minkälaista aineistoa aikoo kerätä, mitkä ovat aineistoon liittyvät oikeudet, minkälaisia tietosuoja- tai tietoturvakysymyksiä aineistoa kerätessä, käsitellessä ja säilytettäessä pitää huomioida, minkälaisia tiedostoformaatteja ja ohjelmistoja aineistoon liittyy, miten aineistoa aiotaan käsitellä, miten se kuvaillaan ja millainen aineiston elinkaaresta kokonaisuudessaan ajan myötä muodostuu.

Aineistonhallintasuunnitelman laatimiseen saa hyviä neuvoja Aineistonhallinnan käsikirjasta. Konkreettinen apu on myös aineistonhallintasuunnitelman laatimista varten kehitetty työkalu DMPTuuli.

2. Pohdi onko aineistossasi tunnisteellisia tietoja

Ihmistieteiden tutkimusaineistot sisältävät useimmiten enemmän tai vähemmän tutkittavien henkilötietoja. Tiedot ovat tunnisteellisia, jos niiden perusteella on mahdollista tunnistaa yksittäinen henkilö. Henkilötietolain ja EU:n tietosuoja-asetuksen määritelmien mukaisesti käytännössä mikä tahansa elävää ihmistä koskeva tieto voi olla tunnistamisen mahdollistava henkilötieto. Henkilötietojen käsittely vaatii aina tutkittavien nimenomaisen suostumuksen, ja tunnisteellisen aineiston avaaminen on usein tietosuojasyistä haastavaa.

Jos tunnisteellisen aineiston anonymisoi, siihen ei enää tarvitse soveltaa henkilötietolakia tai tietosuoja-asetusta. Anonymisointi tarkoittaa sitä, että tunnisteelliset tiedot häivytetään aineistosta niin täydellisesti, että yksittäisen henkilön tunnistaminen ei enää ole mahdollista.

Henkilötiedoista ja aineistojen anonymisoinnista voi lukea tarkemmin kvalitatiivista aineistoa ja kvalitatiivista aineistoa koskevista blogikirjoituksista.

3. Varmista onko aineisto tekijänoikeuden alaista

Erityisesti laadullisen aineiston avaaja törmää usein tekijänoikeuteen liittyviin kysymyksiin. Teossuojaa saavan aineiston avaaminen saattaa olla ongelmallista, mutta useimmiten se on kuitenkin mahdollista erikseen sopimalla. Tärkeintä on ymmärtää, että tekijänoikeuden haltija määrää aineiston käyttötavat, joten aineiston jatkokäyttöön on yleensä saatava suostumus tekijänoikeuden haltijalta.

Tietoarkisto on solminut Kopioston kanssa sopimuksen, jonka perusteella teossuojaa saavat sanomalehti-, aikakauslehti- ja kuva-aineistot, eli kaikki Kopiosto-sopimuksen alaiset aineistot voi arkistoida Tietoarkistoon. Näiden aineistojen kohdalla tutkijan ei siis tarvitse enää ryhtyä itse kysymään teossuojaa saavien aineistojen avaamiseen erillisiä lupia.

Esimerkiksi tutkittavien ottamien valokuvien tai heidän kirjoittamiensa teoksiksi tulkittavien tekstien avaamiseen sen sijaan tarvitaan erillinen lupa. Sosiaalisen median aineistojen avaamisessa tekijänoikeudet muodostuvat valitettavasti usein aineiston avaamissuunnitelmat pysäyttäväksi kynnyskysymykseksi, koska Suomen laissa ei ole ainakaan vielä tutkimuskäyttöä mahdollistavaa poikkeussäännöstä.

4. Tallenna aineisto huolellisesti

Kun aineisto on kerätty, tallenna havaintomatriisi, haastattelulitteraatiot tai muu aineisto varmaan paikkaan. Huolehdi myös siitä, että aineistosta tulee otettua säännöllisesti varmuuskopio. Uusi varmuuskopio kannattaa ottaa aina esimerkiksi silloin, jos lisäät aineistoon jotain taustatietoja. Näin varmistat, ettei aineisto katoa kesken analysoinnin tai ennen kuin se on ehditty avata jatkokäyttöön.

5. Nimeä aineiston muuttujat loogisesti

Aineistoa kuvaillessaan kannattaa miettiä, minkä verran aineistosta pitäisi kertoa, jotta itse pystyisi vielä kymmenen vuoden päästä ymmärtämään, mistä aineistossa on kyse ja käyttämään sitä vaivatta uuteen tutkimukseen.

Nimeä kvantitatiivisen aineiston muuttujat ja niiden selitteet niin, että ne vastaavat mahdollisimman yksiselitteisesti kyselylomaketta tai muuta keruuinstrumenttia. Myös muuttuja-arvot ja niiden selitteet kannattaa avata kokonaisuudessaan. Lyhenteiden käyttäminen on riski, koska lyhenteet saattavat sekoittua toisiinsa.

Muuttuja-arvoille tehdyt muutokset kannattaa raportoida mahdollisimman hyvin, niin alkuperäisen muuttujan selvittäminen onnistuu tarvittaessa. Kerro aina myös mahdollisesta painomuuttujien käytöstä ja kuvaile tarkasti painomuuttujiin liittyvät tiedot.

Myös puuttuvien tietojen määritteleminen on tärkeää. Jos siis vastaaja ei ole esimerkiksi vastannut kyselytutkimuksessa johonkin kysymykseen mitään, vastauksen voi koodata selkeästi muista vastausvaihtoehdoista erottuvalla numerolla kuten 999.

6. Kuvaile tutkimuksen toteutustapa riittävän tarkasti

Kuvaile mahdollisimman tarkasti aineistonkeruuseen liittyvät yksityiskohdat, eli milloin keruu on aloitettu, milloin se on lopetettu ja minkälaisia yksityiskohtia aineistonkeruuseen liittyy. Muista kirjata ylös tutkimuksen alkuperäinen käyttötarkoitus, eli se minkä vuoksi aineisto on kerätty, samoin se, ketkä ovat aineiston tekijät. Pidä mahdollisimman tarkkaa listaa myös siitä, minkälaisiin julkaisuihin aineistoa on käytetty, jotta mahdollinen jatkokäyttäjä tietää, minkälaisia julkaisuja aineistosta on jo tehty.

Aineiston perusjoukko eli aineiston kattama populaatio kannattaa määritellä mahdollisimman tarkasti jo aineistonkeruuvaiheessa. Myös havaintoyksikön määritteleminen on olennaista. Huomaa, että perusjoukko ja havaintoyksikkö voivat olla keskenään eri asiat. Jos esimerkiksi havaintoyksikkönä on kunta, ja tutkimuksessa on haluttu selvittää yksittäisten kuntien tai useiden kuntien tilannetta, perusjoukkona aineistossa saattavat olla esimerkiksi kunnanjohtajat, joita on haastateltu, jotta saadaan tietoa havaintoyksiköstä eli kunnasta.

7. Muista, että huolellinen suunnittelutyö palkitaan

Vaikka aineistonkeruun suunnitteleminen, käsittely ja anonymisointi voivat tuntua työläiltä, kannattaa pitää mielessä, että käytetty aika maksaa itsensä takaisin. Aineistonhallinnan suunnittelu ja johdonmukainen käsittely auttavat jo tutkimuksen toteuttamisvaiheessa, ja takaavat sen, että aineiston avaaminen sujuu helposti ilman ylimääräisiä ponnisteluja.

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Aineiston avaajan muistilista

Tietoarkiston tieteenala-asiantuntija Katja Fält ja tutkimusamanuenssi Eliisa Haanpää antoivat Jyväskylässä pidetyllä Metodifestivaalilla hyviä käytännönvinkkejä tutkimusaineistojen avaamiseen.

Aineistojen avaaminen tarkoittaa, että oma tutkimusaineisto saatetaan muun tiedeyhteisön käyttöön avoimen tieteen periaatteiden mukaisesti. Tätä vaativat tai suosittelevat nykyisin jo useimmat suomalaiset sekä kansainväliset yliopistot, julkaisijat ja rahoittajat. Aineiston avaaminen on myös tutkijalle itselleen tieteellinen meriitti, ja se lisää oman tutkimuksen vaikuttavuutta.

Aineistojen avaamista käsittelevä sessio herätti Metodifestivaalilla paljon kiinnostusta, mistä voi päätellä, että tutkijat kaipaavat asiassa konkreettisia neuvoja. Kokosimmekin Tietoarkistoblogiin Haanpään ja Fältin esityksiin perustuvan muistilistan, josta toivottavasti on apua aineiston avaamista suunnitteleville tutkijoille myös jatkossa! Vinkeistä on apua sekä siinä vaiheessa, kun aineistonkeruu on vasta suunnitelmissa että silloin, kun aineisto on jo olemassa, ja se on päätetty arkistoida.

Kun oman aineiston arkistoiminen ja avaaminen tulevat ajankohtaisiksi, kannattaa tutustua myös Tietoarkiston Aineistonhallinnan käsikirjaan ja ottaa yhteyttä Tietoarkiston asiakaspalveluun. Asiantuntijoiltamme saat aina parhaat täsmäneuvot juuri oman aineistosi vastuulliseen avaamiseen.

1. Tee aineistonhallintasuunnitelma

Aineistonkeruun suunnitteluun ja aineiston käsittelyyn kannattaa käyttää aikaa, että aineiston avaaminen jatkokäyttöä varten onnistuu tutkimuksen lopuksi. Olennaista on kiinnittää huomiota siihen, että aineisto on alusta asti johdonmukaisesti kerätty, kuvailtu ja toteutettu.

Aineistonhallintasuunnitelmassa kannattaa kertoa ainakin, minkälaista aineistoa aikoo kerätä, mitkä ovat aineistoon liittyvät oikeudet, minkälaisia tietosuoja- tai tietoturvakysymyksiä aineistoa kerätessä, käsitellessä ja säilytettäessä pitää huomioida, minkälaisia tiedostoformaatteja ja ohjelmistoja aineistoon liittyy, miten aineistoa aiotaan käsitellä, miten se kuvaillaan ja millainen aineiston elinkaaresta kokonaisuudessaan ajan myötä muodostuu.

Aineistonhallintasuunnitelman laatimiseen saa hyviä neuvoja Aineistonhallinnan käsikirjasta. Konkreettinen apu on myös aineistonhallintasuunnitelman laatimista varten kehitetty työkalu DMPTuuli.

2. Pohdi onko aineistossasi tunnisteellisia tietoja

Ihmistieteiden tutkimusaineistot sisältävät useimmiten enemmän tai vähemmän tutkittavien henkilötietoja. Tiedot ovat tunnisteellisia, jos niiden perusteella on mahdollista tunnistaa yksittäinen henkilö. Henkilötietolain ja EU:n tietosuoja-asetuksen määritelmien mukaisesti käytännössä mikä tahansa elävää ihmistä koskeva tieto voi olla tunnistamisen mahdollistava henkilötieto. Henkilötietojen käsittely vaatii aina tutkittavien nimenomaisen suostumuksen, ja tunnisteellisen aineiston avaaminen on usein tietosuojasyistä haastavaa.

Jos tunnisteellisen aineiston anonymisoi, siihen ei enää tarvitse soveltaa henkilötietolakia tai tietosuoja-asetusta. Anonymisointi tarkoittaa sitä, että tunnisteelliset tiedot häivytetään aineistosta niin täydellisesti, että yksittäisen henkilön tunnistaminen ei enää ole mahdollista.

Henkilötiedoista ja aineistojen anonymisoinnista voi lukea tarkemmin kvalitatiivista aineistoa ja kvalitatiivista aineistoa koskevista blogikirjoituksista.

3. Varmista onko aineisto tekijänoikeuden alaista

Erityisesti laadullisen aineiston avaaja törmää usein tekijänoikeuteen liittyviin kysymyksiin. Teossuojaa saavan aineiston avaaminen saattaa olla ongelmallista, mutta useimmiten se on kuitenkin mahdollista erikseen sopimalla. Tärkeintä on ymmärtää, että tekijänoikeuden haltija määrää aineiston käyttötavat, joten aineiston jatkokäyttöön on yleensä saatava suostumus tekijänoikeuden haltijalta.

Tietoarkisto on solminut Kopioston kanssa sopimuksen, jonka perusteella teossuojaa saavat sanomalehti-, aikakauslehti- ja kuva-aineistot, eli kaikki Kopiosto-sopimuksen alaiset aineistot voi arkistoida Tietoarkistoon. Näiden aineistojen kohdalla tutkijan ei siis tarvitse enää ryhtyä itse kysymään teossuojaa saavien aineistojen avaamiseen erillisiä lupia.

Esimerkiksi tutkittavien ottamien valokuvien tai heidän kirjoittamiensa teoksiksi tulkittavien tekstien avaamiseen sen sijaan tarvitaan erillinen lupa. Sosiaalisen median aineistojen avaamisessa tekijänoikeudet muodostuvat valitettavasti usein aineiston avaamissuunnitelmat pysäyttäväksi kynnyskysymykseksi, koska Suomen laissa ei ole ainakaan vielä tutkimuskäyttöä mahdollistavaa poikkeussäännöstä.

4. Tallenna aineisto huolellisesti

Kun aineisto on kerätty, tallenna havaintomatriisi, haastattelulitteraatiot tai muu aineisto varmaan paikkaan. Huolehdi myös siitä, että aineistosta tulee otettua säännöllisesti varmuuskopio. Uusi varmuuskopio kannattaa ottaa aina esimerkiksi silloin, jos lisäät aineistoon jotain taustatietoja. Näin varmistat, ettei aineisto katoa kesken analysoinnin tai ennen kuin se on ehditty avata jatkokäyttöön.

5. Nimeä aineiston muuttujat loogisesti

Aineistoa kuvaillessaan kannattaa miettiä, minkä verran aineistosta pitäisi kertoa, jotta itse pystyisi vielä kymmenen vuoden päästä ymmärtämään, mistä aineistossa on kyse ja käyttämään sitä vaivatta uuteen tutkimukseen.

Nimeä kvantitatiivisen aineiston muuttujat ja niiden selitteet niin, että ne vastaavat mahdollisimman yksiselitteisesti kyselylomaketta tai muuta keruuinstrumenttia. Myös muuttuja-arvot ja niiden selitteet kannattaa avata kokonaisuudessaan. Lyhenteiden käyttäminen on riski, koska lyhenteet saattavat sekoittua toisiinsa.

Muuttuja-arvoille tehdyt muutokset kannattaa raportoida mahdollisimman hyvin, niin alkuperäisen muuttujan selvittäminen onnistuu tarvittaessa. Kerro aina myös mahdollisesta painomuuttujien käytöstä ja kuvaile tarkasti painomuuttujiin liittyvät tiedot.

Myös puuttuvien tietojen määritteleminen on tärkeää. Jos siis vastaaja ei ole esimerkiksi vastannut kyselytutkimuksessa johonkin kysymykseen mitään, vastauksen voi koodata selkeästi muista vastausvaihtoehdoista erottuvalla numerolla kuten 999.

6. Kuvaile tutkimuksen toteutustapa riittävän tarkasti

Kuvaile mahdollisimman tarkasti aineistonkeruuseen liittyvät yksityiskohdat, eli milloin keruu on aloitettu, milloin se on lopetettu ja minkälaisia yksityiskohtia aineistonkeruuseen liittyy. Muista kirjata ylös tutkimuksen alkuperäinen käyttötarkoitus, eli se minkä vuoksi aineisto on kerätty, samoin se, ketkä ovat aineiston tekijät. Pidä mahdollisimman tarkkaa listaa myös siitä, minkälaisiin julkaisuihin aineistoa on käytetty, jotta mahdollinen jatkokäyttäjä tietää, minkälaisia julkaisuja aineistosta on jo tehty.

Aineiston perusjoukko eli aineiston kattama populaatio kannattaa määritellä mahdollisimman tarkasti jo aineistonkeruuvaiheessa. Myös havaintoyksikön määritteleminen on olennaista. Huomaa, että perusjoukko ja havaintoyksikkö voivat olla keskenään eri asiat. Jos esimerkiksi havaintoyksikkönä on kunta, ja tutkimuksessa on haluttu selvittää yksittäisten kuntien tai useiden kuntien tilannetta, perusjoukkona aineistossa saattavat olla esimerkiksi kunnanjohtajat, joita on haastateltu, jotta saadaan tietoa havaintoyksiköstä eli kunnasta.

7. Muista, että huolellinen suunnittelutyö palkitaan

Vaikka aineistonkeruun suunnitteleminen, käsittely ja anonymisointi voivat tuntua työläiltä, kannattaa pitää mielessä, että käytetty aika maksaa itsensä takaisin. Aineistonhallinnan suunnittelu ja johdonmukainen käsittely auttavat jo tutkimuksen toteuttamisvaiheessa, ja takaavat sen, että aineiston avaaminen sujuu helposti ilman ylimääräisiä ponnisteluja.

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Suostumuksen edellytykset tietosuoja-asetuksen mukaan

Ihmisiin kohdistuvissa tieteellisissä tutkimuksissa käsitellään useimmiten tutkittavien henkilötietoja. Nykyinen henkilötietolaki (523/1999) perustuu EU:n direktiiviin yksilöiden suojelusta henkilötietojen käsittelyssä ja näiden tietojen vapaasta liikkuvuudesta (95/46/EY). Aiemmat säädökset korvaavaa uutta tietosuoja-asetusta (2016/679) aletaan soveltamaan 25.5.2018 alkaen. Henkilötietoja käsittelevien rekisterinpitäjien, esimerkiksi tutkimusryhmän tai tutkimusorganisaation, on saatettava toimintansa vastaamaan asetuksen vaatimuksia viimeistään tähän mennessä.

Tutkittavien suostumukseen perustuvan tieteellisen tutkimuksen osalta tämä tarkoittaa sitä, että jos tällä hetkellä käynnissä olevaa tutkimusta varten hankitut suostumukset eivät täytä tietosuoja-asetuksen vaatimuksia, ja tutkittavien henkilötietoja on tarpeellista käsitellä tunnisteellisina 25.5.2018 jälkeen, on tutkittavilta pyydettävä uusi suostumus ennen asetuksen ensimmäistä soveltamispäivää. Jos tutkittavien henkilötiedot on kuitenkin ennen tätä tarkoitus tuhota tai muuttaa pysyvästi tunnistamattomaan muotoon, ei tutkijoiden tarvitse ryhtyä lisätoimenpiteisiin. Jos suostumuksia ei ole vielä pyydetty tutkittavilta, tulisi ne jo nyt pyytää tietosuoja-asetuksen edellyttämällä tavalla.

Tietosuoja-asetuksen mukainen suostumus ei eroa ratkaisevasti nykyisen henkilötietolain mukaisesta suostumuksesta ja tietosuojatyöryhmän (Article 29 Working Party) suostumusta koskevasta lausuntokäytännöstä. Aiempaa lausuntokäytäntöä on nyt siirretty suoraan osaksi asetusta ja tietosuoja-asetus asettaa suhteellisen korkeat vaatimukset pätevälle suostumukselle. Seuraavassa käydään läpi asetuksen keskeisimpiä vaatimuksia suostumukselle:

  1. Osoitusvelvollisuus. Rekisterinpitäjän on pystyttävä osoittamaan, että tutkittavilta hankittu suostumus täyttää tietosuoja-asetuksen vaatimukset. Rekisterinpitäjän osoitusvelvollisuuden täyttämiseksi on tärkeää dokumentoida selkeästi esimerkiksi:
    • kuka on antanut suostumuksen,
    • miten tutkittavaa on informoitu suostumuksen antamisen yhteydessä (tutkittavalle annettu kirjallinen informaatio sekä tieto suullisesti annetusta informaatiosta) ja
    • milloin suostumus on annettu (esim. päiväys suostumuslomakkeessa tai sähköinen aikaleima).
  2. Erottuvuus ja selkeys. Kun suostumus annetaan kirjallisessa ilmoituksessa, joka koskee myös muita asioita, suostumusta koskeva pyyntö on esitettävä selkeästi erillään muista asioista. Jos esimerkiksi tutkittava osallistuu tutkimuksen yhteydessä työpaja- tai koulutustoimintaan – ja tätä toimintaa varten olisi tarpeellista sopia erillisistä ehdoista – on suostumuksen henkilötietojen käsittelyyn tieteellisessä tutkimuksessa oltava selkeästi erillään työpaja- tai koulutustoimintaa koskevista ehdoista. Suostumus henkilötietojen käsittelyyn on lisäksi pyydettävä helposti ymmärrettävässä ja saatavilla olevassa muodossa selkeällä ja yksinkertaisella kielellä.
  3. Suostumuksen aktiivinen ilmaiseminen. Tietosuojadirektiiviin verrattuna suostumus edellyttää entistä selkeämmin tutkittavan aktiivista toimintaa. Suostumus pitää antaa suostumusta ilmaisevalla lausumalla tai toteuttamalla selkeästi suostumusta ilmaisevan toimi. Suostumusta ilmaiseva lausuma on esimerkiksi suostumuslomakkeen täyttäminen ja allekirjoittaminen. Suostumusta selkeästi ilmaiseva toimena voidaan pitää kyselylomakkeen täyttämistä ja palauttamista tutkijoille. Vaikenemiseen perustuva suostumus, valmiiksi rastitettu ruutu verkkosivulla tai jonkin toimenpiteen tekemättä jättäminen sen sijaan eivät päde suostumukseksi.
  4. Tiedollisuus, vapaaehtoisuus ja yksilöitävyys. Tiedollisuus edellyttää tietoa esimerkiksi rekisterinpitäjästä (tarkista tähän liittyen organisaatiosi toimintakäytännöt) ja henkilötietojen käsittelyn tarkoituksesta. Lisäksi on huomioitava asetuksen yksityiskohtaisemmat informointisäännökset. Suostumusta ei katsota vapaaehtoiseksi, jos tutkittavalla ei ole mahdollista antaa suostumusta eri henkilötietojen käsittelytoimille, vaikka tämä olisi yksittäistapauksessa mahdollista. Vapaaehtoisuus edellyttää myös tosiasiallista valinnanvapautta ilman pelkoa haitallisista vaikutuksista. Tämä voi olla kyseenalaista, kun rekisteröidyn ja rekisterinpitäjän välillä on selkeä epäsuhta. Erityisten tietoryhmien (aiemmin henkilötietolain arkaluonteiset tiedot) käsittely edellyttää lisäksi suostumuksen nimenomaisuutta. Tämä on katsottu yleensä edellyttävän rekisteröidyn antamaa täsmällistä ilmaisua joko kirjallisesti tai suullisesti.
  5. Suostumuksen peruuttaminen. Tutkittavalla tulee olla mahdollisuus peruuttaa suostumuksensa milloin vain. Suostumuksen peruuttamisen on oltava yhtä helppoa kuin sen antamisen. Asetuksen mukaan tutkittavalle on kerrottava, että suostumuksen peruuttaminen ei vaikuta ennen suostumuksen peruuttamista tapahtuneen henkilötietojen käsittelyn lainmukaisuuteen. Suostumuksen peruuttamisen mahdollistamiseksi on oleellista, että tutkittavilla on aina käytössään tutkimuksesta vastaavan tahon ajantasaiset yhteystiedot. Suostumuksen peruttaminen ei välttämättä edellytä vastaavaa menettelyä kuin suostumuksen antaminen – olennaista on peruuttamisen helppous.
  6. Suostumuksen kattavuus. Suostumuksen pitää kattaa kaikki käsittelytoimet, jotka toteutetaan samaa tarkoitusta tai samoja tarkoituksia varten. Jos käsittelyllä on useita tarkoituksia, suostumus täytyy antaa kaikkia käsittelytarkoituksia varten. Jos esimerkiksi taiteellisen tutkimuksen yhteydessä on erotettavissa käsittelytarkoitus, joka ei liity suoraan tieteelliseen tutkimukseen, pitää myös tämä tarkoitus ilmoittaa yksilöidysti ja nimenomaisesti suostumusta pyydettäessä.
  7. Tieteellinen jatkotutkimus. Tietosuoja-asetuksen johdanto-osassa todetaan, että silloin kun tieteellisen tutkimuksen tunnustettuja eettisiä standardeja noudatetaan, suostumuksen antaminen on mahdollista tietyille tieteellisen tutkimuksen aloille. Tämä on sektorikohtainen poikkeus siihen pääsääntöön, että suostumus on annettava tarkkarajaisesti ennalta yksilöityä käyttötarkoitusta varten. Tutkittavalle täytyy kuitenkin aina varata mahdollisuus antaa suostumus pelkästään tietyille tutkimusaloille tai tutkimushankkeiden osille, jos tämä vain on mahdollista.

Asetuksen kohdasta ei ole vielä tulkintakäytäntöä. Euroopan unionin neuvoa antavan tietosuojatyöryhmän on tarkoitus julkaista syksyllä 2017 lausunto tietosuoja-asetuksen mukaisen suostumuksen tulkinnasta.

Henkilötietojen käsittely on mahdollista tutkittavan suostumuksen lisäksi myös muilla tietosuoja-asetuksen 6 artiklan mukaisilla perusteilla. Näitä ovat muun muassa yleistä etua koskevan tehtävän toteuttaminen sekä tilanteet, joissa henkilötietojen käsittely on eräissä tapauksissa tarpeen rekisterinpitäjän tai kolmannen osapuolen oikeutettujen etujen turvaamiseksi. Lisäksi erillisiä suostumukseen liittyviä säännöksiä on esimerkiksi EU:n kliinisiä lääketutkimuksia koskevassa asetuksessa (536/2014).

Suostumuksen edellytyksiä koskevien säännösten rikkomisesta voidaan määrätä hallinnollinen sakko. Tietosuoja-asetuksen artiklan 83 kohdan 5 mukainen hallinnollinen sakko on enintään 20 000 000 euroa, tai jos kyseessä on yritys, neljä prosenttia sen edeltävän tilikauden vuotuisesta maailmanlaajuisesta kokonaisliikevaihdosta sen mukaan, kumpi näistä määristä on suurempi.

Lisätietoja
» Tietosuoja ja tutkittavan suostumus osallistua tutkimukseen
Seminaari Helsingissä 1.11.2017
» Tietosuoja-asetus
» Article 29 Working Party, Opinion 15/2011 on the definition of consent, WP187
» Information Commissioner’s Office: GDPR Consent Guide (draft)

Antti Ketola
lakimies, F.E.C.
etunimi.sukunimi [at] uta.fi

Suostumuksen edellytykset tietosuoja-asetuksen mukaan

Ihmisiin kohdistuvissa tieteellisissä tutkimuksissa käsitellään useimmiten tutkittavien henkilötietoja. Nykyinen henkilötietolaki (523/1999) perustuu EU:n direktiiviin yksilöiden suojelusta henkilötietojen käsittelyssä ja näiden tietojen vapaasta liikkuvuudesta (95/46/EY). Aiemmat säädökset korvaavaa uutta tietosuoja-asetusta (2016/679) aletaan soveltamaan 25.5.2018 alkaen. Henkilötietoja käsittelevien rekisterinpitäjien, esimerkiksi tutkimusryhmän tai tutkimusorganisaation, on saatettava toimintansa vastaamaan asetuksen vaatimuksia viimeistään tähän mennessä.

Tutkittavien suostumukseen perustuvan tieteellisen tutkimuksen osalta tämä tarkoittaa sitä, että jos tällä hetkellä käynnissä olevaa tutkimusta varten hankitut suostumukset eivät täytä tietosuoja-asetuksen vaatimuksia, ja tutkittavien henkilötietoja on tarpeellista käsitellä tunnisteellisina 25.5.2018 jälkeen, on tutkittavilta pyydettävä uusi suostumus ennen asetuksen ensimmäistä soveltamispäivää. Jos tutkittavien henkilötiedot on kuitenkin ennen tätä tarkoitus tuhota tai muuttaa pysyvästi tunnistamattomaan muotoon, ei tutkijoiden tarvitse ryhtyä lisätoimenpiteisiin. Jos suostumuksia ei ole vielä pyydetty tutkittavilta, tulisi ne jo nyt pyytää tietosuoja-asetuksen edellyttämällä tavalla.

Tietosuoja-asetuksen mukainen suostumus ei eroa ratkaisevasti nykyisen henkilötietolain mukaisesta suostumuksesta ja tietosuojatyöryhmän (Article 29 Working Party) suostumusta koskevasta lausuntokäytännöstä. Aiempaa lausuntokäytäntöä on nyt siirretty suoraan osaksi asetusta ja tietosuoja-asetus asettaa suhteellisen korkeat vaatimukset pätevälle suostumukselle. Seuraavassa käydään läpi asetuksen keskeisimpiä vaatimuksia suostumukselle:

  1. Osoitusvelvollisuus. Rekisterinpitäjän on pystyttävä osoittamaan, että tutkittavilta hankittu suostumus täyttää tietosuoja-asetuksen vaatimukset. Rekisterinpitäjän osoitusvelvollisuuden täyttämiseksi on tärkeää dokumentoida selkeästi esimerkiksi:
    • kuka on antanut suostumuksen,
    • miten tutkittavaa on informoitu suostumuksen antamisen yhteydessä (tutkittavalle annettu kirjallinen informaatio sekä tieto suullisesti annetusta informaatiosta) ja
    • milloin suostumus on annettu (esim. päiväys suostumuslomakkeessa tai sähköinen aikaleima).
  2. Erottuvuus ja selkeys. Kun suostumus annetaan kirjallisessa ilmoituksessa, joka koskee myös muita asioita, suostumusta koskeva pyyntö on esitettävä selkeästi erillään muista asioista. Jos esimerkiksi tutkittava osallistuu tutkimuksen yhteydessä työpaja- tai koulutustoimintaan – ja tätä toimintaa varten olisi tarpeellista sopia erillisistä ehdoista – on suostumuksen henkilötietojen käsittelyyn tieteellisessä tutkimuksessa oltava selkeästi erillään työpaja- tai koulutustoimintaa koskevista ehdoista. Suostumus henkilötietojen käsittelyyn on lisäksi pyydettävä helposti ymmärrettävässä ja saatavilla olevassa muodossa selkeällä ja yksinkertaisella kielellä.
  3. Suostumuksen aktiivinen ilmaiseminen. Tietosuojadirektiiviin verrattuna suostumus edellyttää entistä selkeämmin tutkittavan aktiivista toimintaa. Suostumus pitää antaa suostumusta ilmaisevalla lausumalla tai toteuttamalla selkeästi suostumusta ilmaisevan toimi. Suostumusta ilmaiseva lausuma on esimerkiksi suostumuslomakkeen täyttäminen ja allekirjoittaminen. Suostumusta selkeästi ilmaiseva toimena voidaan pitää kyselylomakkeen täyttämistä ja palauttamista tutkijoille. Vaikenemiseen perustuva suostumus, valmiiksi rastitettu ruutu verkkosivulla tai jonkin toimenpiteen tekemättä jättäminen sen sijaan eivät päde suostumukseksi.
  4. Tiedollisuus, vapaaehtoisuus ja yksilöitävyys. Tiedollisuus edellyttää tietoa esimerkiksi rekisterinpitäjästä (tarkista tähän liittyen organisaatiosi toimintakäytännöt) ja henkilötietojen käsittelyn tarkoituksesta. Lisäksi on huomioitava asetuksen yksityiskohtaisemmat informointisäännökset. Suostumusta ei katsota vapaaehtoiseksi, jos tutkittavalla ei ole mahdollista antaa suostumusta eri henkilötietojen käsittelytoimille, vaikka tämä olisi yksittäistapauksessa mahdollista. Vapaaehtoisuus edellyttää myös tosiasiallista valinnanvapautta ilman pelkoa haitallisista vaikutuksista. Tämä voi olla kyseenalaista, kun rekisteröidyn ja rekisterinpitäjän välillä on selkeä epäsuhta. Erityisten tietoryhmien (aiemmin henkilötietolain arkaluonteiset tiedot) käsittely edellyttää lisäksi suostumuksen nimenomaisuutta. Tämä on katsottu yleensä edellyttävän rekisteröidyn antamaa täsmällistä ilmaisua joko kirjallisesti tai suullisesti.
  5. Suostumuksen peruuttaminen. Tutkittavalla tulee olla mahdollisuus peruuttaa suostumuksensa milloin vain. Suostumuksen peruuttamisen on oltava yhtä helppoa kuin sen antamisen. Asetuksen mukaan tutkittavalle on kerrottava, että suostumuksen peruuttaminen ei vaikuta ennen suostumuksen peruuttamista tapahtuneen henkilötietojen käsittelyn lainmukaisuuteen. Suostumuksen peruuttamisen mahdollistamiseksi on oleellista, että tutkittavilla on aina käytössään tutkimuksesta vastaavan tahon ajantasaiset yhteystiedot. Suostumuksen peruttaminen ei välttämättä edellytä vastaavaa menettelyä kuin suostumuksen antaminen – olennaista on peruuttamisen helppous.
  6. Suostumuksen kattavuus. Suostumuksen pitää kattaa kaikki käsittelytoimet, jotka toteutetaan samaa tarkoitusta tai samoja tarkoituksia varten. Jos käsittelyllä on useita tarkoituksia, suostumus täytyy antaa kaikkia käsittelytarkoituksia varten. Jos esimerkiksi taiteellisen tutkimuksen yhteydessä on erotettavissa käsittelytarkoitus, joka ei liity suoraan tieteelliseen tutkimukseen, pitää myös tämä tarkoitus ilmoittaa yksilöidysti ja nimenomaisesti suostumusta pyydettäessä.
  7. Tieteellinen jatkotutkimus. Tietosuoja-asetuksen johdanto-osassa todetaan, että silloin kun tieteellisen tutkimuksen tunnustettuja eettisiä standardeja noudatetaan, suostumuksen antaminen on mahdollista tietyille tieteellisen tutkimuksen aloille. Tämä on sektorikohtainen poikkeus siihen pääsääntöön, että suostumus on annettava tarkkarajaisesti ennalta yksilöityä käyttötarkoitusta varten. Tutkittavalle täytyy kuitenkin aina varata mahdollisuus antaa suostumus pelkästään tietyille tutkimusaloille tai tutkimushankkeiden osille, jos tämä vain on mahdollista.

Asetuksen kohdasta ei ole vielä tulkintakäytäntöä. Euroopan unionin neuvoa antavan tietosuojatyöryhmän on tarkoitus julkaista syksyllä 2017 lausunto tietosuoja-asetuksen mukaisen suostumuksen tulkinnasta.

Henkilötietojen käsittely on mahdollista tutkittavan suostumuksen lisäksi myös muilla tietosuoja-asetuksen 6 artiklan mukaisilla perusteilla. Näitä ovat muun muassa yleistä etua koskevan tehtävän toteuttaminen sekä tilanteet, joissa henkilötietojen käsittely on eräissä tapauksissa tarpeen rekisterinpitäjän tai kolmannen osapuolen oikeutettujen etujen turvaamiseksi. Lisäksi erillisiä suostumukseen liittyviä säännöksiä on esimerkiksi EU:n kliinisiä lääketutkimuksia koskevassa asetuksessa (536/2014).

Suostumuksen edellytyksiä koskevien säännösten rikkomisesta voidaan määrätä hallinnollinen sakko. Tietosuoja-asetuksen artiklan 83 kohdan 5 mukainen hallinnollinen sakko on enintään 20 000 000 euroa, tai jos kyseessä on yritys, neljä prosenttia sen edeltävän tilikauden vuotuisesta maailmanlaajuisesta kokonaisliikevaihdosta sen mukaan, kumpi näistä määristä on suurempi.

Lisätietoja
» Tietosuoja ja tutkittavan suostumus osallistua tutkimukseen
Seminaari Helsingissä 1.11.2017
» Tietosuoja-asetus
» Article 29 Working Party, Opinion 15/2011 on the definition of consent, WP187
» Information Commissioner’s Office: GDPR Consent Guide (draft)

Antti Ketola
lakimies, F.E.C.
etunimi.sukunimi [at] uta.fi

Aineistojen avoimuus saattaisi ratkaista monta lääketieteen tutkimuksen ongelmaa

Tutkimusaineistojen avoimuus on päivän trendi. Ehkä vähän yllättäen myös arkaluonteista tietoa sisältävien aineistojen avaamisen puolesta puhuu yhä useampi tutkija, ja lääketieteen julkaisut ovat alkaneet vaatia artikkelin julkaisijoita avaamaan tutkimusaineistonsa. Nyt on hyvä hetki istua alas ja pohtia syitä, joiden vuoksi aineistojen avoimuutta halutaan edistää terveys- ja lääketieteen tutkimuksen alalla.

En tässä kirjoituksessa kajoa tietosuojakysymyksiin tai aineistojen avaamisesta tutkittaville koituviin hyötyihin. Jälkimmäisestä aiheesta on tulossa Tietoarkistoblogiin oma kirjoitus, ja Euroopan unionin yleisen tietosuojan kansallinen tulkinta on vielä sen verran kesken, että tietosuoja-asiaan kannattaa paneutua vasta myöhemmin. Kannattaa seurata Tietoarkiston tapahtumia, esimerkiksi loka-marraskuussa on luvassa kaksi aiheeseen liittyvää seminaaria.

Sitten takaisin blogin varsinaiseen aiheeseen.

Kaikessa tutkimuksessa, ei pelkästään terveys- ja lääketieteissä, on ongelmallista, jos tutkimustuloksia ei pystytä toistamaan. Lääketieteissä toistettavuuden puute johtaa epävarmuuteen siitä, mikä olisi paras tapa hoitaa potilaita. Lääketieteissä seuraukset ovat siis moniin muihin tieteenaloihin verrattuna erityisen vakavia.

Toistettavuuden puute voi johtua monista tekijöistä. Aineisto voi olla liian pieni, jolloin tulokset voivat olla sattumalöydöksiä. Aineistossa tai sen analyysissa käytetyissä menetelmissä voi olla puutteita, joiden seurauksena löytyy eroja, joita ei todellisuudessa ole. Tai yhteyttä ei ole olemassakaan, mutta vasta kun takana on riittävän monta laadukasta tutkimusta, jotka eivät hypoteesia vahvista, voidaan todeta, ettei hypoteesi pitänyt paikkaansa.

Tutkimusaineistojen avoimuutta halutaan, koska se parantaa tutkimuksen laatua ja laadukkaammat tutkimukset johtavat parempaan toistettavuuteen. Epidemiologisesta tutkimuksesta voidaan siirtyä nopeammin varsinaisten syy-yhteyksien selvittämiseen. Yhtenäisistä tutkimustuloksista saadaan käypä hoito -suosituksia, joiden perustana on vahva näyttö vaikuttavuudesta. Meta-analyyseihin kun pätee sama ”garbage in, garbage out” -periaate kuin monella muullakin alalla: meta-analyysi tai systemaattinen kirjallisuuskatsaus voi olla vain niin hyvä kuin ovat ne alkuperäiset tutkimustulokset, joiden pohjalta analyysit ja koosteet tehdään.

Tutkimusaineistojen avoimuuden lisääntyminen mahdollistaa myös yhä useammin yksilötason potilastietoihin perustuvat individual patient data (IPD)-meta-analyysit sen sijaan, että jouduttaisiin tyytymään pelkkiin artikkeleiden tarjoamiin tunnuslukuihin. Avoimien aineistojen avulla tutkimuksen tuloksia voi vertailla helposti toisenlaiseen populaatioon, (jonka dataa ei ole analysoitu vielä ihan samalla tavalla) ja löydökset joko vahvistuvat tai osoittautuvat merkityksettömiksi.

Avoimesta tutkimusaineistosta voi myös varmistaa alkuperäiset tulokset ja käytettyjen menetelmien asianmukaisuuden. On valitettavan tavallista vaihtaa ja muokata alkuperäisen kiinnostuksen kohteina olleita tulosmuuttujia, päävasteita, parempien tulosten toivossa. Avoin data auttaa varmistamaan, että alun perin kiinnostavat vasteet myös analysoidaan ja tulokset julkaistaan. Dataväärennöksiä datojen avaaminen tuskin kokonaan lopettaa, mutta niiden tekeminen ainakin vaikeutuu.

Sitten on hyvin tunnettu ongelma, eli julkaisuharha. Negatiivisia tutkimustuloksia ei haluta julkaista, tai vaikka haluttaisiinkin, niitä ei välttämättä saa julkaistua. Lääketehdas voi olla halukas hautaamaan vakavia sivuvaikutuksia tuottaneen lääkkeen tutkimuksen kokonaan ja samaa lääkeainetta voi sitten testata jokin muu taho tietämättä jo todettuja haittavaikutuksia. Jos kaikkien rekisteröityjen tutkimusten aineistot on pakko avata, näitä negatiivisia kokeita ei ole yhtä helppo haudata.

Tehdyistä tutkimuksista voi ottaa myös oppia. Julkaistusta datasta voi saada lisätietoa siitä, mitä taustatekijöitä on syytä ottaa huomioon satunnaistettaessa tutkittavia ryhmiin. Datan saattaminen muiden tutkijoiden käyttöön auttaa saamaan aiheeseen uusia näkökulmia ja havaitsemaan millainen tutkimus toimii ja millainen ei. Kaiken kaikkiaan tarve tutkia samoja ilmiöitä, hoitoja ja lääkkeitä yhä uudelleen vähenee.

Avoimuuden sivuilmiönä tutkijat kertovat tekevänsä tutkimusaineiston avaamiseen tähtäävää tutkimusta huomaamattaan hieman huolellisemmin kuin tutkimusta, jonka aineisto ja menetelmät jäävät vain heidän omaan käyttöönsä. Kun tietää joutuvansa perustelemaan jokaisen päätöksen, tulee tarkasteltua tarkemmin menetelmällisiä valintoja, joita aiemmin on pitänyt itsestään selvinä.

Tutkimusaineistojen avoimuus ei siis ehkä korjaa kaikkia lääketieteen tutkimuksen ongelmia, mutta auttaa kyllä hyvin monen nujertamisessa.

Annaleena Okuloff
erikoissuunnittelija, THL
Tietoarkiston entinen terveystieteiden tieteenala-asiantuntija
fsd [at] uta.fi

Aineistojen avoimuus saattaisi ratkaista monta lääketieteen tutkimuksen ongelmaa

Tutkimusaineistojen avoimuus on päivän trendi. Ehkä vähän yllättäen myös arkaluonteista tietoa sisältävien aineistojen avaamisen puolesta puhuu yhä useampi tutkija, ja lääketieteen julkaisut ovat alkaneet vaatia artikkelin julkaisijoita avaamaan tutkimusaineistonsa. Nyt on hyvä hetki istua alas ja pohtia syitä, joiden vuoksi aineistojen avoimuutta halutaan edistää terveys- ja lääketieteen tutkimuksen alalla.

En tässä kirjoituksessa kajoa tietosuojakysymyksiin tai aineistojen avaamisesta tutkittaville koituviin hyötyihin. Jälkimmäisestä aiheesta on tulossa Tietoarkistoblogiin oma kirjoitus, ja Euroopan unionin yleisen tietosuojan kansallinen tulkinta on vielä sen verran kesken, että tietosuoja-asiaan kannattaa paneutua vasta myöhemmin. Kannattaa seurata Tietoarkiston tapahtumia, esimerkiksi loka-marraskuussa on luvassa kaksi aiheeseen liittyvää seminaaria.

Sitten takaisin blogin varsinaiseen aiheeseen.

Kaikessa tutkimuksessa, ei pelkästään terveys- ja lääketieteissä, on ongelmallista, jos tutkimustuloksia ei pystytä toistamaan. Lääketieteissä toistettavuuden puute johtaa epävarmuuteen siitä, mikä olisi paras tapa hoitaa potilaita. Lääketieteissä seuraukset ovat siis moniin muihin tieteenaloihin verrattuna erityisen vakavia.

Toistettavuuden puute voi johtua monista tekijöistä. Aineisto voi olla liian pieni, jolloin tulokset voivat olla sattumalöydöksiä. Aineistossa tai sen analyysissa käytetyissä menetelmissä voi olla puutteita, joiden seurauksena löytyy eroja, joita ei todellisuudessa ole. Tai yhteyttä ei ole olemassakaan, mutta vasta kun takana on riittävän monta laadukasta tutkimusta, jotka eivät hypoteesia vahvista, voidaan todeta, ettei hypoteesi pitänyt paikkaansa.

Tutkimusaineistojen avoimuutta halutaan, koska se parantaa tutkimuksen laatua ja laadukkaammat tutkimukset johtavat parempaan toistettavuuteen. Epidemiologisesta tutkimuksesta voidaan siirtyä nopeammin varsinaisten syy-yhteyksien selvittämiseen. Yhtenäisistä tutkimustuloksista saadaan käypä hoito -suosituksia, joiden perustana on vahva näyttö vaikuttavuudesta. Meta-analyyseihin kun pätee sama ”garbage in, garbage out” -periaate kuin monella muullakin alalla: meta-analyysi tai systemaattinen kirjallisuuskatsaus voi olla vain niin hyvä kuin ovat ne alkuperäiset tutkimustulokset, joiden pohjalta analyysit ja koosteet tehdään.

Tutkimusaineistojen avoimuuden lisääntyminen mahdollistaa myös yhä useammin yksilötason potilastietoihin perustuvat individual patient data (IPD)-meta-analyysit sen sijaan, että jouduttaisiin tyytymään pelkkiin artikkeleiden tarjoamiin tunnuslukuihin. Avoimien aineistojen avulla tutkimuksen tuloksia voi vertailla helposti toisenlaiseen populaatioon, (jonka dataa ei ole analysoitu vielä ihan samalla tavalla) ja löydökset joko vahvistuvat tai osoittautuvat merkityksettömiksi.

Avoimesta tutkimusaineistosta voi myös varmistaa alkuperäiset tulokset ja käytettyjen menetelmien asianmukaisuuden. On valitettavan tavallista vaihtaa ja muokata alkuperäisen kiinnostuksen kohteina olleita tulosmuuttujia, päävasteita, parempien tulosten toivossa. Avoin data auttaa varmistamaan, että alun perin kiinnostavat vasteet myös analysoidaan ja tulokset julkaistaan. Dataväärennöksiä datojen avaaminen tuskin kokonaan lopettaa, mutta niiden tekeminen ainakin vaikeutuu.

Sitten on hyvin tunnettu ongelma, eli julkaisuharha. Negatiivisia tutkimustuloksia ei haluta julkaista, tai vaikka haluttaisiinkin, niitä ei välttämättä saa julkaistua. Lääketehdas voi olla halukas hautaamaan vakavia sivuvaikutuksia tuottaneen lääkkeen tutkimuksen kokonaan ja samaa lääkeainetta voi sitten testata jokin muu taho tietämättä jo todettuja haittavaikutuksia. Jos kaikkien rekisteröityjen tutkimusten aineistot on pakko avata, näitä negatiivisia kokeita ei ole yhtä helppo haudata.

Tehdyistä tutkimuksista voi ottaa myös oppia. Julkaistusta datasta voi saada lisätietoa siitä, mitä taustatekijöitä on syytä ottaa huomioon satunnaistettaessa tutkittavia ryhmiin. Datan saattaminen muiden tutkijoiden käyttöön auttaa saamaan aiheeseen uusia näkökulmia ja havaitsemaan millainen tutkimus toimii ja millainen ei. Kaiken kaikkiaan tarve tutkia samoja ilmiöitä, hoitoja ja lääkkeitä yhä uudelleen vähenee.

Avoimuuden sivuilmiönä tutkijat kertovat tekevänsä tutkimusaineiston avaamiseen tähtäävää tutkimusta huomaamattaan hieman huolellisemmin kuin tutkimusta, jonka aineisto ja menetelmät jäävät vain heidän omaan käyttöönsä. Kun tietää joutuvansa perustelemaan jokaisen päätöksen, tulee tarkasteltua tarkemmin menetelmällisiä valintoja, joita aiemmin on pitänyt itsestään selvinä.

Tutkimusaineistojen avoimuus ei siis ehkä korjaa kaikkia lääketieteen tutkimuksen ongelmia, mutta auttaa kyllä hyvin monen nujertamisessa.

Annaleena Okuloff
erikoissuunnittelija, THL
Tietoarkiston entinen terveystieteiden tieteenala-asiantuntija
fsd [at] uta.fi

Näin anonymisoit kvalitatiivisen tutkimusaineistosi

Kvalitatiivisissa tutkimusaineistoissa, esimerkiksi haastattelu- ja kirjoitusaineistoissa, tutkittavat kertovat usein itsestään ja läheisistään avoimesti yksityiskohtaisia tietoja. Lain mukaan henkilötiedot eivät saa vuotaa ulkopuolisille, joten aineistot täytyy anonymisoida huolellisesti ennen kuin ne voi arkistoida jatkokäyttöä varten.

Lähes kaikki suomalaiset yliopistot ja monet tutkimusrahoittajat suosittelevat tai vaativat, että tutkijat avaavat aineistonsa, joten anonymisointiosaaminen alkaa kuulua kvalitatiivisia aineistoja keräävän tutkijan perustaitoihin.

Tietoarkisto ja Avoin tiede ja tutkimus -hanke järjestivät 5. huhtikuuta Tutkimusaineistojen anonymisointi -seminaarin jossa käsiteltiin sekä kvantitatiivisten että kvalitatiivisten aineistojen anonymisointikeinoja.

Seminaarin esityksiin voi tutustua tapahtuman sivulla julkaistujen diojen ja esitysvideoiden avulla. Täsmällisempiä anonymisointivinkkejä kaipaavan kannattaa tutustua myös Aineistonhallinnan käsikirjaan.

Tässä blogikirjoituksessa käyn Tietoarkiston tieteenala-asiantuntijan Katja Fältin ja Tietoarkiston tutkimusapulaisen Emilia Lehdon seminaariesitysten perusteella läpi kvalitatiivisen aineiston tavallisimpia anonymisointikäytäntöjä.

Kaikki elävään ihmiseen liittyvät tiedot voivat olla henkilötietoja

Aivan ensimmäiseksi on olennaista ymmärtää, milloin aineisto vaatii anonymisoimista, eli mitkä kaikki tiedot aineistossa ovat lain mukaan henkilötietoja.

Henkilötietolaissa määritelmä on varsin laaja: henkilötietoja ovat kaikki elävää ihmistä, hänen ominaisuuksiaan tai elinolosuhteitaan kuvaavat merkinnät, joista henkilö, hänen perheensä tai hänen kanssaan yhteisessä taloudessa elävät ihmiset voidaan tunnistaa. Toisin sanoen lähes kaikki elävään ihmiseen liittyvät tiedot voivat olla henkilötietoja.

Käytännössä tiedot lasketaan henkilötiedoiksi kuitenkin vain silloin, kun niiden perusteella voidaan tunnistaa aineistosta yksittäinen henkilö. Tunnistamisen mahdollistavat tiedot, eli tunnisteet on jaettu suoriin ja epäsuoriin tunnisteisiin. Epäsuorat tunnisteet on lisäksi jaoteltu vahvoihin epäsuoriin tunnisteisiin ja epäsuoriin tunnisteisiin.

Suorat tunnisteet riittävät yksin tutkittavan tunnistamiseen, eli niiden lisäksi ei tarvita mitään muita tietoja. Suoria tunnisteita ovat esimerkiksi koko nimi, henkilönimen mukainen sähköpostiosoite ja biometriset tunnisteet kuten sormenjälki tai ääni.

Vahvat epäsuorat tunnisteet ovat tietoja, jotka eivät suoraan kerro kuka henkilö on, mutta henkilöllisyyden selvittäminen niiden perusteella on hyvin helppoa. Tällaisia ovat esimerkiksi osoite, auton rekisterinumero, harvinainen ammattinimike tai harvinainen sairaus.

Epäsuoriksi tunnisteiksi voidaan laskea monenlaiset henkilöstä kertovat tiedot, kuten sukupuoli, ikä, asuinkunta ja ammattinimike. Epäsuorat tunnisteet eivät yleensä yksin riitä tutkittavan tunnistamiseen, mutta useammat epäsuorat tunnisteet saattavat yhdessä mahdollistaa tutkittavan tunnistamisen.

Tietoarkiston humanististen tieteiden tieteenala-asiantuntija Katja Fält kertoi seminaarissa kvalitatiivisten aineistojen anonymisoimisesta teoreettisella tasolla. (Kuva: Kaisa Järvelä).

Poista aineistosta kaikki tarpeettomat tunnisteet

Aineisto on anonyymi silloin, kun yksittäisiä henkilöitä ei voida tunnistaa siitä kohtuullisesti toteutettavissa olevilla toimenpiteillä. Haastateltavien omien tietojen lisäksi on tärkeää muistaa poistaa aineistosta myös kolmansia henkilöitä koskevat tunnisteet. Laadullisissa aineistoissa näitä voi olla paljonkin, jos esimerkiksi tutkittava mainitsee haastattelussa perheenjäseniään, naapureitaan tai työkavereitaan.

Yleisenä ohjeena anonymisoinnissa voi pitää sitä, että aineistosta täytyy poistaa kaikki tarpeettomat tunnisteet. Tunnisteellisten tietojen käsitteleminen ja aineiston anonymisoiminen täytyy kuitenkin suunnitella aina aineistokohtaisesti. Jokainen tutkimusaineisto on yksilöllinen, ja joissain aineistoissa tunnistetietoja on esimerkiksi selvästi enemmän kuin toisissa.

Ennen anonymisoinnin aloittamista aineistolle onkin hyvä laatia konkreettinen anonymisointisuunnitelma. Suunnitelmaan kannattaa kirjata ainakin, mitä anonymisointitoimenpiteitä aineistolle aikoo tehdä. Lisäksi suunnitelmassa kannattaa kuvailla esimerkiksi se, miten tutkittavia on informoitu ja millä tavalla aineistoa on mahdollisesti aiemmin muokattu.

Anonymisoinnin yleinen periaate on, että suorat tunnisteet ja vahvat epäsuorat tunnisteet poistetaan aineistoista aina kokonaan. Tämän lisäksi myös epäsuorat tunnisteet vaativat yleensä vähintään jonkin verran käsittelemistä.

Joissain poikkeustapauksissa voi kuitenkin olla mahdollista jättää arkistoitavaan aineistoon jopa haastateltavan koko nimi. Näin on esimerkiksi silloin, jos haastateltava on ammattipoliitikko, haastattelu koskee politiikkaa ja haastateltava on antanut luvan nimensä julkaisemiseen.

Epäsuorien tunnisteiden kohdalla on tärkeää ottaa huomioon aina myös se, mitä tietoja tutkittavasta voi saada aineiston ulkopuolelta, esimerkiksi sosiaalisesta mediasta tai muualta internetistä.

Yksinkertaisimmillaan anonymisointi on tietojen poistamista

Tyypillisimmät laadullisen aineiston anonymisointikeinot ovat tietojen poistaminen, pseudonymisointi, kategorisointi ja tunnistetietojen vaihtaminen. Tavallisesti yksittäisen aineiston anonymisointiin joudutaan käyttämään useaa mainituista keinoista.

Yksinkertaisimmillaan tietojen poistaminen tarkoittaa suorien ja vahvojen epäsuorien tunnisteiden poistamista sekä taustamuuttujista että haastattelulitteraatioista tai esimerkiksi kilpakirjoitusteksteistä.

Haastatteluista on mahdollista poistaa yksittäisten tunnisteiden lisäksi myös pidempiä pätkiä, jos haastateltava harhautuu kertomaan itsestään yksilöiviä arkaluonteisia tietoja. Tämä on perusteltua etenkin silloin, kun tiedot eivät ole tutkimuksen varsinaisena kohteena.

Poistettavia, eli kokonaan hävitettäviä tietoja ovat myös kaikki aineistoon liittyvät, tunnisteita sisältävät taustamateriaalit. Tiedostoista on syytä tarkistaa, onko niissä piilotettuja teknisiä tietoja, esimerkiksi kuvatiedostojen tekijä- tai paikkatietoja.

Voisiko tiedon pseudonymisoida, karkeistaa tai vaihtaa?

Haastatteluissa ja kirjoitusaineistoissa henkilönimien pseudonymisointi on usein aineiston ymmärrettävyyden kannalta parempi vaihtoehto kuin se, että nimet poistettaisiin kokonaan.

Pseudonymisointi tarkoittaa sitä, että henkilönimet vaihdetaan peitenimiksi eli pseudonyymeiksi. Haastateltavana olleesta Matista voi siis tehdä esimerkiksi Pekan ja hänen Anna-vaimostaan Liisan. Pseudonymisointi täytyy suunnitella johdonmukaisesti niin, että sama henkilö esiintyy aineistossa alusta loppuun asti samalla peitenimellä.

Kategorisointia eli tietojen karkeistamista tehdään paljon esimerkiksi aineiston taustatiedoille. Taustatietojen kohdalla kategorisoiminen on yleensä parempi vaihtoehto kuin tietojen poistaminen, sillä aineiston tulkitseminen ja ymmärtäminen ilman taustatietoja olisi vaikeaa.

Haastatteluista tai kirjoitusaineistoista voidaan joissain tapauksissa karkeistaa myös esimerkiksi henkilönimiä. Tämä on järkevää silloin, kun henkilö esiintyy aineistossa korkeintaan pari kertaa eikä ole keskeinen aineiston sisällön kannalta. Esimerkiksi sivulauseessa mainitun Marjatta-naapurin voi hyvin muuttaa pelkäksi naapuriksi.

Useimmiten kategorisointia vaativat myös kaikki kirjoituksissa tai haastatteluissa esiintyvät yksilöivät ammattinimikkeet, toimipaikat, oppilaitokset ja paikkakunnat. Näiden luokittelemisessa kannattaa käyttää apuna Tilastokeskuksen valmiita luokituksia.

Joissain tapauksissa paras vaihtoehto on vaihtaa tekstissä esiintyvä yksilöivä tunnistetieto toiseksi. Aineiston ymmärtämisen kannalta voi esimerkiksi olla olennaista kertoa, että henkilö on syntynyt jouluaattona. Jotta tarkka syntymäaika ei paljastuisi, henkilön syntymävuotta on tällaisessa tapauksessa mahdollista muuttaa pari vuotta myöhemmäksi tai aikaisemmaksi.

Käytännössä anonymisointi voi sujua vaikka näin

Emilia Lehto konkretisoi laadullisen aineiston anonymisoimista seminaarissa kahden aineistoesimerkin avulla. Toinen esimerkkiaineistoista oli Tietoarkistoon tallennettu Erityislapsiperheiden tukiverkostot -kysely.

Tietoarkiston tutkimusapulainen, laadullisia aineistoja työkseen anonymisoiva, Emilia Lehto, kertoi anonymisoimisesta konkreettisten aineistoesimerkkien kautta. (Kuva: Kaisa Järvelä).

Aineistossa vastaajilta oli kysytty taustatiedoiksi heidän rooliansa (esim. äiti), ikäänsä, ammattiansa, siviilisäätyänsä, perheen lasten lukumäärää ja lasten ikiä sekä sitä, kuka lapsista on erityislapsi (esimerkiksi poika, 1. lapsi). Taustatiedoista kategorisoitiin vastaajan ikä ja ammatti. Jos siis haastateltavana olevan äidin ammatti oli esimerkiksi kätilö, ammatti karkeistettiin Tilastokeskuksen luokituksen mukaan [terveydenhuollon ammattilaiseksi]. Ikä luokiteltiin viiden vuoden tarkkuudella.

Tutkittavat käyttivät haastatteluissa paljon erityislastensa ja näiden sisarusten nimiä. Nämä korvattiin aineistossa pseudonyymeillä. Paikkakuntien nimet kategorisoitiin niin, että esimerkiksi Nokia muuttui [kaupunkimaiseksi kunnaksi Pirkanmaalla]. Yksityisen päiväkodin nimi poistettiin aineistosta kokonaan ja siihen viitattiin vain termillä päiväkoti. Jos esimerkiksi päiväkoteja esiintyi samassa haastattelussa useampia, ne erotettiin toisistaan kirjaimin, esimerkiksi näin: [päiväkoti A nimi poistettu].

Epäsuorien tunnisteiden kohdalla huomioitiin myös se, voiko tutkittavan henkilöllisyys paljastua, jos tunnisteen yhdistää muualta saatavilla oleviin tietoihin. Eräs äiti esimerkiksi puhui haastattelussa perheensä matkasta Kroatiaan. Tarkka matkakohde karkeistettiin lomamatkaksi [Eurooppaan], koska äiti oli saattanut julkaista tiedon perheen Kroatian-matkasta sosiaalisessa mediassa. Lehto vinkkasi, että jos hän itse ei ole varma, voiko jokin tunniste johdattaa muualta saatavaan tietoon yhdistettynä henkilön jäljille vai ei, hän tekee kokeeksi muutaman yksinkertaisen google-haun.

Kvalitatiiviset aineistot ovat usein huomattavasti työläämpiä anonymisoitavia kuin kvantitatiiviset aineistot. Tietoarkistossa kuitenkin toivomme, että myös kvalitatiiviset aineistot toimitetaan arkistoitavaksi mahdollisimman pitkälle anonymisoituina.

Lopullisen vastuun aineiston anonymiteetista otamme silti me. Tarkistamme kaikki aineistot ja käsittelemme niitä vielä niin, että ne ovat Ailaan päätyessään varmasti täysin anonyymeja.

Lisätietoja
» Seminaarin sivulta löydät esitysdiat ja myöhemmin myös videot
» Aineistonhallinnan käsikirja: Tunnisteellisuus ja anonymisointi

Vastaavan tekstin kvantitatiivisten aineistojen anonymisoinnista voi lukea myös Tietoarkistoblogista.

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Näin anonymisoit kvalitatiivisen tutkimusaineistosi

Kvalitatiivisissa tutkimusaineistoissa, esimerkiksi haastattelu- ja kirjoitusaineistoissa, tutkittavat kertovat usein itsestään ja läheisistään avoimesti yksityiskohtaisia tietoja. Lain mukaan henkilötiedot eivät saa vuotaa ulkopuolisille, joten aineistot täytyy anonymisoida huolellisesti ennen kuin ne voi arkistoida jatkokäyttöä varten.

Lähes kaikki suomalaiset yliopistot ja monet tutkimusrahoittajat suosittelevat tai vaativat, että tutkijat avaavat aineistonsa, joten anonymisointiosaaminen alkaa kuulua kvalitatiivisia aineistoja keräävän tutkijan perustaitoihin.

Tietoarkisto ja Avoin tiede ja tutkimus -hanke järjestivät 5. huhtikuuta Tutkimusaineistojen anonymisointi -seminaarin jossa käsiteltiin sekä kvantitatiivisten että kvalitatiivisten aineistojen anonymisointikeinoja.

Seminaarin esityksiin voi tutustua tapahtuman sivulla julkaistujen diojen ja esitysvideoiden avulla. Täsmällisempiä anonymisointivinkkejä kaipaavan kannattaa tutustua myös Aineistonhallinnan käsikirjaan.

Tässä blogikirjoituksessa käyn Tietoarkiston tieteenala-asiantuntijan Katja Fältin ja Tietoarkiston tutkimusapulaisen Emilia Lehdon seminaariesitysten perusteella läpi kvalitatiivisen aineiston tavallisimpia anonymisointikäytäntöjä.

Kaikki elävään ihmiseen liittyvät tiedot voivat olla henkilötietoja

Aivan ensimmäiseksi on olennaista ymmärtää, milloin aineisto vaatii anonymisoimista, eli mitkä kaikki tiedot aineistossa ovat lain mukaan henkilötietoja.

Henkilötietolaissa määritelmä on varsin laaja: henkilötietoja ovat kaikki elävää ihmistä, hänen ominaisuuksiaan tai elinolosuhteitaan kuvaavat merkinnät, joista henkilö, hänen perheensä tai hänen kanssaan yhteisessä taloudessa elävät ihmiset voidaan tunnistaa. Toisin sanoen lähes kaikki elävään ihmiseen liittyvät tiedot voivat olla henkilötietoja.

Käytännössä tiedot lasketaan henkilötiedoiksi kuitenkin vain silloin, kun niiden perusteella voidaan tunnistaa aineistosta yksittäinen henkilö. Tunnistamisen mahdollistavat tiedot, eli tunnisteet on jaettu suoriin ja epäsuoriin tunnisteisiin. Epäsuorat tunnisteet on lisäksi jaoteltu vahvoihin epäsuoriin tunnisteisiin ja epäsuoriin tunnisteisiin.

Suorat tunnisteet riittävät yksin tutkittavan tunnistamiseen, eli niiden lisäksi ei tarvita mitään muita tietoja. Suoria tunnisteita ovat esimerkiksi koko nimi, henkilönimen mukainen sähköpostiosoite ja biometriset tunnisteet kuten sormenjälki tai ääni.

Vahvat epäsuorat tunnisteet ovat tietoja, jotka eivät suoraan kerro kuka henkilö on, mutta henkilöllisyyden selvittäminen niiden perusteella on hyvin helppoa. Tällaisia ovat esimerkiksi osoite, auton rekisterinumero, harvinainen ammattinimike tai harvinainen sairaus.

Epäsuoriksi tunnisteiksi voidaan laskea monenlaiset henkilöstä kertovat tiedot, kuten sukupuoli, ikä, asuinkunta ja ammattinimike. Epäsuorat tunnisteet eivät yleensä yksin riitä tutkittavan tunnistamiseen, mutta useammat epäsuorat tunnisteet saattavat yhdessä mahdollistaa tutkittavan tunnistamisen.

Tietoarkiston humanististen tieteiden tieteenala-asiantuntija Katja Fält kertoi seminaarissa kvalitatiivisten aineistojen anonymisoimisesta teoreettisella tasolla. (Kuva: Kaisa Järvelä).

Poista aineistosta kaikki tarpeettomat tunnisteet

Aineisto on anonyymi silloin, kun yksittäisiä henkilöitä ei voida tunnistaa siitä kohtuullisesti toteutettavissa olevilla toimenpiteillä. Haastateltavien omien tietojen lisäksi on tärkeää muistaa poistaa aineistosta myös kolmansia henkilöitä koskevat tunnisteet. Laadullisissa aineistoissa näitä voi olla paljonkin, jos esimerkiksi tutkittava mainitsee haastattelussa perheenjäseniään, naapureitaan tai työkavereitaan.

Yleisenä ohjeena anonymisoinnissa voi pitää sitä, että aineistosta täytyy poistaa kaikki tarpeettomat tunnisteet. Tunnisteellisten tietojen käsitteleminen ja aineiston anonymisoiminen täytyy kuitenkin suunnitella aina aineistokohtaisesti. Jokainen tutkimusaineisto on yksilöllinen, ja joissain aineistoissa tunnistetietoja on esimerkiksi selvästi enemmän kuin toisissa.

Ennen anonymisoinnin aloittamista aineistolle onkin hyvä laatia konkreettinen anonymisointisuunnitelma. Suunnitelmaan kannattaa kirjata ainakin, mitä anonymisointitoimenpiteitä aineistolle aikoo tehdä. Lisäksi suunnitelmassa kannattaa kuvailla esimerkiksi se, miten tutkittavia on informoitu ja millä tavalla aineistoa on mahdollisesti aiemmin muokattu.

Anonymisoinnin yleinen periaate on, että suorat tunnisteet ja vahvat epäsuorat tunnisteet poistetaan aineistoista aina kokonaan. Tämän lisäksi myös epäsuorat tunnisteet vaativat yleensä vähintään jonkin verran käsittelemistä.

Joissain poikkeustapauksissa voi kuitenkin olla mahdollista jättää arkistoitavaan aineistoon jopa haastateltavan koko nimi. Näin on esimerkiksi silloin, jos haastateltava on ammattipoliitikko, haastattelu koskee politiikkaa ja haastateltava on antanut luvan nimensä julkaisemiseen.

Epäsuorien tunnisteiden kohdalla on tärkeää ottaa huomioon aina myös se, mitä tietoja tutkittavasta voi saada aineiston ulkopuolelta, esimerkiksi sosiaalisesta mediasta tai muualta internetistä.

Yksinkertaisimmillaan anonymisointi on tietojen poistamista

Tyypillisimmät laadullisen aineiston anonymisointikeinot ovat tietojen poistaminen, pseudonymisointi, kategorisointi ja tunnistetietojen vaihtaminen. Tavallisesti yksittäisen aineiston anonymisointiin joudutaan käyttämään useaa mainituista keinoista.

Yksinkertaisimmillaan tietojen poistaminen tarkoittaa suorien ja vahvojen epäsuorien tunnisteiden poistamista sekä taustamuuttujista että haastattelulitteraatioista tai esimerkiksi kilpakirjoitusteksteistä.

Haastatteluista on mahdollista poistaa yksittäisten tunnisteiden lisäksi myös pidempiä pätkiä, jos haastateltava harhautuu kertomaan itsestään yksilöiviä arkaluonteisia tietoja. Tämä on perusteltua etenkin silloin, kun tiedot eivät ole tutkimuksen varsinaisena kohteena.

Poistettavia, eli kokonaan hävitettäviä tietoja ovat myös kaikki aineistoon liittyvät, tunnisteita sisältävät taustamateriaalit. Tiedostoista on syytä tarkistaa, onko niissä piilotettuja teknisiä tietoja, esimerkiksi kuvatiedostojen tekijä- tai paikkatietoja.

Voisiko tiedon pseudonymisoida, karkeistaa tai vaihtaa?

Haastatteluissa ja kirjoitusaineistoissa henkilönimien pseudonymisointi on usein aineiston ymmärrettävyyden kannalta parempi vaihtoehto kuin se, että nimet poistettaisiin kokonaan.

Pseudonymisointi tarkoittaa sitä, että henkilönimet vaihdetaan peitenimiksi eli pseudonyymeiksi. Haastateltavana olleesta Matista voi siis tehdä esimerkiksi Pekan ja hänen Anna-vaimostaan Liisan. Pseudonymisointi täytyy suunnitella johdonmukaisesti niin, että sama henkilö esiintyy aineistossa alusta loppuun asti samalla peitenimellä.

Kategorisointia eli tietojen karkeistamista tehdään paljon esimerkiksi aineiston taustatiedoille. Taustatietojen kohdalla kategorisoiminen on yleensä parempi vaihtoehto kuin tietojen poistaminen, sillä aineiston tulkitseminen ja ymmärtäminen ilman taustatietoja olisi vaikeaa.

Haastatteluista tai kirjoitusaineistoista voidaan joissain tapauksissa karkeistaa myös esimerkiksi henkilönimiä. Tämä on järkevää silloin, kun henkilö esiintyy aineistossa korkeintaan pari kertaa eikä ole keskeinen aineiston sisällön kannalta. Esimerkiksi sivulauseessa mainitun Marjatta-naapurin voi hyvin muuttaa pelkäksi naapuriksi.

Useimmiten kategorisointia vaativat myös kaikki kirjoituksissa tai haastatteluissa esiintyvät yksilöivät ammattinimikkeet, toimipaikat, oppilaitokset ja paikkakunnat. Näiden luokittelemisessa kannattaa käyttää apuna Tilastokeskuksen valmiita luokituksia.

Joissain tapauksissa paras vaihtoehto on vaihtaa tekstissä esiintyvä yksilöivä tunnistetieto toiseksi. Aineiston ymmärtämisen kannalta voi esimerkiksi olla olennaista kertoa, että henkilö on syntynyt jouluaattona. Jotta tarkka syntymäaika ei paljastuisi, henkilön syntymävuotta on tällaisessa tapauksessa mahdollista muuttaa pari vuotta myöhemmäksi tai aikaisemmaksi.

Käytännössä anonymisointi voi sujua vaikka näin

Emilia Lehto konkretisoi laadullisen aineiston anonymisoimista seminaarissa kahden aineistoesimerkin avulla. Toinen esimerkkiaineistoista oli Tietoarkistoon tallennettu Erityislapsiperheiden tukiverkostot -kysely.

Tietoarkiston tutkimusapulainen, laadullisia aineistoja työkseen anonymisoiva, Emilia Lehto, kertoi anonymisoimisesta konkreettisten aineistoesimerkkien kautta. (Kuva: Kaisa Järvelä).

Aineistossa vastaajilta oli kysytty taustatiedoiksi heidän rooliansa (esim. äiti), ikäänsä, ammattiansa, siviilisäätyänsä, perheen lasten lukumäärää ja lasten ikiä sekä sitä, kuka lapsista on erityislapsi (esimerkiksi poika, 1. lapsi). Taustatiedoista kategorisoitiin vastaajan ikä ja ammatti. Jos siis haastateltavana olevan äidin ammatti oli esimerkiksi kätilö, ammatti karkeistettiin Tilastokeskuksen luokituksen mukaan [terveydenhuollon ammattilaiseksi]. Ikä luokiteltiin viiden vuoden tarkkuudella.

Tutkittavat käyttivät haastatteluissa paljon erityislastensa ja näiden sisarusten nimiä. Nämä korvattiin aineistossa pseudonyymeillä. Paikkakuntien nimet kategorisoitiin niin, että esimerkiksi Nokia muuttui [kaupunkimaiseksi kunnaksi Pirkanmaalla]. Yksityisen päiväkodin nimi poistettiin aineistosta kokonaan ja siihen viitattiin vain termillä päiväkoti. Jos esimerkiksi päiväkoteja esiintyi samassa haastattelussa useampia, ne erotettiin toisistaan kirjaimin, esimerkiksi näin: [päiväkoti A nimi poistettu].

Epäsuorien tunnisteiden kohdalla huomioitiin myös se, voiko tutkittavan henkilöllisyys paljastua, jos tunnisteen yhdistää muualta saatavilla oleviin tietoihin. Eräs äiti esimerkiksi puhui haastattelussa perheensä matkasta Kroatiaan. Tarkka matkakohde karkeistettiin lomamatkaksi [Eurooppaan], koska äiti oli saattanut julkaista tiedon perheen Kroatian-matkasta sosiaalisessa mediassa. Lehto vinkkasi, että jos hän itse ei ole varma, voiko jokin tunniste johdattaa muualta saatavaan tietoon yhdistettynä henkilön jäljille vai ei, hän tekee kokeeksi muutaman yksinkertaisen google-haun.

Kvalitatiiviset aineistot ovat usein huomattavasti työläämpiä anonymisoitavia kuin kvantitatiiviset aineistot. Tietoarkistossa kuitenkin toivomme, että myös kvalitatiiviset aineistot toimitetaan arkistoitavaksi mahdollisimman pitkälle anonymisoituina.

Lopullisen vastuun aineiston anonymiteetista otamme silti me. Tarkistamme kaikki aineistot ja käsittelemme niitä vielä niin, että ne ovat Ailaan päätyessään varmasti täysin anonyymeja.

Lisätietoja
» Seminaarin sivulta löydät esitysdiat ja myöhemmin myös videot
» Aineistonhallinnan käsikirja: Tunnisteellisuus ja anonymisointi

Vastaavan tekstin kvantitatiivisten aineistojen anonymisoinnista voi lukea myös Tietoarkistoblogista.

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi