Tag Archives: arkaluontoinen tieto

Anonymisointi luontevaksi osaksi tutkimusprosessia

Aineistonhallinta vaatii tutkijalta entistä enemmän osaamista. Tutkijan tulisi opiskella muuttuneet tietosuojakäytänteet ja toisaalta pitäisi pystyä vastaamaan myös datan avoimuuden haasteeseen. Usein aineiston arkistoiminen jatkokäyttöön on mahdollista vain anonyyminä. Anonymisoinnin osaaminen ja resursointi nousevat tässä vaiheessa keskeiseen asemaan. Tutkijoiden näkökulmasta lisävaatimukset eivät ole aina mieluisia, sillä usein anonymisointiin ei ole varattu aikaa ja toisaalta ei ole myöskään tietoa, miten aineisto saatetaan anonyymiksi. Jonkin pitää muuttua, mutta miten?

Mieti anonymisointia jo tutkimusprosessin alussa

Uudet vaatimukset otetaan haltuun muuttamalla käsitystä anonymisoinnista ja kasvattamalla anonymisoinnin osaamista. Tästä lähtien tutkimusprojekteissa tulee jo alkuvaiheessa resursoida anonymisoinnin suunnitteluun ja toteuttamiseen. Käsitys siitä, että anonymisointi on jotain, jota tehdään vain aineistonkeruuvaiheessa poistamalla suorat tunnisteet tai tutkimusprosessin loppuvaiheessa ennen arkistointia, tulisi heittää romukoppaan.

Ensinnäkään anonymisointi ei ole vain suorien tunnisteiden poistamista, vaan vaatii laajemman aineiston sisällön tarkastelun ja tietojen suhteuttamisen ulkopuolelta saataviin tietoihin. Anonymisoinnissa pyritään ymmärtämään, minkä tiedon poistaminen on tarpeellista, ja miten tietojen poistaminen vaikuttaa aineiston käytettävyyteen. Toiseksi anonymisointia tulee miettiä jo tutkimusprosessin alussa, sillä henkilötiedot tulee kerätä tietosuoja-asetuksen minimoinnin periaatteen mukaan eli keräämällä vain tutkimuksen kannalta tarpeellisia tietoja. Henkilötietojen keruun huolellisella suunnittelulla voi vähentää oleellisesti anonymisointiin myöhemmin kuluvaa aikaa.

Miten kerättäviä tietoja voi minimoida?

Määrällisissä aineistonkeruissa anonymisointia vaativien tietojen keruuta pystyy minimoimaan tehokkaasti välttämällä avokysymyksiä, joiden sisältöä tutkija ei voi kontrolloida. Kannattaa välttää myös kysymyksiä, joiden perusteella vastaajasta paljastuu kohdejoukkoon nähden harvinaisia tietoja. Tietoja suositellaan kerättäväksi valmiiksi luokiteltuna, niin että kysytään esimerkiksi yksittäisen harrastuksen sijaan harrastustyyppiä. Kirjoitettavan avovastauksen ”pelaan jalkapalloa Äänekosken Huimassa” sijaan vastaaja voi valita esimerkiksi luokitellun arvon ”palloilulajit”, eikä tutkijan tarvitse anonymisoida paikkakuntaa ja seuraa. Erityisesti taustatietojen kysyminen luokiteltuna ehkäisee oleellisesti myöhäisempää anonymisointitarvetta niin kvalitatiivisissa kuin kvantitatiivisissa aineistoissa.

Laadullisissa aineistoissa sisällön etukäteen rajoittaminen on hankalampaa, mutta sitä voi helpottaa muutaman hyödyllisen vinkin avulla. Esimerkiksi haastatteluissa ja kirjoitusaineistoissa haastateltavien taustatiedot kannattaa kerätä strukturoituna, henkilöiden vapaamuotoisten esittelyjen sijaan. Haastattelun aluksi haastattelija voi esimerkiksi pyytää iän, ammatin ja lasten lukumäärän luokiteltuna. Haastateltavia voi myös muistuttaa aluksi ystävällisesti, jos haastattelun luonne antaa siihen mahdollisuuden, että he eivät kertoisi ihmisten oikeita nimiä tai muita tarkkoja tietoja. Tutkija voi myös välttää liian yksityiskohtaista tietoa tuottavien kysymysten esittämisen.

Yleisimmät ongelmat anonymisoinnissa

Koska anonymisointiin ei ole valmiina kaikkiin aineistoihin sopivia ohjeistuksia, se voidaan kokea haasteellisena. Usein ongelmana on hahmottaa, mitä tietoja tulee anonymisoida ja mitä tietoja voidaan jättää. Tutkija saattaa myös ajatella, ettei sensitiivistä aineistoa voi saattaa anonyymiksi. Anonymisoinnin jälkeen tutkijan mieleen voi hiipiä myös pelko siitä, onko aineistoa anonymisoitu tarpeeksi.

Ensinnäkin tulee muistaa, että aineiston sensitiivisyys ei ole lähtökohtaisesti este aineiston anonymisoinnille ja jakamiselle. Sensitiivisen aineiston anonymisointi voidaan suunnitella samalla tavoin kuin ei-sensitiivisiä tietoja sisältävän aineiston. Merkityksellisintä on henkilöistä saatavien taustatietojen ja muiden aineiston sisältämien tietojen karkeistaminen tai poisto tasolle, josta yksittäisiä henkilöitä ei pysty tunnistamaan. Sensitiivisen aineiston anonymisointi voi kuitenkin olla haasteellista, sillä aineiston luonteen vuoksi rajoitettavia tietoja voi olla paljon.

Anonymisointitarpeen hahmottamisen helpottamiseen tarvitaan ohjeistusta ja tarve konkreettisille anonymisointiohjeille on suuri. Ennen anonymisoinnin ohjeistus keskittyi usein anonymisoinnin menetelmien, kuten karkeistuksen ja luokitteluiden, esittämiseen, ei anonymisointipäätösten tekemisestä ohjeistamiseen. Ohjeistuksen tarpeeseen vastatakseen Tietoarkisto on päivittänyt anonymisoinnin ohjeistuksiaan viimeksi viime kuussa. Ohjeistuksiin lisättiin erityisesti tukea anonymisoinnin suunnitteluun. Ohjeista löytyy nyt myös havainnollistavia esimerkkejä ja mallipohjia anonymisointisuunnitelman tekoon.

Anonymisoinnin tarpeen hahmottaminen

Kun haluaa anonymisoida oman tutkimusaineistonsa, sille kannattaa tehdä anonymisointisuunnitelma, josta käy ilmi tunnisteellisuuden kannalta tärkeimmät aineiston tiedot ja tehdyt anonymisointipäätökset ja -toimet. Anonymisoitavien tietojen hahmottamiseen auttaa seuraavien tärkeimpien asioiden muistaminen ja tarkastelu:

  • Suorat tunnisteet poistetaan aina!
  • Keitä ja mitä tutkit? Henkilöiden tunnistettavuus riippuu paljon tavoitellun kohdejoukon määrästä ja tutkittavasta ilmiöstä. Mitä pienempi kohdejoukko ja mitä enemmän heistä on saatavilla tietoa, sitä vähemmän yksityiskohtaista tietoa henkilöistä voidaan jättää aineistoon.
  • Anonymisoinnissa pyritään eroon harvinaisista tiedoista, joiden perusteella yksittäinen henkilö tai rypäs on tunnistettavissa. Anonymisoitavia tietoja pohditaan aina suhteessa tutkimuksen perusjoukkoon. Tieto on harvinainen vain, jos ominaisuus on harvinainen kohdejoukossa. Pienet jakaumat eivät ole näin yksiselitteisesti harvinaista tietoa. Harvinaistakaan tietoa ei tarvitse anonymisoida, jos tietoa henkilöstä ei voida saada selville.
  • Pohdi, voiko henkilö olla tunnistettavissa yhdistämällä aineiston tietoja toisiinsa. Pohdi myös, mitä tietoja tutkittavista voi olla saatavilla ulkoisista lähteistä, kuten sosiaalisesta mediasta, ja voiko tietoja yhdistää datan sisältämiin tietoihin. Esimerkiksi LinkedInissä on useamman suomalaisen koulutus- ja työhistoria julkisesti nähtävillä.
  • Sensitiivisten tietojen anonymisointi on tarpeellista, mikäli niiden perusteella voi tunnistaa tai päätellä yksittäisen henkilön tai henkilöitä. Jos sensitiivisten asiasisältöjen tutkiminen on tutkimuksen kannalta keskeistä, tietoja ei tietenkään poisteta, vaan aineisto pyritään tekemään anonyymiksi muita henkilöihin viittaavia tietoja poistamalla.
  • Jos aineisto vaatii anonymisointia, se voidaan toteuttaa monin eri tavoin. Pyri poistamaan tietoja, jotka ovat vähemmän tärkeitä tutkimusilmiön kannalta ja säilyttämään tärkeimmät taustatiedot. Esimerkiksi, jos kuntatasoinen muuttuja aluetietona on tutkimuksen kannalta merkityksellinen, anonymisointia voi tehdä esimerkiksi vastaajan perhe- tai tulotietoihin.

Lisätietoa ja tarkemmat ohjeet löydät Tietoarkiston aineistonhallinnan käsikirjasta.

Anonymisoinnin kartoittamisen jälkeen voi jopa olla että anonymisointia ei välttämättä tarvitsekaan tehdä. Tällainen tilanne voi olla esimerkiksi väestötutkimuksissa, joissa aluemuuttuja on kerätty vain maakunnan tasolla ja muiden tietojen perusteella henkilöt eivät ole yksilöitävissä tai liitettävissä harvinaisiin ryhmiin. Anonymisointisuunnitelman tekeminen on siis suositeltavaa, jotta tutkimusprosessin aikana aineistoa tulee tarkasteltua kerran yksinomaan tunnisteellisuuden näkökulmasta. Lisäksi suunnitelma toimii hyvänä dokumentaationa aineistoille tunnisteellisuussyistä tehdyistä muutoksista, mikäli aineisto luovutetaan jatkokäyttöön.

Et ole anonymisointipulmiesi kanssa yksin

Anonymisoinnin riittävyys on yleinen tutkijoiden huoli, ja se on hyvin ymmärrettävää. Tulee kuitenkin muistaa, että anonyymiksi voidaan määritellä aineisto, josta ei kohtuullisen todennäköisesti käytettävissä olevin keinoin voi tunnistaa tai päätellä henkilöitä. On jo paljon, että aineiston anonymiteettiä ja henkilöiden paljastumisriskiä on pohdittu ja se on kirjattu anonymisointisuunnitelmaan. Lisäksi on hyvä muistaa, että aineistolle voidaan tehdä lisäanonymisointia myöhemminkin. Aineistolle tulee tehdä säännöllisesti jäännösriskin arviointi, jossa tarkastellaan anonymiteettiä uudelleen. Se on tarpeellista tiedon lisääntymisen ja tekniikan kehittymisen vuoksi.

Tavoitteet anonymisoinnin käsitysten muuttamisesta ja osaamisen levittämisestä ovat alkuvaiheessa. Toivomme, että anonymisointi nähdään mahdollisuutena lisätä tieteen avoimuutta ja luotettavuutta. Asiasta tarvitaan myös keskustelua ja näkemyksiä. Otamme niitä mielellämme vastaan täällä Tietoarkistossa!

Annika Sallinen
tietopalveluasiantuntija
etunimi.sukunimi [at] tuni.fi

GDPR tulee – onko akateeminen vapaus ja arkistojen toiminta vaarassa?

Euroopan unionin yleistä tietosuoja-asetusta, tuttavallisemmin GDPR:ää, ja sen aiheuttamia muutoksia tutkijoiden, yliopistojen ja arkistojen toimintaan on odotettu kauhun sekaisin tuntein jo kohta kuusi vuotta. Otsikon kysymys pyöri mielessä varmasti monella osallistujalla Tietoarkiston ja Avoin tiede- ja tutkimus -hankeen loka-marraskuun vaihteessa järjestämissä seminaareissa EU:n tietosuoja-asetus – tietosuojalainsäädännön muutokset tutkimuksessa ja arkistoinnissa sekä Tietosuoja ja tutkittavan suostumus osallistua tutkimukseen. Paikalla ja etänä tapahtumia seurasi yhteensä lähes tuhat ihmistä.

Valitsimme seminaarien ajankohdan hyvissä ajoin olettaen, että kotimainen tarkentava lainsäädäntö ja Euroopan tietosuojatyöryhmän odotettavissa olevat suostumusta koskevat ohjeet olisivat valmistuneet. Olimme sittenkin etuajassa, emmekä valitettavasti saaneet lopullisia vastauksia kaikkiin kuulijoiden – ja osin järjestäjienkin mieltä vaivaaviin kysymyksiin.

Oikeusministeriö sai lausuntokierrokselta tietosuojalaista yli sata lausuntoa. Nyt ministeriön virkamiehet valmistelevat hallituksen lakiesitystä. Lain pitäisi tulla voimaan samaan aikaan, kun tietosuoja-asetusta aletaan soveltaa 25.5.2018. Euroopan WP29-tietosuojatyöryhmän suostumusta koskeva ohjeluonnos julkaistaneen marraskuussa työryhmän kokouksen jälkeen.

Jotkin asiat ovat selvillä kuitenkin jo nyt. Varmaa on, että siitä mikä on asetuksessa säädetty, ei voida säätää uudelleen kotimaisessa tietosuojalaissa tai muissa kansallisissa säädöksissä. Tässä mielessä ei kannata odottaa liikoja kotimaiselta lainsäädännöltä. Säätää voidaan vain siitä, mihin asetus antaa mahdollisuuden. Jotkin asetuksen ja kotimaisen lain tulkinnat selviävät viimeistään vasta oikeustapauksien myötä. Lainsäädännön noudattamisen tueksi tarvitaan alakohtaisia käytännesääntöjä ja muita ohjeita.

Tavoitteena tutkittavien oikeuksien vahvistaminen

Tietosuoja-asetuksen tavoitteena on vahvistaa rekisteröidyn oikeuksia ja lisätä henkilötietojen käsittelyn avoimuutta. Se kuitenkin huomioi tutkimuksen erityislaadun eikä tarkoituksena ole rajoittaa tutkimuksen vapautta. Kansallisessa lainsäädännössä on sovitettava yhteen toisaalta oikeus henkilötietojen suojaan ja toisaalta oikeus sananvapauteen ja tiedonvälityksen vapauteen. Vapauksiin sisältyy myös tietojen käsittely akateemisen ilmaisun tarkoituksiin.

Tutkijoiden on syytä huomata, että tietosuojakielen ”rekisteröity” tarkoittaa heidän tutkittaviaan, jos itse tutkimusaineisto sisältää henkilötietoja. Lisäksi henkilötiedon käsite on paljon laajempi, kuin tutkijat ajattelevat sen olevan. Kun tutkii ihmisiä ja yhteiskuntaa tavalla tai toisella, kannattaa olla kiinnostunut EU:n tietosuoja-asetuksesta ja tulevasta kotimaisesta lainsäädännöstä. Tietosuojavaltuutetun toimiston ylitarkastaja Anna Hänninen muistutti esityksessään myös, että tietosuojan toteuttaminen tutkimuksessa ylläpitää luottamusta tutkimukseen yleisesti.

Tietojen käsittelylle oltava perusteet

Tietosuoja-asetuksen 6 artikla sisältää oikeusperusteet henkilötietojen lainmukaiselle käsittelylle. Perusteita henkilötietojen käsittelylle ovat sen perusteella muun muassa tutkittavan yksilöity suostumus ja käsittelyn tarpeellisuus yleistä etua koskevan tehtävän suorittamiseksi.

Jos käsitellään arkaluonteisia tietoja, on lisäksi jonkin 9 artiklan perusteista täytyttävä. Arkaluonteisia tietoja saa käsitellä esimerkiksi nimenomaisella suostumuksella, tieteellistä tai historiallista tutkimustarkoitusta varten, mutta käsittelyoikeudesta ja suojatoimista on säädettävä unionin oikeudessa tai kansallisella lainsäädännöllä, esimerkiksi tulevalla tietosuojalailla.

Kannattaa huomata, että arkaluonteisia tietoja saa käsitellä tutkimuksessa vain, jos se on tarpeen tutkimuksen tavoitteiden saavuttamiseksi. Toisin sanoen vaikka tutkittava olisi antanut suostumuksensa, tietoja ei saa käsitellä, jos se ei ole tarpeen. Tästä periaatteesta ei voida poiketa kansallisella lainsäädännölläkään. Esimerkiksi tarpeetonta käsittelyä olisi rekisteriaineiston käyttäminen anonymisoimattomana suojatun etäkäyttöjärjestelmän välityksellä, jos tutkimuksen tarkoituksen voisi saavuttaa anonyymiä aineistoa käyttäen. Kyse on tietojen minimoinnin periaatteen noudattamisesta. Tarvitaan siis rekistereistä tutkimustarkoituksiin valmistettuja dataversioita ja ehkä vielä yleisempään käyttöön soveltuvia versioita, ja tarvitaan Tietoarkiston kaltaisia toimijoita, jotka avustavat tutkijoita aineiston anonymisoinnissa ja avaamisessa alkuperäisen tutkimushankkeen jälkeen.

Tietosuojalain toivotaan turvaavan avointa tiedettä

Yleisen edun mukaisia arkistointitarkoituksia, tutkimustarkoituksia ja tilastollisia tarkoituksia varten tapahtuvan henkilötietojen käsittelyn perussäännös on tietoasuoja-asetuksen 89 artikla. Siinä säädetään suojatoimista ja poikkeuksista, joista voidaan säätää kansallisesti tai myös unionin oikeudessa muilla säädöksillä. Artiklaan viitataan muun muassa edellä mainituissa 6 ja 9 artikloissa.

Opetus- ja kulttuuriministeriön hallitusneuvoksen Immo Aakkulan mukaan tietosuojalakiin on tulossa laaja poikkeuspykälä käsittelyperustevaatimuksista ja rekisteröidyn oikeuksista. Hän esitteli seminaarissa OKM:n ehdotusta arkistoinnin osalta. Pyrkimyksenä on turvata myös muiden kuin Kansallisarkiston toimintamahdollisuudet. Siksi ehdotuksessa arkistotyyppinen rekisterinpitäjä määritellään laajasti niin, että sen tehtävä voi olla lakisääteinen tai sääntömääräinen tutkimus- tai kulttuuriperintöaineistojen tallentaminen ja saataville saattaminen. Toiminnan olisi lisäksi perustuttava julkisesti saatavilla olevaan suunnitelmaan; tietojen tulisi olla käytettävissä tieteelliseen ja historialliseen tutkimukseen ja journalistisia tarkoituksia varten; ja tietoja voisi luovuttaa vain niille, joilla on oikeus tietojen käsittelyyn.

Koska tietosuojalaista ei ole vielä edes hallituksen esitystä, emme voi tietää, meneekö OKM:n esittämä muotoilu läpi ja miten aineistojen avaaminen jatkokäyttöön mahdollistetaan tulevaisuudessa. Mietimme Tietoarkistossa, helpottuuko vai vaikeutuuko toimintamme, kun tietosuoja-asetusta aletaan soveltaa. Toivomme tutkimusaineistojen vastuullisen avoimuuden turvaavaa ratkaisua.

Tutustu tapahtumasivujen materiaaliin

Seminaarien esitysdiat ja -taltioinnit ovat katsottavissa seminaarien tapahtumasivuilla, jos puhuja on antanut tähän luvan. Kannattaa katsoa esimerkiksi ylitarkastaja Anna Hännisen esitykset, joista saa hyvän käsityksen siitä, mitä EU:n tietosuoja-asetus merkitsee tutkimuksen tai tutkittavan suostumuksen näkökulmasta. Hallitusneuvos Immo Aakkulan esityksestä näkee tarkemmin, mitä ministeriö on ehdottanut oikeusministeriölle, jotta myös avoimen tieteen ja arkistoinnin tarpeet huomioitaisiin.

Kiitän järjestäjien puolesta suuresta kiinnostuksesta ja saamastamme palautteesta.

Lisätietoa:
Linkit seminaaritallenteisiin ja esityksiin:
» EU:n tietosuoja-asetus – tietosuojalainsäädännön muutokset tutkimuksessa ja arkistoinnissa (31.10.2017)
» Tietosuoja ja tutkittavan suostumus osallistua tutkimukseen (1.11.2017)
Lähteitä:
» EU:n tietosuoja-asetus Euroopan unionin virallisessa lehdessä (pdf)
» Tietosuojavaltuutetun toimiston tiedotteet tietosuojauudistuksesta
» Tietosuojatyöryhmä, Article 29 Data Protection Working Party
» Tiedonhallinnan lainsäädännön kehittämislinjaukset: Työryhmän raportti. Valtiovarainministeriön julkaisuja 37/2017.

Helena Laaksonen
johtaja
etunimi.sukunimi [at] uta.fi

Suostumuksen edellytykset tietosuoja-asetuksen mukaan

Ihmisiin kohdistuvissa tieteellisissä tutkimuksissa käsitellään useimmiten tutkittavien henkilötietoja. Nykyinen henkilötietolaki (523/1999) perustuu EU:n direktiiviin yksilöiden suojelusta henkilötietojen käsittelyssä ja näiden tietojen vapaasta liikkuvuudesta (95/46/EY). Aiemmat säädökset korvaavaa uutta tietosuoja-asetusta (2016/679) aletaan soveltamaan 25.5.2018 alkaen. Henkilötietoja käsittelevien rekisterinpitäjien, esimerkiksi tutkimusryhmän tai tutkimusorganisaation, on saatettava toimintansa vastaamaan asetuksen vaatimuksia viimeistään tähän mennessä.

Tutkittavien suostumukseen perustuvan tieteellisen tutkimuksen osalta tämä tarkoittaa sitä, että jos tällä hetkellä käynnissä olevaa tutkimusta varten hankitut suostumukset eivät täytä tietosuoja-asetuksen vaatimuksia, ja tutkittavien henkilötietoja on tarpeellista käsitellä tunnisteellisina 25.5.2018 jälkeen, on tutkittavilta pyydettävä uusi suostumus ennen asetuksen ensimmäistä soveltamispäivää. Jos tutkittavien henkilötiedot on kuitenkin ennen tätä tarkoitus tuhota tai muuttaa pysyvästi tunnistamattomaan muotoon, ei tutkijoiden tarvitse ryhtyä lisätoimenpiteisiin. Jos suostumuksia ei ole vielä pyydetty tutkittavilta, tulisi ne jo nyt pyytää tietosuoja-asetuksen edellyttämällä tavalla.

Tietosuoja-asetuksen mukainen suostumus ei eroa ratkaisevasti nykyisen henkilötietolain mukaisesta suostumuksesta ja tietosuojatyöryhmän (Article 29 Working Party) suostumusta koskevasta lausuntokäytännöstä. Aiempaa lausuntokäytäntöä on nyt siirretty suoraan osaksi asetusta ja tietosuoja-asetus asettaa suhteellisen korkeat vaatimukset pätevälle suostumukselle. Seuraavassa käydään läpi asetuksen keskeisimpiä vaatimuksia suostumukselle:

  1. Osoitusvelvollisuus. Rekisterinpitäjän on pystyttävä osoittamaan, että tutkittavilta hankittu suostumus täyttää tietosuoja-asetuksen vaatimukset. Rekisterinpitäjän osoitusvelvollisuuden täyttämiseksi on tärkeää dokumentoida selkeästi esimerkiksi:
    • kuka on antanut suostumuksen,
    • miten tutkittavaa on informoitu suostumuksen antamisen yhteydessä (tutkittavalle annettu kirjallinen informaatio sekä tieto suullisesti annetusta informaatiosta) ja
    • milloin suostumus on annettu (esim. päiväys suostumuslomakkeessa tai sähköinen aikaleima).
  2. Erottuvuus ja selkeys. Kun suostumus annetaan kirjallisessa ilmoituksessa, joka koskee myös muita asioita, suostumusta koskeva pyyntö on esitettävä selkeästi erillään muista asioista. Jos esimerkiksi tutkittava osallistuu tutkimuksen yhteydessä työpaja- tai koulutustoimintaan – ja tätä toimintaa varten olisi tarpeellista sopia erillisistä ehdoista – on suostumuksen henkilötietojen käsittelyyn tieteellisessä tutkimuksessa oltava selkeästi erillään työpaja- tai koulutustoimintaa koskevista ehdoista. Suostumus henkilötietojen käsittelyyn on lisäksi pyydettävä helposti ymmärrettävässä ja saatavilla olevassa muodossa selkeällä ja yksinkertaisella kielellä.
  3. Suostumuksen aktiivinen ilmaiseminen. Tietosuojadirektiiviin verrattuna suostumus edellyttää entistä selkeämmin tutkittavan aktiivista toimintaa. Suostumus pitää antaa suostumusta ilmaisevalla lausumalla tai toteuttamalla selkeästi suostumusta ilmaisevan toimi. Suostumusta ilmaiseva lausuma on esimerkiksi suostumuslomakkeen täyttäminen ja allekirjoittaminen. Suostumusta selkeästi ilmaiseva toimena voidaan pitää kyselylomakkeen täyttämistä ja palauttamista tutkijoille. Vaikenemiseen perustuva suostumus, valmiiksi rastitettu ruutu verkkosivulla tai jonkin toimenpiteen tekemättä jättäminen sen sijaan eivät päde suostumukseksi.
  4. Tiedollisuus, vapaaehtoisuus ja yksilöitävyys. Tiedollisuus edellyttää tietoa esimerkiksi rekisterinpitäjästä (tarkista tähän liittyen organisaatiosi toimintakäytännöt) ja henkilötietojen käsittelyn tarkoituksesta. Lisäksi on huomioitava asetuksen yksityiskohtaisemmat informointisäännökset. Suostumusta ei katsota vapaaehtoiseksi, jos tutkittavalla ei ole mahdollista antaa suostumusta eri henkilötietojen käsittelytoimille, vaikka tämä olisi yksittäistapauksessa mahdollista. Vapaaehtoisuus edellyttää myös tosiasiallista valinnanvapautta ilman pelkoa haitallisista vaikutuksista. Tämä voi olla kyseenalaista, kun rekisteröidyn ja rekisterinpitäjän välillä on selkeä epäsuhta. Erityisten tietoryhmien (aiemmin henkilötietolain arkaluonteiset tiedot) käsittely edellyttää lisäksi suostumuksen nimenomaisuutta. Tämä on katsottu yleensä edellyttävän rekisteröidyn antamaa täsmällistä ilmaisua joko kirjallisesti tai suullisesti.
  5. Suostumuksen peruuttaminen. Tutkittavalla tulee olla mahdollisuus peruuttaa suostumuksensa milloin vain. Suostumuksen peruuttamisen on oltava yhtä helppoa kuin sen antamisen. Asetuksen mukaan tutkittavalle on kerrottava, että suostumuksen peruuttaminen ei vaikuta ennen suostumuksen peruuttamista tapahtuneen henkilötietojen käsittelyn lainmukaisuuteen. Suostumuksen peruuttamisen mahdollistamiseksi on oleellista, että tutkittavilla on aina käytössään tutkimuksesta vastaavan tahon ajantasaiset yhteystiedot. Suostumuksen peruttaminen ei välttämättä edellytä vastaavaa menettelyä kuin suostumuksen antaminen – olennaista on peruuttamisen helppous.
  6. Suostumuksen kattavuus. Suostumuksen pitää kattaa kaikki käsittelytoimet, jotka toteutetaan samaa tarkoitusta tai samoja tarkoituksia varten. Jos käsittelyllä on useita tarkoituksia, suostumus täytyy antaa kaikkia käsittelytarkoituksia varten. Jos esimerkiksi taiteellisen tutkimuksen yhteydessä on erotettavissa käsittelytarkoitus, joka ei liity suoraan tieteelliseen tutkimukseen, pitää myös tämä tarkoitus ilmoittaa yksilöidysti ja nimenomaisesti suostumusta pyydettäessä.
  7. Tieteellinen jatkotutkimus. Tietosuoja-asetuksen johdanto-osassa todetaan, että silloin kun tieteellisen tutkimuksen tunnustettuja eettisiä standardeja noudatetaan, suostumuksen antaminen on mahdollista tietyille tieteellisen tutkimuksen aloille. Tämä on sektorikohtainen poikkeus siihen pääsääntöön, että suostumus on annettava tarkkarajaisesti ennalta yksilöityä käyttötarkoitusta varten. Tutkittavalle täytyy kuitenkin aina varata mahdollisuus antaa suostumus pelkästään tietyille tutkimusaloille tai tutkimushankkeiden osille, jos tämä vain on mahdollista.

Asetuksen kohdasta ei ole vielä tulkintakäytäntöä. Euroopan unionin neuvoa antavan tietosuojatyöryhmän on tarkoitus julkaista syksyllä 2017 lausunto tietosuoja-asetuksen mukaisen suostumuksen tulkinnasta.

Henkilötietojen käsittely on mahdollista tutkittavan suostumuksen lisäksi myös muilla tietosuoja-asetuksen 6 artiklan mukaisilla perusteilla. Näitä ovat muun muassa yleistä etua koskevan tehtävän toteuttaminen sekä tilanteet, joissa henkilötietojen käsittely on eräissä tapauksissa tarpeen rekisterinpitäjän tai kolmannen osapuolen oikeutettujen etujen turvaamiseksi. Lisäksi erillisiä suostumukseen liittyviä säännöksiä on esimerkiksi EU:n kliinisiä lääketutkimuksia koskevassa asetuksessa (536/2014).

Suostumuksen edellytyksiä koskevien säännösten rikkomisesta voidaan määrätä hallinnollinen sakko. Tietosuoja-asetuksen artiklan 83 kohdan 5 mukainen hallinnollinen sakko on enintään 20 000 000 euroa, tai jos kyseessä on yritys, neljä prosenttia sen edeltävän tilikauden vuotuisesta maailmanlaajuisesta kokonaisliikevaihdosta sen mukaan, kumpi näistä määristä on suurempi.

Lisätietoja
» Tietosuoja ja tutkittavan suostumus osallistua tutkimukseen
Seminaari Helsingissä 1.11.2017
» Tietosuoja-asetus
» Article 29 Working Party, Opinion 15/2011 on the definition of consent, WP187
» Information Commissioner’s Office: GDPR Consent Guide (draft)

Antti Ketola
lakimies, F.E.C.
etunimi.sukunimi [at] uta.fi

Suostumuksen edellytykset tietosuoja-asetuksen mukaan

Ihmisiin kohdistuvissa tieteellisissä tutkimuksissa käsitellään useimmiten tutkittavien henkilötietoja. Nykyinen henkilötietolaki (523/1999) perustuu EU:n direktiiviin yksilöiden suojelusta henkilötietojen käsittelyssä ja näiden tietojen vapaasta liikkuvuudesta (95/46/EY). Aiemmat säädökset korvaavaa uutta tietosuoja-asetusta (2016/679) aletaan soveltamaan 25.5.2018 alkaen. Henkilötietoja käsittelevien rekisterinpitäjien, esimerkiksi tutkimusryhmän tai tutkimusorganisaation, on saatettava toimintansa vastaamaan asetuksen vaatimuksia viimeistään tähän mennessä.

Tutkittavien suostumukseen perustuvan tieteellisen tutkimuksen osalta tämä tarkoittaa sitä, että jos tällä hetkellä käynnissä olevaa tutkimusta varten hankitut suostumukset eivät täytä tietosuoja-asetuksen vaatimuksia, ja tutkittavien henkilötietoja on tarpeellista käsitellä tunnisteellisina 25.5.2018 jälkeen, on tutkittavilta pyydettävä uusi suostumus ennen asetuksen ensimmäistä soveltamispäivää. Jos tutkittavien henkilötiedot on kuitenkin ennen tätä tarkoitus tuhota tai muuttaa pysyvästi tunnistamattomaan muotoon, ei tutkijoiden tarvitse ryhtyä lisätoimenpiteisiin. Jos suostumuksia ei ole vielä pyydetty tutkittavilta, tulisi ne jo nyt pyytää tietosuoja-asetuksen edellyttämällä tavalla.

Tietosuoja-asetuksen mukainen suostumus ei eroa ratkaisevasti nykyisen henkilötietolain mukaisesta suostumuksesta ja tietosuojatyöryhmän (Article 29 Working Party) suostumusta koskevasta lausuntokäytännöstä. Aiempaa lausuntokäytäntöä on nyt siirretty suoraan osaksi asetusta ja tietosuoja-asetus asettaa suhteellisen korkeat vaatimukset pätevälle suostumukselle. Seuraavassa käydään läpi asetuksen keskeisimpiä vaatimuksia suostumukselle:

  1. Osoitusvelvollisuus. Rekisterinpitäjän on pystyttävä osoittamaan, että tutkittavilta hankittu suostumus täyttää tietosuoja-asetuksen vaatimukset. Rekisterinpitäjän osoitusvelvollisuuden täyttämiseksi on tärkeää dokumentoida selkeästi esimerkiksi:
    • kuka on antanut suostumuksen,
    • miten tutkittavaa on informoitu suostumuksen antamisen yhteydessä (tutkittavalle annettu kirjallinen informaatio sekä tieto suullisesti annetusta informaatiosta) ja
    • milloin suostumus on annettu (esim. päiväys suostumuslomakkeessa tai sähköinen aikaleima).
  2. Erottuvuus ja selkeys. Kun suostumus annetaan kirjallisessa ilmoituksessa, joka koskee myös muita asioita, suostumusta koskeva pyyntö on esitettävä selkeästi erillään muista asioista. Jos esimerkiksi tutkittava osallistuu tutkimuksen yhteydessä työpaja- tai koulutustoimintaan – ja tätä toimintaa varten olisi tarpeellista sopia erillisistä ehdoista – on suostumuksen henkilötietojen käsittelyyn tieteellisessä tutkimuksessa oltava selkeästi erillään työpaja- tai koulutustoimintaa koskevista ehdoista. Suostumus henkilötietojen käsittelyyn on lisäksi pyydettävä helposti ymmärrettävässä ja saatavilla olevassa muodossa selkeällä ja yksinkertaisella kielellä.
  3. Suostumuksen aktiivinen ilmaiseminen. Tietosuojadirektiiviin verrattuna suostumus edellyttää entistä selkeämmin tutkittavan aktiivista toimintaa. Suostumus pitää antaa suostumusta ilmaisevalla lausumalla tai toteuttamalla selkeästi suostumusta ilmaisevan toimi. Suostumusta ilmaiseva lausuma on esimerkiksi suostumuslomakkeen täyttäminen ja allekirjoittaminen. Suostumusta selkeästi ilmaiseva toimena voidaan pitää kyselylomakkeen täyttämistä ja palauttamista tutkijoille. Vaikenemiseen perustuva suostumus, valmiiksi rastitettu ruutu verkkosivulla tai jonkin toimenpiteen tekemättä jättäminen sen sijaan eivät päde suostumukseksi.
  4. Tiedollisuus, vapaaehtoisuus ja yksilöitävyys. Tiedollisuus edellyttää tietoa esimerkiksi rekisterinpitäjästä (tarkista tähän liittyen organisaatiosi toimintakäytännöt) ja henkilötietojen käsittelyn tarkoituksesta. Lisäksi on huomioitava asetuksen yksityiskohtaisemmat informointisäännökset. Suostumusta ei katsota vapaaehtoiseksi, jos tutkittavalla ei ole mahdollista antaa suostumusta eri henkilötietojen käsittelytoimille, vaikka tämä olisi yksittäistapauksessa mahdollista. Vapaaehtoisuus edellyttää myös tosiasiallista valinnanvapautta ilman pelkoa haitallisista vaikutuksista. Tämä voi olla kyseenalaista, kun rekisteröidyn ja rekisterinpitäjän välillä on selkeä epäsuhta. Erityisten tietoryhmien (aiemmin henkilötietolain arkaluonteiset tiedot) käsittely edellyttää lisäksi suostumuksen nimenomaisuutta. Tämä on katsottu yleensä edellyttävän rekisteröidyn antamaa täsmällistä ilmaisua joko kirjallisesti tai suullisesti.
  5. Suostumuksen peruuttaminen. Tutkittavalla tulee olla mahdollisuus peruuttaa suostumuksensa milloin vain. Suostumuksen peruuttamisen on oltava yhtä helppoa kuin sen antamisen. Asetuksen mukaan tutkittavalle on kerrottava, että suostumuksen peruuttaminen ei vaikuta ennen suostumuksen peruuttamista tapahtuneen henkilötietojen käsittelyn lainmukaisuuteen. Suostumuksen peruuttamisen mahdollistamiseksi on oleellista, että tutkittavilla on aina käytössään tutkimuksesta vastaavan tahon ajantasaiset yhteystiedot. Suostumuksen peruttaminen ei välttämättä edellytä vastaavaa menettelyä kuin suostumuksen antaminen – olennaista on peruuttamisen helppous.
  6. Suostumuksen kattavuus. Suostumuksen pitää kattaa kaikki käsittelytoimet, jotka toteutetaan samaa tarkoitusta tai samoja tarkoituksia varten. Jos käsittelyllä on useita tarkoituksia, suostumus täytyy antaa kaikkia käsittelytarkoituksia varten. Jos esimerkiksi taiteellisen tutkimuksen yhteydessä on erotettavissa käsittelytarkoitus, joka ei liity suoraan tieteelliseen tutkimukseen, pitää myös tämä tarkoitus ilmoittaa yksilöidysti ja nimenomaisesti suostumusta pyydettäessä.
  7. Tieteellinen jatkotutkimus. Tietosuoja-asetuksen johdanto-osassa todetaan, että silloin kun tieteellisen tutkimuksen tunnustettuja eettisiä standardeja noudatetaan, suostumuksen antaminen on mahdollista tietyille tieteellisen tutkimuksen aloille. Tämä on sektorikohtainen poikkeus siihen pääsääntöön, että suostumus on annettava tarkkarajaisesti ennalta yksilöityä käyttötarkoitusta varten. Tutkittavalle täytyy kuitenkin aina varata mahdollisuus antaa suostumus pelkästään tietyille tutkimusaloille tai tutkimushankkeiden osille, jos tämä vain on mahdollista.

Asetuksen kohdasta ei ole vielä tulkintakäytäntöä. Euroopan unionin neuvoa antavan tietosuojatyöryhmän on tarkoitus julkaista syksyllä 2017 lausunto tietosuoja-asetuksen mukaisen suostumuksen tulkinnasta.

Henkilötietojen käsittely on mahdollista tutkittavan suostumuksen lisäksi myös muilla tietosuoja-asetuksen 6 artiklan mukaisilla perusteilla. Näitä ovat muun muassa yleistä etua koskevan tehtävän toteuttaminen sekä tilanteet, joissa henkilötietojen käsittely on eräissä tapauksissa tarpeen rekisterinpitäjän tai kolmannen osapuolen oikeutettujen etujen turvaamiseksi. Lisäksi erillisiä suostumukseen liittyviä säännöksiä on esimerkiksi EU:n kliinisiä lääketutkimuksia koskevassa asetuksessa (536/2014).

Suostumuksen edellytyksiä koskevien säännösten rikkomisesta voidaan määrätä hallinnollinen sakko. Tietosuoja-asetuksen artiklan 83 kohdan 5 mukainen hallinnollinen sakko on enintään 20 000 000 euroa, tai jos kyseessä on yritys, neljä prosenttia sen edeltävän tilikauden vuotuisesta maailmanlaajuisesta kokonaisliikevaihdosta sen mukaan, kumpi näistä määristä on suurempi.

Lisätietoja
» Tietosuoja ja tutkittavan suostumus osallistua tutkimukseen
Seminaari Helsingissä 1.11.2017
» Tietosuoja-asetus
» Article 29 Working Party, Opinion 15/2011 on the definition of consent, WP187
» Information Commissioner’s Office: GDPR Consent Guide (draft)

Antti Ketola
lakimies, F.E.C.
etunimi.sukunimi [at] uta.fi

Aineistojen avoimuus saattaisi ratkaista monta lääketieteen tutkimuksen ongelmaa

Tutkimusaineistojen avoimuus on päivän trendi. Ehkä vähän yllättäen myös arkaluonteista tietoa sisältävien aineistojen avaamisen puolesta puhuu yhä useampi tutkija, ja lääketieteen julkaisut ovat alkaneet vaatia artikkelin julkaisijoita avaamaan tutkimusaineistonsa. Nyt on hyvä hetki istua alas ja pohtia syitä, joiden vuoksi aineistojen avoimuutta halutaan edistää terveys- ja lääketieteen tutkimuksen alalla.

En tässä kirjoituksessa kajoa tietosuojakysymyksiin tai aineistojen avaamisesta tutkittaville koituviin hyötyihin. Jälkimmäisestä aiheesta on tulossa Tietoarkistoblogiin oma kirjoitus, ja Euroopan unionin yleisen tietosuojan kansallinen tulkinta on vielä sen verran kesken, että tietosuoja-asiaan kannattaa paneutua vasta myöhemmin. Kannattaa seurata Tietoarkiston tapahtumia, esimerkiksi loka-marraskuussa on luvassa kaksi aiheeseen liittyvää seminaaria.

Sitten takaisin blogin varsinaiseen aiheeseen.

Kaikessa tutkimuksessa, ei pelkästään terveys- ja lääketieteissä, on ongelmallista, jos tutkimustuloksia ei pystytä toistamaan. Lääketieteissä toistettavuuden puute johtaa epävarmuuteen siitä, mikä olisi paras tapa hoitaa potilaita. Lääketieteissä seuraukset ovat siis moniin muihin tieteenaloihin verrattuna erityisen vakavia.

Toistettavuuden puute voi johtua monista tekijöistä. Aineisto voi olla liian pieni, jolloin tulokset voivat olla sattumalöydöksiä. Aineistossa tai sen analyysissa käytetyissä menetelmissä voi olla puutteita, joiden seurauksena löytyy eroja, joita ei todellisuudessa ole. Tai yhteyttä ei ole olemassakaan, mutta vasta kun takana on riittävän monta laadukasta tutkimusta, jotka eivät hypoteesia vahvista, voidaan todeta, ettei hypoteesi pitänyt paikkaansa.

Tutkimusaineistojen avoimuutta halutaan, koska se parantaa tutkimuksen laatua ja laadukkaammat tutkimukset johtavat parempaan toistettavuuteen. Epidemiologisesta tutkimuksesta voidaan siirtyä nopeammin varsinaisten syy-yhteyksien selvittämiseen. Yhtenäisistä tutkimustuloksista saadaan käypä hoito -suosituksia, joiden perustana on vahva näyttö vaikuttavuudesta. Meta-analyyseihin kun pätee sama ”garbage in, garbage out” -periaate kuin monella muullakin alalla: meta-analyysi tai systemaattinen kirjallisuuskatsaus voi olla vain niin hyvä kuin ovat ne alkuperäiset tutkimustulokset, joiden pohjalta analyysit ja koosteet tehdään.

Tutkimusaineistojen avoimuuden lisääntyminen mahdollistaa myös yhä useammin yksilötason potilastietoihin perustuvat individual patient data (IPD)-meta-analyysit sen sijaan, että jouduttaisiin tyytymään pelkkiin artikkeleiden tarjoamiin tunnuslukuihin. Avoimien aineistojen avulla tutkimuksen tuloksia voi vertailla helposti toisenlaiseen populaatioon, (jonka dataa ei ole analysoitu vielä ihan samalla tavalla) ja löydökset joko vahvistuvat tai osoittautuvat merkityksettömiksi.

Avoimesta tutkimusaineistosta voi myös varmistaa alkuperäiset tulokset ja käytettyjen menetelmien asianmukaisuuden. On valitettavan tavallista vaihtaa ja muokata alkuperäisen kiinnostuksen kohteina olleita tulosmuuttujia, päävasteita, parempien tulosten toivossa. Avoin data auttaa varmistamaan, että alun perin kiinnostavat vasteet myös analysoidaan ja tulokset julkaistaan. Dataväärennöksiä datojen avaaminen tuskin kokonaan lopettaa, mutta niiden tekeminen ainakin vaikeutuu.

Sitten on hyvin tunnettu ongelma, eli julkaisuharha. Negatiivisia tutkimustuloksia ei haluta julkaista, tai vaikka haluttaisiinkin, niitä ei välttämättä saa julkaistua. Lääketehdas voi olla halukas hautaamaan vakavia sivuvaikutuksia tuottaneen lääkkeen tutkimuksen kokonaan ja samaa lääkeainetta voi sitten testata jokin muu taho tietämättä jo todettuja haittavaikutuksia. Jos kaikkien rekisteröityjen tutkimusten aineistot on pakko avata, näitä negatiivisia kokeita ei ole yhtä helppo haudata.

Tehdyistä tutkimuksista voi ottaa myös oppia. Julkaistusta datasta voi saada lisätietoa siitä, mitä taustatekijöitä on syytä ottaa huomioon satunnaistettaessa tutkittavia ryhmiin. Datan saattaminen muiden tutkijoiden käyttöön auttaa saamaan aiheeseen uusia näkökulmia ja havaitsemaan millainen tutkimus toimii ja millainen ei. Kaiken kaikkiaan tarve tutkia samoja ilmiöitä, hoitoja ja lääkkeitä yhä uudelleen vähenee.

Avoimuuden sivuilmiönä tutkijat kertovat tekevänsä tutkimusaineiston avaamiseen tähtäävää tutkimusta huomaamattaan hieman huolellisemmin kuin tutkimusta, jonka aineisto ja menetelmät jäävät vain heidän omaan käyttöönsä. Kun tietää joutuvansa perustelemaan jokaisen päätöksen, tulee tarkasteltua tarkemmin menetelmällisiä valintoja, joita aiemmin on pitänyt itsestään selvinä.

Tutkimusaineistojen avoimuus ei siis ehkä korjaa kaikkia lääketieteen tutkimuksen ongelmia, mutta auttaa kyllä hyvin monen nujertamisessa.

Annaleena Okuloff
erikoissuunnittelija, THL
Tietoarkiston entinen terveystieteiden tieteenala-asiantuntija
fsd [at] uta.fi

Aineistojen avoimuus saattaisi ratkaista monta lääketieteen tutkimuksen ongelmaa

Tutkimusaineistojen avoimuus on päivän trendi. Ehkä vähän yllättäen myös arkaluonteista tietoa sisältävien aineistojen avaamisen puolesta puhuu yhä useampi tutkija, ja lääketieteen julkaisut ovat alkaneet vaatia artikkelin julkaisijoita avaamaan tutkimusaineistonsa. Nyt on hyvä hetki istua alas ja pohtia syitä, joiden vuoksi aineistojen avoimuutta halutaan edistää terveys- ja lääketieteen tutkimuksen alalla.

En tässä kirjoituksessa kajoa tietosuojakysymyksiin tai aineistojen avaamisesta tutkittaville koituviin hyötyihin. Jälkimmäisestä aiheesta on tulossa Tietoarkistoblogiin oma kirjoitus, ja Euroopan unionin yleisen tietosuojan kansallinen tulkinta on vielä sen verran kesken, että tietosuoja-asiaan kannattaa paneutua vasta myöhemmin. Kannattaa seurata Tietoarkiston tapahtumia, esimerkiksi loka-marraskuussa on luvassa kaksi aiheeseen liittyvää seminaaria.

Sitten takaisin blogin varsinaiseen aiheeseen.

Kaikessa tutkimuksessa, ei pelkästään terveys- ja lääketieteissä, on ongelmallista, jos tutkimustuloksia ei pystytä toistamaan. Lääketieteissä toistettavuuden puute johtaa epävarmuuteen siitä, mikä olisi paras tapa hoitaa potilaita. Lääketieteissä seuraukset ovat siis moniin muihin tieteenaloihin verrattuna erityisen vakavia.

Toistettavuuden puute voi johtua monista tekijöistä. Aineisto voi olla liian pieni, jolloin tulokset voivat olla sattumalöydöksiä. Aineistossa tai sen analyysissa käytetyissä menetelmissä voi olla puutteita, joiden seurauksena löytyy eroja, joita ei todellisuudessa ole. Tai yhteyttä ei ole olemassakaan, mutta vasta kun takana on riittävän monta laadukasta tutkimusta, jotka eivät hypoteesia vahvista, voidaan todeta, ettei hypoteesi pitänyt paikkaansa.

Tutkimusaineistojen avoimuutta halutaan, koska se parantaa tutkimuksen laatua ja laadukkaammat tutkimukset johtavat parempaan toistettavuuteen. Epidemiologisesta tutkimuksesta voidaan siirtyä nopeammin varsinaisten syy-yhteyksien selvittämiseen. Yhtenäisistä tutkimustuloksista saadaan käypä hoito -suosituksia, joiden perustana on vahva näyttö vaikuttavuudesta. Meta-analyyseihin kun pätee sama ”garbage in, garbage out” -periaate kuin monella muullakin alalla: meta-analyysi tai systemaattinen kirjallisuuskatsaus voi olla vain niin hyvä kuin ovat ne alkuperäiset tutkimustulokset, joiden pohjalta analyysit ja koosteet tehdään.

Tutkimusaineistojen avoimuuden lisääntyminen mahdollistaa myös yhä useammin yksilötason potilastietoihin perustuvat individual patient data (IPD)-meta-analyysit sen sijaan, että jouduttaisiin tyytymään pelkkiin artikkeleiden tarjoamiin tunnuslukuihin. Avoimien aineistojen avulla tutkimuksen tuloksia voi vertailla helposti toisenlaiseen populaatioon, (jonka dataa ei ole analysoitu vielä ihan samalla tavalla) ja löydökset joko vahvistuvat tai osoittautuvat merkityksettömiksi.

Avoimesta tutkimusaineistosta voi myös varmistaa alkuperäiset tulokset ja käytettyjen menetelmien asianmukaisuuden. On valitettavan tavallista vaihtaa ja muokata alkuperäisen kiinnostuksen kohteina olleita tulosmuuttujia, päävasteita, parempien tulosten toivossa. Avoin data auttaa varmistamaan, että alun perin kiinnostavat vasteet myös analysoidaan ja tulokset julkaistaan. Dataväärennöksiä datojen avaaminen tuskin kokonaan lopettaa, mutta niiden tekeminen ainakin vaikeutuu.

Sitten on hyvin tunnettu ongelma, eli julkaisuharha. Negatiivisia tutkimustuloksia ei haluta julkaista, tai vaikka haluttaisiinkin, niitä ei välttämättä saa julkaistua. Lääketehdas voi olla halukas hautaamaan vakavia sivuvaikutuksia tuottaneen lääkkeen tutkimuksen kokonaan ja samaa lääkeainetta voi sitten testata jokin muu taho tietämättä jo todettuja haittavaikutuksia. Jos kaikkien rekisteröityjen tutkimusten aineistot on pakko avata, näitä negatiivisia kokeita ei ole yhtä helppo haudata.

Tehdyistä tutkimuksista voi ottaa myös oppia. Julkaistusta datasta voi saada lisätietoa siitä, mitä taustatekijöitä on syytä ottaa huomioon satunnaistettaessa tutkittavia ryhmiin. Datan saattaminen muiden tutkijoiden käyttöön auttaa saamaan aiheeseen uusia näkökulmia ja havaitsemaan millainen tutkimus toimii ja millainen ei. Kaiken kaikkiaan tarve tutkia samoja ilmiöitä, hoitoja ja lääkkeitä yhä uudelleen vähenee.

Avoimuuden sivuilmiönä tutkijat kertovat tekevänsä tutkimusaineiston avaamiseen tähtäävää tutkimusta huomaamattaan hieman huolellisemmin kuin tutkimusta, jonka aineisto ja menetelmät jäävät vain heidän omaan käyttöönsä. Kun tietää joutuvansa perustelemaan jokaisen päätöksen, tulee tarkasteltua tarkemmin menetelmällisiä valintoja, joita aiemmin on pitänyt itsestään selvinä.

Tutkimusaineistojen avoimuus ei siis ehkä korjaa kaikkia lääketieteen tutkimuksen ongelmia, mutta auttaa kyllä hyvin monen nujertamisessa.

Annaleena Okuloff
erikoissuunnittelija, THL
Tietoarkiston entinen terveystieteiden tieteenala-asiantuntija
fsd [at] uta.fi

Näin anonymisoit kvalitatiivisen tutkimusaineistosi

Kvalitatiivisissa tutkimusaineistoissa, esimerkiksi haastattelu- ja kirjoitusaineistoissa, tutkittavat kertovat usein itsestään ja läheisistään avoimesti yksityiskohtaisia tietoja. Lain mukaan henkilötiedot eivät saa vuotaa ulkopuolisille, joten aineistot täytyy anonymisoida huolellisesti ennen kuin ne voi arkistoida jatkokäyttöä varten.

Lähes kaikki suomalaiset yliopistot ja monet tutkimusrahoittajat suosittelevat tai vaativat, että tutkijat avaavat aineistonsa, joten anonymisointiosaaminen alkaa kuulua kvalitatiivisia aineistoja keräävän tutkijan perustaitoihin.

Tietoarkisto ja Avoin tiede ja tutkimus -hanke järjestivät 5. huhtikuuta Tutkimusaineistojen anonymisointi -seminaarin jossa käsiteltiin sekä kvantitatiivisten että kvalitatiivisten aineistojen anonymisointikeinoja.

Seminaarin esityksiin voi tutustua tapahtuman sivulla julkaistujen diojen ja esitysvideoiden avulla. Täsmällisempiä anonymisointivinkkejä kaipaavan kannattaa tutustua myös Aineistonhallinnan käsikirjaan.

Tässä blogikirjoituksessa käyn Tietoarkiston tieteenala-asiantuntijan Katja Fältin ja Tietoarkiston tutkimusapulaisen Emilia Lehdon seminaariesitysten perusteella läpi kvalitatiivisen aineiston tavallisimpia anonymisointikäytäntöjä.

Kaikki elävään ihmiseen liittyvät tiedot voivat olla henkilötietoja

Aivan ensimmäiseksi on olennaista ymmärtää, milloin aineisto vaatii anonymisoimista, eli mitkä kaikki tiedot aineistossa ovat lain mukaan henkilötietoja.

Henkilötietolaissa määritelmä on varsin laaja: henkilötietoja ovat kaikki elävää ihmistä, hänen ominaisuuksiaan tai elinolosuhteitaan kuvaavat merkinnät, joista henkilö, hänen perheensä tai hänen kanssaan yhteisessä taloudessa elävät ihmiset voidaan tunnistaa. Toisin sanoen lähes kaikki elävään ihmiseen liittyvät tiedot voivat olla henkilötietoja.

Käytännössä tiedot lasketaan henkilötiedoiksi kuitenkin vain silloin, kun niiden perusteella voidaan tunnistaa aineistosta yksittäinen henkilö. Tunnistamisen mahdollistavat tiedot, eli tunnisteet on jaettu suoriin ja epäsuoriin tunnisteisiin. Epäsuorat tunnisteet on lisäksi jaoteltu vahvoihin epäsuoriin tunnisteisiin ja epäsuoriin tunnisteisiin.

Suorat tunnisteet riittävät yksin tutkittavan tunnistamiseen, eli niiden lisäksi ei tarvita mitään muita tietoja. Suoria tunnisteita ovat esimerkiksi koko nimi, henkilönimen mukainen sähköpostiosoite ja biometriset tunnisteet kuten sormenjälki tai ääni.

Vahvat epäsuorat tunnisteet ovat tietoja, jotka eivät suoraan kerro kuka henkilö on, mutta henkilöllisyyden selvittäminen niiden perusteella on hyvin helppoa. Tällaisia ovat esimerkiksi osoite, auton rekisterinumero, harvinainen ammattinimike tai harvinainen sairaus.

Epäsuoriksi tunnisteiksi voidaan laskea monenlaiset henkilöstä kertovat tiedot, kuten sukupuoli, ikä, asuinkunta ja ammattinimike. Epäsuorat tunnisteet eivät yleensä yksin riitä tutkittavan tunnistamiseen, mutta useammat epäsuorat tunnisteet saattavat yhdessä mahdollistaa tutkittavan tunnistamisen.

Tietoarkiston humanististen tieteiden tieteenala-asiantuntija Katja Fält kertoi seminaarissa kvalitatiivisten aineistojen anonymisoimisesta teoreettisella tasolla. (Kuva: Kaisa Järvelä).

Poista aineistosta kaikki tarpeettomat tunnisteet

Aineisto on anonyymi silloin, kun yksittäisiä henkilöitä ei voida tunnistaa siitä kohtuullisesti toteutettavissa olevilla toimenpiteillä. Haastateltavien omien tietojen lisäksi on tärkeää muistaa poistaa aineistosta myös kolmansia henkilöitä koskevat tunnisteet. Laadullisissa aineistoissa näitä voi olla paljonkin, jos esimerkiksi tutkittava mainitsee haastattelussa perheenjäseniään, naapureitaan tai työkavereitaan.

Yleisenä ohjeena anonymisoinnissa voi pitää sitä, että aineistosta täytyy poistaa kaikki tarpeettomat tunnisteet. Tunnisteellisten tietojen käsitteleminen ja aineiston anonymisoiminen täytyy kuitenkin suunnitella aina aineistokohtaisesti. Jokainen tutkimusaineisto on yksilöllinen, ja joissain aineistoissa tunnistetietoja on esimerkiksi selvästi enemmän kuin toisissa.

Ennen anonymisoinnin aloittamista aineistolle onkin hyvä laatia konkreettinen anonymisointisuunnitelma. Suunnitelmaan kannattaa kirjata ainakin, mitä anonymisointitoimenpiteitä aineistolle aikoo tehdä. Lisäksi suunnitelmassa kannattaa kuvailla esimerkiksi se, miten tutkittavia on informoitu ja millä tavalla aineistoa on mahdollisesti aiemmin muokattu.

Anonymisoinnin yleinen periaate on, että suorat tunnisteet ja vahvat epäsuorat tunnisteet poistetaan aineistoista aina kokonaan. Tämän lisäksi myös epäsuorat tunnisteet vaativat yleensä vähintään jonkin verran käsittelemistä.

Joissain poikkeustapauksissa voi kuitenkin olla mahdollista jättää arkistoitavaan aineistoon jopa haastateltavan koko nimi. Näin on esimerkiksi silloin, jos haastateltava on ammattipoliitikko, haastattelu koskee politiikkaa ja haastateltava on antanut luvan nimensä julkaisemiseen.

Epäsuorien tunnisteiden kohdalla on tärkeää ottaa huomioon aina myös se, mitä tietoja tutkittavasta voi saada aineiston ulkopuolelta, esimerkiksi sosiaalisesta mediasta tai muualta internetistä.

Yksinkertaisimmillaan anonymisointi on tietojen poistamista

Tyypillisimmät laadullisen aineiston anonymisointikeinot ovat tietojen poistaminen, pseudonymisointi, kategorisointi ja tunnistetietojen vaihtaminen. Tavallisesti yksittäisen aineiston anonymisointiin joudutaan käyttämään useaa mainituista keinoista.

Yksinkertaisimmillaan tietojen poistaminen tarkoittaa suorien ja vahvojen epäsuorien tunnisteiden poistamista sekä taustamuuttujista että haastattelulitteraatioista tai esimerkiksi kilpakirjoitusteksteistä.

Haastatteluista on mahdollista poistaa yksittäisten tunnisteiden lisäksi myös pidempiä pätkiä, jos haastateltava harhautuu kertomaan itsestään yksilöiviä arkaluonteisia tietoja. Tämä on perusteltua etenkin silloin, kun tiedot eivät ole tutkimuksen varsinaisena kohteena.

Poistettavia, eli kokonaan hävitettäviä tietoja ovat myös kaikki aineistoon liittyvät, tunnisteita sisältävät taustamateriaalit. Tiedostoista on syytä tarkistaa, onko niissä piilotettuja teknisiä tietoja, esimerkiksi kuvatiedostojen tekijä- tai paikkatietoja.

Voisiko tiedon pseudonymisoida, karkeistaa tai vaihtaa?

Haastatteluissa ja kirjoitusaineistoissa henkilönimien pseudonymisointi on usein aineiston ymmärrettävyyden kannalta parempi vaihtoehto kuin se, että nimet poistettaisiin kokonaan.

Pseudonymisointi tarkoittaa sitä, että henkilönimet vaihdetaan peitenimiksi eli pseudonyymeiksi. Haastateltavana olleesta Matista voi siis tehdä esimerkiksi Pekan ja hänen Anna-vaimostaan Liisan. Pseudonymisointi täytyy suunnitella johdonmukaisesti niin, että sama henkilö esiintyy aineistossa alusta loppuun asti samalla peitenimellä.

Kategorisointia eli tietojen karkeistamista tehdään paljon esimerkiksi aineiston taustatiedoille. Taustatietojen kohdalla kategorisoiminen on yleensä parempi vaihtoehto kuin tietojen poistaminen, sillä aineiston tulkitseminen ja ymmärtäminen ilman taustatietoja olisi vaikeaa.

Haastatteluista tai kirjoitusaineistoista voidaan joissain tapauksissa karkeistaa myös esimerkiksi henkilönimiä. Tämä on järkevää silloin, kun henkilö esiintyy aineistossa korkeintaan pari kertaa eikä ole keskeinen aineiston sisällön kannalta. Esimerkiksi sivulauseessa mainitun Marjatta-naapurin voi hyvin muuttaa pelkäksi naapuriksi.

Useimmiten kategorisointia vaativat myös kaikki kirjoituksissa tai haastatteluissa esiintyvät yksilöivät ammattinimikkeet, toimipaikat, oppilaitokset ja paikkakunnat. Näiden luokittelemisessa kannattaa käyttää apuna Tilastokeskuksen valmiita luokituksia.

Joissain tapauksissa paras vaihtoehto on vaihtaa tekstissä esiintyvä yksilöivä tunnistetieto toiseksi. Aineiston ymmärtämisen kannalta voi esimerkiksi olla olennaista kertoa, että henkilö on syntynyt jouluaattona. Jotta tarkka syntymäaika ei paljastuisi, henkilön syntymävuotta on tällaisessa tapauksessa mahdollista muuttaa pari vuotta myöhemmäksi tai aikaisemmaksi.

Käytännössä anonymisointi voi sujua vaikka näin

Emilia Lehto konkretisoi laadullisen aineiston anonymisoimista seminaarissa kahden aineistoesimerkin avulla. Toinen esimerkkiaineistoista oli Tietoarkistoon tallennettu Erityislapsiperheiden tukiverkostot -kysely.

Tietoarkiston tutkimusapulainen, laadullisia aineistoja työkseen anonymisoiva, Emilia Lehto, kertoi anonymisoimisesta konkreettisten aineistoesimerkkien kautta. (Kuva: Kaisa Järvelä).

Aineistossa vastaajilta oli kysytty taustatiedoiksi heidän rooliansa (esim. äiti), ikäänsä, ammattiansa, siviilisäätyänsä, perheen lasten lukumäärää ja lasten ikiä sekä sitä, kuka lapsista on erityislapsi (esimerkiksi poika, 1. lapsi). Taustatiedoista kategorisoitiin vastaajan ikä ja ammatti. Jos siis haastateltavana olevan äidin ammatti oli esimerkiksi kätilö, ammatti karkeistettiin Tilastokeskuksen luokituksen mukaan [terveydenhuollon ammattilaiseksi]. Ikä luokiteltiin viiden vuoden tarkkuudella.

Tutkittavat käyttivät haastatteluissa paljon erityislastensa ja näiden sisarusten nimiä. Nämä korvattiin aineistossa pseudonyymeillä. Paikkakuntien nimet kategorisoitiin niin, että esimerkiksi Nokia muuttui [kaupunkimaiseksi kunnaksi Pirkanmaalla]. Yksityisen päiväkodin nimi poistettiin aineistosta kokonaan ja siihen viitattiin vain termillä päiväkoti. Jos esimerkiksi päiväkoteja esiintyi samassa haastattelussa useampia, ne erotettiin toisistaan kirjaimin, esimerkiksi näin: [päiväkoti A nimi poistettu].

Epäsuorien tunnisteiden kohdalla huomioitiin myös se, voiko tutkittavan henkilöllisyys paljastua, jos tunnisteen yhdistää muualta saatavilla oleviin tietoihin. Eräs äiti esimerkiksi puhui haastattelussa perheensä matkasta Kroatiaan. Tarkka matkakohde karkeistettiin lomamatkaksi [Eurooppaan], koska äiti oli saattanut julkaista tiedon perheen Kroatian-matkasta sosiaalisessa mediassa. Lehto vinkkasi, että jos hän itse ei ole varma, voiko jokin tunniste johdattaa muualta saatavaan tietoon yhdistettynä henkilön jäljille vai ei, hän tekee kokeeksi muutaman yksinkertaisen google-haun.

Kvalitatiiviset aineistot ovat usein huomattavasti työläämpiä anonymisoitavia kuin kvantitatiiviset aineistot. Tietoarkistossa kuitenkin toivomme, että myös kvalitatiiviset aineistot toimitetaan arkistoitavaksi mahdollisimman pitkälle anonymisoituina.

Lopullisen vastuun aineiston anonymiteetista otamme silti me. Tarkistamme kaikki aineistot ja käsittelemme niitä vielä niin, että ne ovat Ailaan päätyessään varmasti täysin anonyymeja.

Lisätietoja
» Seminaarin sivulta löydät esitysdiat ja myöhemmin myös videot
» Aineistonhallinnan käsikirja: Tunnisteellisuus ja anonymisointi

Vastaavan tekstin kvantitatiivisten aineistojen anonymisoinnista voi lukea myös Tietoarkistoblogista.

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Näin anonymisoit kvalitatiivisen tutkimusaineistosi

Kvalitatiivisissa tutkimusaineistoissa, esimerkiksi haastattelu- ja kirjoitusaineistoissa, tutkittavat kertovat usein itsestään ja läheisistään avoimesti yksityiskohtaisia tietoja. Lain mukaan henkilötiedot eivät saa vuotaa ulkopuolisille, joten aineistot täytyy anonymisoida huolellisesti ennen kuin ne voi arkistoida jatkokäyttöä varten.

Lähes kaikki suomalaiset yliopistot ja monet tutkimusrahoittajat suosittelevat tai vaativat, että tutkijat avaavat aineistonsa, joten anonymisointiosaaminen alkaa kuulua kvalitatiivisia aineistoja keräävän tutkijan perustaitoihin.

Tietoarkisto ja Avoin tiede ja tutkimus -hanke järjestivät 5. huhtikuuta Tutkimusaineistojen anonymisointi -seminaarin jossa käsiteltiin sekä kvantitatiivisten että kvalitatiivisten aineistojen anonymisointikeinoja.

Seminaarin esityksiin voi tutustua tapahtuman sivulla julkaistujen diojen ja esitysvideoiden avulla. Täsmällisempiä anonymisointivinkkejä kaipaavan kannattaa tutustua myös Aineistonhallinnan käsikirjaan.

Tässä blogikirjoituksessa käyn Tietoarkiston tieteenala-asiantuntijan Katja Fältin ja Tietoarkiston tutkimusapulaisen Emilia Lehdon seminaariesitysten perusteella läpi kvalitatiivisen aineiston tavallisimpia anonymisointikäytäntöjä.

Kaikki elävään ihmiseen liittyvät tiedot voivat olla henkilötietoja

Aivan ensimmäiseksi on olennaista ymmärtää, milloin aineisto vaatii anonymisoimista, eli mitkä kaikki tiedot aineistossa ovat lain mukaan henkilötietoja.

Henkilötietolaissa määritelmä on varsin laaja: henkilötietoja ovat kaikki elävää ihmistä, hänen ominaisuuksiaan tai elinolosuhteitaan kuvaavat merkinnät, joista henkilö, hänen perheensä tai hänen kanssaan yhteisessä taloudessa elävät ihmiset voidaan tunnistaa. Toisin sanoen lähes kaikki elävään ihmiseen liittyvät tiedot voivat olla henkilötietoja.

Käytännössä tiedot lasketaan henkilötiedoiksi kuitenkin vain silloin, kun niiden perusteella voidaan tunnistaa aineistosta yksittäinen henkilö. Tunnistamisen mahdollistavat tiedot, eli tunnisteet on jaettu suoriin ja epäsuoriin tunnisteisiin. Epäsuorat tunnisteet on lisäksi jaoteltu vahvoihin epäsuoriin tunnisteisiin ja epäsuoriin tunnisteisiin.

Suorat tunnisteet riittävät yksin tutkittavan tunnistamiseen, eli niiden lisäksi ei tarvita mitään muita tietoja. Suoria tunnisteita ovat esimerkiksi koko nimi, henkilönimen mukainen sähköpostiosoite ja biometriset tunnisteet kuten sormenjälki tai ääni.

Vahvat epäsuorat tunnisteet ovat tietoja, jotka eivät suoraan kerro kuka henkilö on, mutta henkilöllisyyden selvittäminen niiden perusteella on hyvin helppoa. Tällaisia ovat esimerkiksi osoite, auton rekisterinumero, harvinainen ammattinimike tai harvinainen sairaus.

Epäsuoriksi tunnisteiksi voidaan laskea monenlaiset henkilöstä kertovat tiedot, kuten sukupuoli, ikä, asuinkunta ja ammattinimike. Epäsuorat tunnisteet eivät yleensä yksin riitä tutkittavan tunnistamiseen, mutta useammat epäsuorat tunnisteet saattavat yhdessä mahdollistaa tutkittavan tunnistamisen.

Tietoarkiston humanististen tieteiden tieteenala-asiantuntija Katja Fält kertoi seminaarissa kvalitatiivisten aineistojen anonymisoimisesta teoreettisella tasolla. (Kuva: Kaisa Järvelä).

Poista aineistosta kaikki tarpeettomat tunnisteet

Aineisto on anonyymi silloin, kun yksittäisiä henkilöitä ei voida tunnistaa siitä kohtuullisesti toteutettavissa olevilla toimenpiteillä. Haastateltavien omien tietojen lisäksi on tärkeää muistaa poistaa aineistosta myös kolmansia henkilöitä koskevat tunnisteet. Laadullisissa aineistoissa näitä voi olla paljonkin, jos esimerkiksi tutkittava mainitsee haastattelussa perheenjäseniään, naapureitaan tai työkavereitaan.

Yleisenä ohjeena anonymisoinnissa voi pitää sitä, että aineistosta täytyy poistaa kaikki tarpeettomat tunnisteet. Tunnisteellisten tietojen käsitteleminen ja aineiston anonymisoiminen täytyy kuitenkin suunnitella aina aineistokohtaisesti. Jokainen tutkimusaineisto on yksilöllinen, ja joissain aineistoissa tunnistetietoja on esimerkiksi selvästi enemmän kuin toisissa.

Ennen anonymisoinnin aloittamista aineistolle onkin hyvä laatia konkreettinen anonymisointisuunnitelma. Suunnitelmaan kannattaa kirjata ainakin, mitä anonymisointitoimenpiteitä aineistolle aikoo tehdä. Lisäksi suunnitelmassa kannattaa kuvailla esimerkiksi se, miten tutkittavia on informoitu ja millä tavalla aineistoa on mahdollisesti aiemmin muokattu.

Anonymisoinnin yleinen periaate on, että suorat tunnisteet ja vahvat epäsuorat tunnisteet poistetaan aineistoista aina kokonaan. Tämän lisäksi myös epäsuorat tunnisteet vaativat yleensä vähintään jonkin verran käsittelemistä.

Joissain poikkeustapauksissa voi kuitenkin olla mahdollista jättää arkistoitavaan aineistoon jopa haastateltavan koko nimi. Näin on esimerkiksi silloin, jos haastateltava on ammattipoliitikko, haastattelu koskee politiikkaa ja haastateltava on antanut luvan nimensä julkaisemiseen.

Epäsuorien tunnisteiden kohdalla on tärkeää ottaa huomioon aina myös se, mitä tietoja tutkittavasta voi saada aineiston ulkopuolelta, esimerkiksi sosiaalisesta mediasta tai muualta internetistä.

Yksinkertaisimmillaan anonymisointi on tietojen poistamista

Tyypillisimmät laadullisen aineiston anonymisointikeinot ovat tietojen poistaminen, pseudonymisointi, kategorisointi ja tunnistetietojen vaihtaminen. Tavallisesti yksittäisen aineiston anonymisointiin joudutaan käyttämään useaa mainituista keinoista.

Yksinkertaisimmillaan tietojen poistaminen tarkoittaa suorien ja vahvojen epäsuorien tunnisteiden poistamista sekä taustamuuttujista että haastattelulitteraatioista tai esimerkiksi kilpakirjoitusteksteistä.

Haastatteluista on mahdollista poistaa yksittäisten tunnisteiden lisäksi myös pidempiä pätkiä, jos haastateltava harhautuu kertomaan itsestään yksilöiviä arkaluonteisia tietoja. Tämä on perusteltua etenkin silloin, kun tiedot eivät ole tutkimuksen varsinaisena kohteena.

Poistettavia, eli kokonaan hävitettäviä tietoja ovat myös kaikki aineistoon liittyvät, tunnisteita sisältävät taustamateriaalit. Tiedostoista on syytä tarkistaa, onko niissä piilotettuja teknisiä tietoja, esimerkiksi kuvatiedostojen tekijä- tai paikkatietoja.

Voisiko tiedon pseudonymisoida, karkeistaa tai vaihtaa?

Haastatteluissa ja kirjoitusaineistoissa henkilönimien pseudonymisointi on usein aineiston ymmärrettävyyden kannalta parempi vaihtoehto kuin se, että nimet poistettaisiin kokonaan.

Pseudonymisointi tarkoittaa sitä, että henkilönimet vaihdetaan peitenimiksi eli pseudonyymeiksi. Haastateltavana olleesta Matista voi siis tehdä esimerkiksi Pekan ja hänen Anna-vaimostaan Liisan. Pseudonymisointi täytyy suunnitella johdonmukaisesti niin, että sama henkilö esiintyy aineistossa alusta loppuun asti samalla peitenimellä.

Kategorisointia eli tietojen karkeistamista tehdään paljon esimerkiksi aineiston taustatiedoille. Taustatietojen kohdalla kategorisoiminen on yleensä parempi vaihtoehto kuin tietojen poistaminen, sillä aineiston tulkitseminen ja ymmärtäminen ilman taustatietoja olisi vaikeaa.

Haastatteluista tai kirjoitusaineistoista voidaan joissain tapauksissa karkeistaa myös esimerkiksi henkilönimiä. Tämä on järkevää silloin, kun henkilö esiintyy aineistossa korkeintaan pari kertaa eikä ole keskeinen aineiston sisällön kannalta. Esimerkiksi sivulauseessa mainitun Marjatta-naapurin voi hyvin muuttaa pelkäksi naapuriksi.

Useimmiten kategorisointia vaativat myös kaikki kirjoituksissa tai haastatteluissa esiintyvät yksilöivät ammattinimikkeet, toimipaikat, oppilaitokset ja paikkakunnat. Näiden luokittelemisessa kannattaa käyttää apuna Tilastokeskuksen valmiita luokituksia.

Joissain tapauksissa paras vaihtoehto on vaihtaa tekstissä esiintyvä yksilöivä tunnistetieto toiseksi. Aineiston ymmärtämisen kannalta voi esimerkiksi olla olennaista kertoa, että henkilö on syntynyt jouluaattona. Jotta tarkka syntymäaika ei paljastuisi, henkilön syntymävuotta on tällaisessa tapauksessa mahdollista muuttaa pari vuotta myöhemmäksi tai aikaisemmaksi.

Käytännössä anonymisointi voi sujua vaikka näin

Emilia Lehto konkretisoi laadullisen aineiston anonymisoimista seminaarissa kahden aineistoesimerkin avulla. Toinen esimerkkiaineistoista oli Tietoarkistoon tallennettu Erityislapsiperheiden tukiverkostot -kysely.

Tietoarkiston tutkimusapulainen, laadullisia aineistoja työkseen anonymisoiva, Emilia Lehto, kertoi anonymisoimisesta konkreettisten aineistoesimerkkien kautta. (Kuva: Kaisa Järvelä).

Aineistossa vastaajilta oli kysytty taustatiedoiksi heidän rooliansa (esim. äiti), ikäänsä, ammattiansa, siviilisäätyänsä, perheen lasten lukumäärää ja lasten ikiä sekä sitä, kuka lapsista on erityislapsi (esimerkiksi poika, 1. lapsi). Taustatiedoista kategorisoitiin vastaajan ikä ja ammatti. Jos siis haastateltavana olevan äidin ammatti oli esimerkiksi kätilö, ammatti karkeistettiin Tilastokeskuksen luokituksen mukaan [terveydenhuollon ammattilaiseksi]. Ikä luokiteltiin viiden vuoden tarkkuudella.

Tutkittavat käyttivät haastatteluissa paljon erityislastensa ja näiden sisarusten nimiä. Nämä korvattiin aineistossa pseudonyymeillä. Paikkakuntien nimet kategorisoitiin niin, että esimerkiksi Nokia muuttui [kaupunkimaiseksi kunnaksi Pirkanmaalla]. Yksityisen päiväkodin nimi poistettiin aineistosta kokonaan ja siihen viitattiin vain termillä päiväkoti. Jos esimerkiksi päiväkoteja esiintyi samassa haastattelussa useampia, ne erotettiin toisistaan kirjaimin, esimerkiksi näin: [päiväkoti A nimi poistettu].

Epäsuorien tunnisteiden kohdalla huomioitiin myös se, voiko tutkittavan henkilöllisyys paljastua, jos tunnisteen yhdistää muualta saatavilla oleviin tietoihin. Eräs äiti esimerkiksi puhui haastattelussa perheensä matkasta Kroatiaan. Tarkka matkakohde karkeistettiin lomamatkaksi [Eurooppaan], koska äiti oli saattanut julkaista tiedon perheen Kroatian-matkasta sosiaalisessa mediassa. Lehto vinkkasi, että jos hän itse ei ole varma, voiko jokin tunniste johdattaa muualta saatavaan tietoon yhdistettynä henkilön jäljille vai ei, hän tekee kokeeksi muutaman yksinkertaisen google-haun.

Kvalitatiiviset aineistot ovat usein huomattavasti työläämpiä anonymisoitavia kuin kvantitatiiviset aineistot. Tietoarkistossa kuitenkin toivomme, että myös kvalitatiiviset aineistot toimitetaan arkistoitavaksi mahdollisimman pitkälle anonymisoituina.

Lopullisen vastuun aineiston anonymiteetista otamme silti me. Tarkistamme kaikki aineistot ja käsittelemme niitä vielä niin, että ne ovat Ailaan päätyessään varmasti täysin anonyymeja.

Lisätietoja
» Seminaarin sivulta löydät esitysdiat ja myöhemmin myös videot
» Aineistonhallinnan käsikirja: Tunnisteellisuus ja anonymisointi

Vastaavan tekstin kvantitatiivisten aineistojen anonymisoinnista voi lukea myös Tietoarkistoblogista.

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Näin anonymisoit kvantitatiiviset aineistosi

Ihmistieteiden tutkimusaineistot sisältävät aina enemmän tai vähemmän henkilötietoja. Henkilötietolain mukaan tunnisteellista aineistoa voi käyttää tutkimukseen, jos se on välttämätöntä, tarkoituksenmukaista, suunniteltua ja asiallisesti perusteltua. Tutkittavia koskevat tiedot eivät kuitenkaan missään tapauksessa saa vuotaa ulkopuolisille.

Viimeistään aineiston arkistointivaiheessa tunnisteet täytyy hävittää, jos tunnisteellisen aineiston arkistoimiseen ei ole erillistä Kansallisarkistolta anottua lupaa. Useimmat suomalaiset yliopistot ja tutkimusrahoittajat kannustavat aineistojen arkistoimiseen ja avaamiseen, eli anonymisointiosaaminen alkaa kuulua jokaisen tutkijan perustaitoihin.

Anonymisointikoulutukselle onkin Suomessa selvästi tarvetta, sillä Tietoarkiston ja ATT-hankkeen huhtikuussa Tampereella järjestämään Tutkimusaineistojen anonymisointi -seminaariin ilmoittautui lähes 350 osallistujaa ympäri maata.

Seminaarin esitysdioihin voi tutustua verkossa tapahtuman sivuilla, ja myös esityksistä kuvatut videot ovat tulossa julki samalle sivulle.

Tässä blogikirjoituksessa käyn seminaariesitysten perusteella läpi määrällisen aineiston anonymisointikäytäntöjä. Kun oman aineiston anonymisointi tulee ajankohtaiseksi, yksityiskohtaisempia ohjeita kannattaa käydä lukemassa vielä Tietoarkiston Aineistonhallinnan käsikirjasta.

Tietoarkistossa toivomme, että meille toimitettavat aineistot ovat valmiiksi anonymisoituja. Tarkastamme kuitenkin kaikki aineistot, ja käsittelemme niitä usein vielä jonkin verran niin, että Ailassa julkaistavat aineistot ovat varmasti täysin anonyymeja.

Kaikki elävää ihmistä koskevat tiedot ovat henkilötietoja

Aivan ensimmäiseksi tunnisteellista aineistoa anonymisoivan tutkijan täytyy ymmärtää, mitkä tiedot ovat henkilötietoja. Tätä aihetta avasi seminaarissa Tietoarkiston kehittämispäällikkö Arja Kuula-Luumi.

Tiivistetysti voi sanoa, että henkilötiedoiksi lasketaan kaikki elävää ihmistä koskevat tiedot. Sellainen voi olla esimerkiksi tutkittavan tai tämän läheisen ominaisuus, tutkittavan elinolosuhteita koskeva maininta tai vaikkapa tutkittavan mielipide.

Tämä ei onneksi kuitenkaan tarkoita, että esimerkiksi kaikki tutkittavan esittämät mielipiteet pitäisi poistaa aineistosta ennen kuin sen voi arkistoida. Tutkittavia koskevat tiedot lasketaan henkilötiedoksi vain silloin, kun yksilö on tunnistettavissa aineistosta. Aineiston anonymisoiminen tarkoittaakin sitä, että aineistosta poistetaan, luokitellaan tai muutetaan sellaiset tiedot, joiden avulla yksilön voi tunnistaa ja esimerkiksi aineistossa esitetyt mielipiteet yhdistää tietyn yksilön mielipiteiksi.

EU:n uuden tietosuoja-asetuksen mukaan henkilö on tunnistettavissa silloin, kun hänet voidaan tunnistaa suoraan tai epäsuorasti tunnistetietojen perusteella. Käytännössä suorat tunnistetiedot tarkoittavat tietoja, jotka riittävät yksin henkilön tunnistamiseen, vaikka hänestä ei kerrottaisi mitään muuta. Suoria tunnisteita ovat siis esimerkiksi koko nimi ja henkilötunnus.

Epäsuorat tunnisteet on jaoteltu vahvoihin epäsuoriin tunnisteisiin ja epäsuoriin tunnisteisiin. Vahvat epäsuorat tunnisteet eivät viittaa suoraan henkilöön, mutta niiden avulla voi helposti selvittää, kenestä henkilöstä on kyse. Vahva epäsuora tunniste voisi siis olla esimerkiksi auton rekisterinumero, jonka avulla on mahdollista suoraan selvittää auton omistaja.

Epäsuorat tunnisteet eivät yksin paljasta henkilöllisyyttä, mutta saattavat muihin tietoihin yhdistettynä mahdollistaa henkilön tunnistamisen. Tällaisia ovat esimerkiksi ikä, sukupuoli ja asuinpaikka sekä lukuisat muut fyysiset, psyykkiset, taloudelliset ja sosiaaliset tekijät.

Tunnistettavuutta miettiessä on olennaista ottaa huomioon myös se, mitä tietoja henkilöstä on saatavilla muualta kuin omasta aineistosta. Moni paljastaa itsestään paljon sosiaalisessa mediassa. Lisäksi esimerkiksi julkiset asiakirjat ja järjestöjen verkkosivut voivat tarjota monenlaisia tietoja.

Tietoarkiston kehittämispäällikkö Arja Kuula-Luumi piti seminaarissa esityksen aiheesta Tietosuoja tutkimuksessa. (Kuva: Kaisa Järvelä).

Anonymisointi on aina peruuttamaton

Yksi olennainen asia on ymmärtää, että aineiston pseudonymisointi ja anonymisointi ovat eri asioita. Jos tutkijat analysoivat aineistoa ilman tunnisteita, mutta säilyttävät tunnistetiedot ja koodiavaimen itsellään, aineisto ei ole anonyymi vaan pseudonyymi, eikä sitä voi esimerkiksi arkistoida sellaisenaan jatkokäyttöä varten.

Lain mukaan aineisto on anonyymi vasta silloin, kun siitä ei voi tunnistaa yksittäisiä tutkittavia millään kohtuullisesti toteutettavissa olevalla keinolla. Tietosuoja-asetuksen mukaan kohtuullisuutta tulee arvioida tunnistamisesta aiheutuvien kulujen, tunnistamiseen tarvittavan ajan ja käytettävissä olevan teknologian näkökulmista.

EU:n tietosuojatyöryhmä neuvoo arvioimaan aineiston tunnisteellisuutta kolmesta näkökulmasta:

  1. Onko yksilö edelleen mahdollista erottaa joukosta?
  2. Onko tietojen yhdistäminen yksilöön mahdollista?
    ja
  3. Voidaanko yksilöä koskevat tiedot päätellä?

Tietoarkiston tutkimusamanuenssi Eliisa Haanpää konkretisoi kysymyksiä vielä kolmella esimerkillä:

  1. Pystyykö yksittäisen henkilön tunnistamaan vastauksista, kun on tiedossa, että hän on vastannut kyselyyn?
  2. Pystyykö vastaukset yhdistämään henkilöön, vaikka ei tiedä, onko hän vastannut kyselyyn?
  3. Paljastaako esimerkiksi tietyn paikallisradion kuuntelemisen kaltainen yksityiskohta, että henkilö asuu tietyssä kunnassa?

Anonyymin aineiston määritelmän kannalta on olennaista myös se, että anonymisointitoimien täytyy olla peruuttamattomia. Kertaalleen anonymisoitu aineisto ei siis saa olla palautettavissa tunnisteelliseen muotoon.

Tietoarkiston tutkimusamanuenssi Eliisa Haanpää kertoi kvantitatiivisten aineistojen anonymisoinnista sekä teoreettisella tasolla että konkreettisten aineistoesimerkkien avulla. (Kuva: Kaisa Järvelä).

Anonymisointi alkaa tarkasta suunnittelusta

Eliisa Haanpäällä on vuosien kokemus erilaisten kvantitatiivisten aineistojen anonymisoimisesta. Hän korostikin seminaariesityksessään, että kaikkiin aineistoihin suoraan sovellettavaa anonymisointimallia ei ole olemassa, vaan yksittäiset toimet täytyy viime kädessä suunnitella kunkin aineiston ehdoilla. Tutkijan on siis punnittava aina erikseen, mitkä käytännöt toimivat parhaiten juuri oman aineiston kohdalla. Oman aineiston anonymisointia suunnitellessa kannatta pohtia esimerkiksi, kuinka arkaluontoinen aineisto on, ja mitä aihetta se käsittelee, eli mitkä tiedot on olennaista säilyttää, jotta aineisto pysyy ymmärrettävänä.

Jotta anonymisoiminen sujuisi alusta loppuun asti loogisesti, Haanpää neuvoi laatimaan kirjallisen anonymisointisuunnitelman, jonka mukaisesti johdonmukainen anonymisointi on helppo toteuttaa. Hyvä perusmalli on anonymisoida ensin taustamuuttujat, seuraavaksi mahdolliset avokysymykset ja lopuksi vielä muita tunnisteita sisältävät muuttujat sekä mahdolliset muut aineistoon liittyvät lisämateriaalit.

Kolme yleisintä tapaa anonymisoida kvantitatiivista aineistoa

Määrällisen aineiston kohdalla kolme yleisintä anonymisointikeinoa ovat muuttujan poistaminen, arvojen luokittelu ja tunnisteiden poistaminen avokysymysten vastauksista.

Muuttuja on järkevää poistaa aineistosta kokonaan silloin, kun siinä on paljon tunnisteita. Käytännössä muuttujan käsittelemiseen vaikuttaa se, millaisia tunnisteita se sisältää. Suorat tunnisteet ja vahvat epäsuorat tunnisteet, siis esimerkiksi nimet, henkilötunnukset tai auton rekisterinumerot tulee poistaa kokonaan. Epäsuorien tunnisteiden, kuten vastaajan iän, asuinkunnan ja sukupuolen kohdalla on arvioitava tapauskohtaisesti kannattaako ne poistaa tai luokitella vai onko ne turvallista jättää aineistoon.

Arvojen luokittelemiseen on olemassa kaksi keskenään hieman erilaista mallia. Ensimmäisessä, perusluokittelumallissa vastaukset yhdistetään järjestäen luokiksi. Yleinen käytäntö on yhdistää esimerkiksi vastaajien iät viiden ikävuoden luokiksi tai työt ammattiryhmiksi.

Toinen yleinen luokittelumalli on arvojen harkinnanvarainen luokittelu. Se tarkoittaa, että vastauksista poistetaan tai karkeistetaan harvinaisia ääriarvoja. Jos esimerkiksi kyselyssä on mukana vain vähän iäkkäitä vastaajia, heidät voidaan yhdistää yhdeksi yli 50-vuotiaiden luokaksi.

Luokkia ei kannata yrittää keksiä itse, vaan apuna on hyvä käyttää Tilastokeskuksen vakiintuneita luokittelumalleja. Tilastokeskuksen luokitukset on suunniteltu huolella sellaisiksi, että ne ovat mahdollisimman yleisiä, mutta kuitenkin informatiivisia.

Kolmas yleinen anonymisointikeino on tunnisteiden poistaminen avokysymysten vastauksista. Tämä on tarpeen, jos tutkittavat ovat antaneet esimerkiksi harrastuksia koskeviin avokysymyksiin niin yksityiskohtaisia vastauksia, että heidät voi niiden perusteella tunnistaa.

Avokysymysten vastauksia ei yleensä tarvitse poistaa kokonaan, vaan niistä voi poimia yksittäisiä tunnisteellisia pätkiä, ja muuttaa ne anonyymimpään muotoon. Jos vastaaja esimerkiksi mainitsee asuvansa Humppilassa, vaikka vastaajan kotikunta ei saisi selvitä aineistosta, kunnan nimen voi muuttaa Tilastokeskuksen luokituksiin perustuen muotoon [maaseutumainen kunta Kanta-Hämeessä].

Aineistosta on pystyttävä erottamaan, mitkä kohdat avovastauksista on anonymisoitu, eli tekstiin tehdyt muutokset kannattaa merkitä selkeästi ja järjestelmällisesti. Hyvä ratkaisu on esimerkiksi hakasulkeiden käyttäminen.

Tarkempia esimerkkejä siitä, miten Haanpää on käytännössä anonymisoinut erilaisia aineistoja voi käydä katsomassa seminaarin tapahtumasivulta löytyvistä esitysmateriaaleista. Vastaava kvalitatiivisten aineistojen anonymisointia käsittelevä blogikirjoitus julkaistaan Tietoarkistoblogissa myöhemmin tämän kuun aikana.

Lisätietoja
» Seminaarin sivulta löydät esitysdiat ja myöhemmin myös videot
» Aineistonhallinnan käsikirja: Tunnisteellisuus ja anonymisointi

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Näin anonymisoit kvantitatiiviset aineistosi

Ihmistieteiden tutkimusaineistot sisältävät aina enemmän tai vähemmän henkilötietoja. Henkilötietolain mukaan tunnisteellista aineistoa voi käyttää tutkimukseen, jos se on välttämätöntä, tarkoituksenmukaista, suunniteltua ja asiallisesti perusteltua. Tutkittavia koskevat tiedot eivät kuitenkaan missään tapauksessa saa vuotaa ulkopuolisille.

Viimeistään aineiston arkistointivaiheessa tunnisteet täytyy hävittää, jos tunnisteellisen aineiston arkistoimiseen ei ole erillistä Kansallisarkistolta anottua lupaa. Useimmat suomalaiset yliopistot ja tutkimusrahoittajat kannustavat aineistojen arkistoimiseen ja avaamiseen, eli anonymisointiosaaminen alkaa kuulua jokaisen tutkijan perustaitoihin.

Anonymisointikoulutukselle onkin Suomessa selvästi tarvetta, sillä Tietoarkiston ja ATT-hankkeen huhtikuussa Tampereella järjestämään Tutkimusaineistojen anonymisointi -seminaariin ilmoittautui lähes 350 osallistujaa ympäri maata.

Seminaarin esitysdioihin voi tutustua verkossa tapahtuman sivuilla, ja myös esityksistä kuvatut videot ovat tulossa julki samalle sivulle.

Tässä blogikirjoituksessa käyn seminaariesitysten perusteella läpi määrällisen aineiston anonymisointikäytäntöjä. Kun oman aineiston anonymisointi tulee ajankohtaiseksi, yksityiskohtaisempia ohjeita kannattaa käydä lukemassa vielä Tietoarkiston Aineistonhallinnan käsikirjasta.

Tietoarkistossa toivomme, että meille toimitettavat aineistot ovat valmiiksi anonymisoituja. Tarkastamme kuitenkin kaikki aineistot, ja käsittelemme niitä usein vielä jonkin verran niin, että Ailassa julkaistavat aineistot ovat varmasti täysin anonyymeja.

Kaikki elävää ihmistä koskevat tiedot ovat henkilötietoja

Aivan ensimmäiseksi tunnisteellista aineistoa anonymisoivan tutkijan täytyy ymmärtää, mitkä tiedot ovat henkilötietoja. Tätä aihetta avasi seminaarissa Tietoarkiston kehittämispäällikkö Arja Kuula-Luumi.

Tiivistetysti voi sanoa, että henkilötiedoiksi lasketaan kaikki elävää ihmistä koskevat tiedot. Sellainen voi olla esimerkiksi tutkittavan tai tämän läheisen ominaisuus, tutkittavan elinolosuhteita koskeva maininta tai vaikkapa tutkittavan mielipide.

Tämä ei onneksi kuitenkaan tarkoita, että esimerkiksi kaikki tutkittavan esittämät mielipiteet pitäisi poistaa aineistosta ennen kuin sen voi arkistoida. Tutkittavia koskevat tiedot lasketaan henkilötiedoksi vain silloin, kun yksilö on tunnistettavissa aineistosta. Aineiston anonymisoiminen tarkoittaakin sitä, että aineistosta poistetaan, luokitellaan tai muutetaan sellaiset tiedot, joiden avulla yksilön voi tunnistaa ja esimerkiksi aineistossa esitetyt mielipiteet yhdistää tietyn yksilön mielipiteiksi.

EU:n uuden tietosuoja-asetuksen mukaan henkilö on tunnistettavissa silloin, kun hänet voidaan tunnistaa suoraan tai epäsuorasti tunnistetietojen perusteella. Käytännössä suorat tunnistetiedot tarkoittavat tietoja, jotka riittävät yksin henkilön tunnistamiseen, vaikka hänestä ei kerrottaisi mitään muuta. Suoria tunnisteita ovat siis esimerkiksi koko nimi ja henkilötunnus.

Epäsuorat tunnisteet on jaoteltu vahvoihin epäsuoriin tunnisteisiin ja epäsuoriin tunnisteisiin. Vahvat epäsuorat tunnisteet eivät viittaa suoraan henkilöön, mutta niiden avulla voi helposti selvittää, kenestä henkilöstä on kyse. Vahva epäsuora tunniste voisi siis olla esimerkiksi auton rekisterinumero, jonka avulla on mahdollista suoraan selvittää auton omistaja.

Epäsuorat tunnisteet eivät yksin paljasta henkilöllisyyttä, mutta saattavat muihin tietoihin yhdistettynä mahdollistaa henkilön tunnistamisen. Tällaisia ovat esimerkiksi ikä, sukupuoli ja asuinpaikka sekä lukuisat muut fyysiset, psyykkiset, taloudelliset ja sosiaaliset tekijät.

Tunnistettavuutta miettiessä on olennaista ottaa huomioon myös se, mitä tietoja henkilöstä on saatavilla muualta kuin omasta aineistosta. Moni paljastaa itsestään paljon sosiaalisessa mediassa. Lisäksi esimerkiksi julkiset asiakirjat ja järjestöjen verkkosivut voivat tarjota monenlaisia tietoja.

Tietoarkiston kehittämispäällikkö Arja Kuula-Luumi piti seminaarissa esityksen aiheesta Tietosuoja tutkimuksessa. (Kuva: Kaisa Järvelä).

Anonymisointi on aina peruuttamaton

Yksi olennainen asia on ymmärtää, että aineiston pseudonymisointi ja anonymisointi ovat eri asioita. Jos tutkijat analysoivat aineistoa ilman tunnisteita, mutta säilyttävät tunnistetiedot ja koodiavaimen itsellään, aineisto ei ole anonyymi vaan pseudonyymi, eikä sitä voi esimerkiksi arkistoida sellaisenaan jatkokäyttöä varten.

Lain mukaan aineisto on anonyymi vasta silloin, kun siitä ei voi tunnistaa yksittäisiä tutkittavia millään kohtuullisesti toteutettavissa olevalla keinolla. Tietosuoja-asetuksen mukaan kohtuullisuutta tulee arvioida tunnistamisesta aiheutuvien kulujen, tunnistamiseen tarvittavan ajan ja käytettävissä olevan teknologian näkökulmista.

EU:n tietosuojatyöryhmä neuvoo arvioimaan aineiston tunnisteellisuutta kolmesta näkökulmasta:

  1. Onko yksilö edelleen mahdollista erottaa joukosta?
  2. Onko tietojen yhdistäminen yksilöön mahdollista?
    ja
  3. Voidaanko yksilöä koskevat tiedot päätellä?

Tietoarkiston tutkimusamanuenssi Eliisa Haanpää konkretisoi kysymyksiä vielä kolmella esimerkillä:

  1. Pystyykö yksittäisen henkilön tunnistamaan vastauksista, kun on tiedossa, että hän on vastannut kyselyyn?
  2. Pystyykö vastaukset yhdistämään henkilöön, vaikka ei tiedä, onko hän vastannut kyselyyn?
  3. Paljastaako esimerkiksi tietyn paikallisradion kuuntelemisen kaltainen yksityiskohta, että henkilö asuu tietyssä kunnassa?

Anonyymin aineiston määritelmän kannalta on olennaista myös se, että anonymisointitoimien täytyy olla peruuttamattomia. Kertaalleen anonymisoitu aineisto ei siis saa olla palautettavissa tunnisteelliseen muotoon.

Tietoarkiston tutkimusamanuenssi Eliisa Haanpää kertoi kvantitatiivisten aineistojen anonymisoinnista sekä teoreettisella tasolla että konkreettisten aineistoesimerkkien avulla. (Kuva: Kaisa Järvelä).

Anonymisointi alkaa tarkasta suunnittelusta

Eliisa Haanpäällä on vuosien kokemus erilaisten kvantitatiivisten aineistojen anonymisoimisesta. Hän korostikin seminaariesityksessään, että kaikkiin aineistoihin suoraan sovellettavaa anonymisointimallia ei ole olemassa, vaan yksittäiset toimet täytyy viime kädessä suunnitella kunkin aineiston ehdoilla. Tutkijan on siis punnittava aina erikseen, mitkä käytännöt toimivat parhaiten juuri oman aineiston kohdalla. Oman aineiston anonymisointia suunnitellessa kannatta pohtia esimerkiksi, kuinka arkaluontoinen aineisto on, ja mitä aihetta se käsittelee, eli mitkä tiedot on olennaista säilyttää, jotta aineisto pysyy ymmärrettävänä.

Jotta anonymisoiminen sujuisi alusta loppuun asti loogisesti, Haanpää neuvoi laatimaan kirjallisen anonymisointisuunnitelman, jonka mukaisesti johdonmukainen anonymisointi on helppo toteuttaa. Hyvä perusmalli on anonymisoida ensin taustamuuttujat, seuraavaksi mahdolliset avokysymykset ja lopuksi vielä muita tunnisteita sisältävät muuttujat sekä mahdolliset muut aineistoon liittyvät lisämateriaalit.

Kolme yleisintä tapaa anonymisoida kvantitatiivista aineistoa

Määrällisen aineiston kohdalla kolme yleisintä anonymisointikeinoa ovat muuttujan poistaminen, arvojen luokittelu ja tunnisteiden poistaminen avokysymysten vastauksista.

Muuttuja on järkevää poistaa aineistosta kokonaan silloin, kun siinä on paljon tunnisteita. Käytännössä muuttujan käsittelemiseen vaikuttaa se, millaisia tunnisteita se sisältää. Suorat tunnisteet ja vahvat epäsuorat tunnisteet, siis esimerkiksi nimet, henkilötunnukset tai auton rekisterinumerot tulee poistaa kokonaan. Epäsuorien tunnisteiden, kuten vastaajan iän, asuinkunnan ja sukupuolen kohdalla on arvioitava tapauskohtaisesti kannattaako ne poistaa tai luokitella vai onko ne turvallista jättää aineistoon.

Arvojen luokittelemiseen on olemassa kaksi keskenään hieman erilaista mallia. Ensimmäisessä, perusluokittelumallissa vastaukset yhdistetään järjestäen luokiksi. Yleinen käytäntö on yhdistää esimerkiksi vastaajien iät viiden ikävuoden luokiksi tai työt ammattiryhmiksi.

Toinen yleinen luokittelumalli on arvojen harkinnanvarainen luokittelu. Se tarkoittaa, että vastauksista poistetaan tai karkeistetaan harvinaisia ääriarvoja. Jos esimerkiksi kyselyssä on mukana vain vähän iäkkäitä vastaajia, heidät voidaan yhdistää yhdeksi yli 50-vuotiaiden luokaksi.

Luokkia ei kannata yrittää keksiä itse, vaan apuna on hyvä käyttää Tilastokeskuksen vakiintuneita luokittelumalleja. Tilastokeskuksen luokitukset on suunniteltu huolella sellaisiksi, että ne ovat mahdollisimman yleisiä, mutta kuitenkin informatiivisia.

Kolmas yleinen anonymisointikeino on tunnisteiden poistaminen avokysymysten vastauksista. Tämä on tarpeen, jos tutkittavat ovat antaneet esimerkiksi harrastuksia koskeviin avokysymyksiin niin yksityiskohtaisia vastauksia, että heidät voi niiden perusteella tunnistaa.

Avokysymysten vastauksia ei yleensä tarvitse poistaa kokonaan, vaan niistä voi poimia yksittäisiä tunnisteellisia pätkiä, ja muuttaa ne anonyymimpään muotoon. Jos vastaaja esimerkiksi mainitsee asuvansa Humppilassa, vaikka vastaajan kotikunta ei saisi selvitä aineistosta, kunnan nimen voi muuttaa Tilastokeskuksen luokituksiin perustuen muotoon [maaseutumainen kunta Kanta-Hämeessä].

Aineistosta on pystyttävä erottamaan, mitkä kohdat avovastauksista on anonymisoitu, eli tekstiin tehdyt muutokset kannattaa merkitä selkeästi ja järjestelmällisesti. Hyvä ratkaisu on esimerkiksi hakasulkeiden käyttäminen.

Tarkempia esimerkkejä siitä, miten Haanpää on käytännössä anonymisoinut erilaisia aineistoja voi käydä katsomassa seminaarin tapahtumasivulta löytyvistä esitysmateriaaleista. Vastaava kvalitatiivisten aineistojen anonymisointia käsittelevä blogikirjoitus julkaistaan Tietoarkistoblogissa myöhemmin tämän kuun aikana.

Lisätietoja
» Seminaarin sivulta löydät esitysdiat ja myöhemmin myös videot
» Aineistonhallinnan käsikirja: Tunnisteellisuus ja anonymisointi

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi