Tag Archives: tutkimusaineistot

Tutkimusetiikan ja tietosuojan välisestä suhteesta

Etiikalla ja tietosuojalla on läheinen suhde, joka ulottuu tietosuojan alkuaikoihin. Tietosuoja kehittyi tietojenkäsittelyn mahdollisuuksien lisääntyessä. Ruotsin vuoden 1973 Datalagin (1973:289) valmistelu aloitettiin 60-luvulla. Sääntely perustui lisenssimalliin, jonka henkistä perintöä ilmentää Suomen henkilötietolakiin (523/1999) jäänyt – ja uuden tietosuoja-asetuksen (2016/679) myötä kumoutuva – mahdollisuus tietosuojalautakunnalle myöntää lupa henkilötietojen käsittelyyn eräissä tilanteissa.

Ruotsissa lisenssien myöntämisedellytykset tieteellisessä tutkimuksessa yhdistyivät kirjalliseen muotoon koonnettuihin eettisiin normistoihin. Eettisten normistojen erot vaikuttivat henkilötietojen käsittelyyn eri tieteenaloilla.1 Menettelyssä ei ollut kyse nimenomaan eettisestä ennakkoarvioinnista, vaan käsittelyn lainmukaisuuden arvioinnista lautakunnassa. Eettisyyttä pidettiin kiinteänä osana henkilötietojen käsittelyn laillista sallittavuutta.

80-luvun keskustelua Suomessa

Klaus Mäkelä kirjoitti vuonna 1987, että ”[t]ämän hetken polttavimmat tutkimuseettiset kysymykset liittyvätkin usein tietosuojaan pikemmin kuin tiedonhankintatapoihin”.2 Samana vuonna julkaistiin Tieteen keskustoimikunnan asettaman jaoston raportti ”Yhteiskuntatieteellisen tutkimuksen tietosuoja”.3 Molemmat liittyivät Suomessa vuoden 1988 alussa voimaan astuneeseen, nyt jo kumottuun, henkilörekisterilakiin (471/1987). Uusi lainsäädäntö, joka korvasi rikosoikeudelliseen lähestymistapaan perustuvaa ajattelumallia, aiheutti tarpeen reflektoida tutkimusetiikan ja tietosuojan välistä suhdetta.

Edellä mainitun raportin keskeisiä ajatuksia oli, että lainsäädännön sanamuoto ei yksin riitä kattavaksi ohjeistukseksi kaikkiin käytännön ongelmiin. Toisaalta kaikkea laillista ei pidetty välttämättä eettisesti hyväksyttävänä. Jaosto kiinnitti huomiota tasapainoiluun eettisten ohjeiden yleisyyden ja yksityiskohtaisuuden välillä ja suositti kehittämään käytäntöjä ja ohjeita, jotka herkistävät eettisten ongelmien havaitsemiseen.4 Tutkimusetiikka ja tietosuojaa koskeva lainsäädäntö elävät vuorovaikutussuhteessa keskenään.

Tutkimuskäytäntöjä säätelevät niin eettiset ohjeet kuin lainsäädäntö

Tutkimuseettiset periaatteet eroavat lainsäädännöstä siinä, että eettiset periaatteet perustuvat itsesääntelyyn ja vapaaehtoiseen sitoutumiseen. Oikeustieteen näkökulmasta eettisissä periaatteissa on kyseessä ns. soft law -tyyppinen sääntely. Eettisiä ohjeita ei voi suoraan rinnastaa tuomioistuimen soveltamaan lakiin (Nieminen 2018, s. 16).5

Taustalla voi nähdä yhteyden Suomen perustuslain (731/1999) 3 §:ään kirjattuun valtiollisten tehtävien jakoon, jossa tuomiovalta ja lainsäädäntövalta on eriytetty erillisille instituutioille. Vaikka eettiset ohjeet eivät perustu parlamentaarisessa menettelyssä säädettyyn lakiin, niillä on huomattava käytännön merkitys tutkijoiden vastuun ja tutkittavien oikeuksien määrittämisessä.

Tutkimuseettisillä periaatteilla on vahva side lainsäädäntöön sitä kautta, että lainsäädäntö edellyttää tietynlaisissa tutkimuksissa eettistä ennakkoarviointia. Esimerkiksi laki lääketieteellisestä tutkimuksesta (1999/488) 17.2 § edellyttää eettistä toimikuntaa selvittävän lausuntoaan varten, onko tutkimussuunnitelmassa otettu huomioon tässä tai muussa laissa taikka lain nojalla annetut lääketieteellistä tutkimusta koskevat säännökset tai määräykset. Lainkohdan esitöissä (HE 65/2010 vp) viitataan tietosuojaa koskeviin säännöksiin.

EU:n tietosuojadirektiivi (95/46/EY), joka toimeenpantiin Suomessa henkilötietolailla, ei sisältänyt nimenomaista mainintaa eettisistä normistoista. Myöskään henkilötietolaki ei maininnut nimenomaisesti eettisiä normistoja. Lain esitöissä eettisten normistojen noudattaminen oli kuitenkin yhdistetty arkaluonteisten tietojen käsittelyyn. Tilanne on muuttunut uuden yleisen tietosuoja-asetuksen myötä. Tietosuoja-asetuksen johdanto-osan kappaleessa 33 mainitaan nimenomaisesti tieteellisen tutkimuksen tunnustetut eettiset standardit.

Uusi tietosuoja-asetus edistää tutkittavien eettistä kohtelua

EU:n yleisestä tietosuoja-asetuksesta ja tieteellisestä tutkimuksesta on viime aikoina kirjoitettu ja keskusteltu suhteellisen paljon. Mukaan on mahtunut useita myyttejä ja tarpeetonta pelottelua. Etenkin tietosuoja-asetuksen valmisteluvaiheessa esitettiin kannanottoja, joiden mukaan tieteellinen tutkimus estyy kokonaan. Toinen usein esillä oleva teema on ollut hallinnolliset sanktiot, joita on käytetty pelotteena palvelujen markkinoinnissa. Harvemmin on kerrottu sitä, että hallinnollisten sanktioiden määräämisen tulee olla jokaisessa yksittäistapauksessa oikeansuhtaista, varoittavaa ja tehokasta. Tietosuoja on useiden väärinkäsitysten vuoksi saanut tarpeettoman negatiivisen sävyn. Useimmat tilanteet ovat ratkaistavissa huolellisella suunnittelulla ja ottamalla tietosuoja huomioon mahdollisimman varhaisessa vaiheessa.

Tutkittavien kohtelua ja suojelua koskevilla tutkimuseettisillä periaatteilla ja tietosuojalainsäädännöllä on useita samanlaisia päämääriä. Selvennykseksi on hyvä todeta, että tietosuoja ei suojaa tietoa itsessään vaan yksilöä, jota tämä tieto koskee. Tietosuojalainsäädäntö ei liity ainoastaan yksityisyyden tai henkilötietojen suojaan. Tietosuoja-asetuksen tavoitteena on suojella myös laajemmin luonnollisen henkilön perusoikeuksia ja -vapauksia. Tietosuoja-asetus suojelee sivutuotteena esimerkiksi Euroopan unionin perusoikeuskirjassa (2012/C 326/02) turvattuja ihmisarvoa, oikeutta ruumiilliseen ja henkiseen koskemattomuuteen sekä oikeutta vapauteen ja henkilökohtaiseen turvallisuuteen.

”Tietosuoja ei suojaa tietoa itsessään vaan yksilöä, jota tämä tieto koskee.”

Tiedon ei-julkista luonnetta tai tiedon antajan ja vastaanottajan erityistä suhdetta on kuvattu erilaisissa eettisissä ohjeissa vaihtelevilla ilmaisuilla. Käytettyjä ilmaisuja ovat esimerkiksi yksityisyys, luottamuksellisuus, vaitiolo ja salassapito. Lisäksi tiedon käyttötavoille on voitu asettaa rajoituksia. Ilmaisuille voi muodostua tietyissä konteksteissa ajan myötä vakiintuneita merkityssisältöjä, mutta ne ovat ainakin ulkopuolisten vaikeasti selvitettävissä.

Yksityisyyden sisällöstä ja rajoista on jokaisella kirjoittajalla oma tulkintansa. Tietosuoja-asetus olisi hyvä nähdä tässä yhteydessä kokoelmana ennalta hyväksyttyjä menettelytapoja tutkittavan ja häntä koskevien tietojen suojelemiseksi. Tietosuoja-asetus ja sitä täydentävä kansallinen lainsäädäntö tarjoaa tutkijoille työkalupakin tutkittavien suojaamiseen liittyvien ongelmien ratkaisemiseksi.

Antti Ketola
lakimies
etunimi.sukunimi [at] uta.fi

1 Jansson, Carl Gunnar: Country Report Sweden: Privacy Legislation and Social Research in Sweden. Teoksessa (toim.) Mochmann, Ekkehard & Müller, Paul: Data Protection and Social Science Research: Perspectives from Ten Countries. Campus Verlag GmbH. Frankfurt 1979, s. 32–33.
2 Mäkelä, Klaus: Yhteiskuntatieteellisen tiedonhankinnan eettiset normit ja tietosuoja. Teoksessa (toim.) Mäkelä, Klaus: Tieteen vapaus ja tutkimuksen etiikka. Kustannusosakeyhtiö Tammi. Helsinki 1987, s. 180–195
3 1/87 Yhteiskuntatieteellisen tutkimuksen tietosuoja. Tieteen keskustoimikunnan asettaman jaoston raportti.
4 ibid. s. 3–4, 8–10.
5 Nieminen, Liisa: Ammattieettiset ohjeet juristin haasteena. Viestintäoikeuden vuosikirja 2017. Helsingin yliopiston oikeustieteellisen tiedekunnan julkaisuja. Helsinki 2018.

Uudet sopimusmallit tutkimusaineistojen arkistointiin

Tietoarkisto on uudistanut tutkimusaineistojen arkistointia koskevat yleiset sopimusmallinsa vastaamaan tietosuoja-asetuksen (2016/679) vaatimuksia. Sopimuksia kehitettäessä on lähtökohtana ollut Tietoarkiston tutkijoille tarjoamien palvelujen luotettavuus ja laillisuus.

Rekisterinpitäjä, joka luovuttaa tutkimusaineiston Tietoarkistoon käsiteltäväksi, täyttää uusien sopimusten myötä tietosuojalainsäädäntöön perustuvat omat velvoitteensa, joita edellytetään sopimuksen sisällöstä 25.5.2018 jälkeen. Sopimusjärjestely suojelee samalla tutkittavia huolehtimalla tietosuojan ja -turvan korkeasta tasosta heidän tietojaan käsiteltäessä.

Miksi sopimusmallien päivittäminen oli tarpeellista?

Sopimuksia solmittaessa yleinen lähtökohta on sopimusvapaus, johon kuuluvat muun muassa sisältövapaus ja muotovapaus. Poikkeuksia sopimusvapauteen on pakottavassa lainsäädännössä. Tietosuoja-asetus laajentaa henkilötietolailla (523/1999) kansallisesti toimeenpannun tietosuojadirektiivin (95/46/EY) sopimuksille asettamia vaatimuksia. Tietosuojasopimuksia koski aiemmin etenkin tietosuojadirektiivin 17 artikla, joka edellytti huolehtimaan lähinnä yleisellä tasolla käsittelyn turvallisuudesta ja seuraamaan rekisterinpitäjän ohjeita. Direktiivistä poiketen uusi tietosuoja-asetus määrittelee yksityiskohtaisesti rekisterinpitäjän ja henkilötietojen käsittelijän välisen sopimuksen sisältöä ja muotoa.

Tietoarkisto toimii useimmiten henkilötietojen käsittelijän roolissa tutkimusaineiston toimittaneen rekisterinpitäjän lukuun. Tietosuoja-asetuksen edellyttämät yksityiskohtaiset ehdot on sisällytetty arkistointisopimuksen liitteeksi. Aineiston jatkokäyttöä koskevat perusratkaisut on arkistointisopimuksessa jätetty ennalleen. Jos henkilötietoja sisältävä tutkimusaineisto toimitetaan Tietoarkistolle ennen arkistointisopimuksen tekemistä, solmitaan luovuttajan ja Tietoarkiston välille erillinen sopimus henkilötietojen käsittelystä arkistointiedellytysten arvioimiseksi.

Kaikki tutkimusaineistot eivät tietenkään sisällä henkilötietoja. Joskus tätä on vaikea arvioida etukäteen tarkastelematta aineistoa. Tämän vuoksi henkilötietojen käsittelyä koskevat sopimusehdot on otettu osaksi kaikkia sopimuksia.

Mitä hyötyä uusista sopimusehdoista on?

Uusilla sopimusehdoilla on useita etuja aineiston luovuttavan rekisterinpitäjän kannalta. Rekisterinpitäjän kannalta henkilötietojen käsittelyä koskevat yksityiskohtaiset sopimusehdot

  • auttavat toteuttamaan tietosuoja-asetuksen 5 artiklan 2 kohdan mukaista osoitusvelvollisuutta
  • lisäävät tutkittavien luottamusta henkilötietojen vastuulliseen käsittelyyn
  • mahdollistavat tutkimusaineiston laillisen siirtämisen Tietoarkiston käsiteltäväksi
  • voidaan ottaa huomioon tietosuojaa koskevassa vaikutustenarvioinnissa.

Sopimusehdoilla on myös etuja aineiston luovuttajan ja Tietoarkiston väliselle yhteistyölle. Sopimus

  • parantaa tiedonkulkua sopijapuolten välillä
  • vahvistaa henkilötietojen käsittelyn turvallisuutta
  • selkeyttää työnjakoa.

Lisätietoa:

» Sopimus henkilötietojen käsittelystä arkistointiedellytysten arvioimiseksi (PDF)
» Arkistointisopimus (PDF)

Antti Ketola
lakimies
etunimi.sukunimi [at] uta.fi

Tämä blogikirjoitus on luettavissa myös englanniksi:
New contract models for archiving research data.

New contract models for archiving research data

The Finnish Social Science Data Archive (FSD) has updated its general contract models for archiving research data to fulfill the requirements imposed by the General Data Protection Regulation (2016/679, ”GDPR”). Central goals in the development process…

Aineistojen tietosuoja luupin alla – jäännösriskin arviointi ja uudet ohjeet

Euroopan unionin tietosuoja-asetusta sovelletaan 25. toukokuuta alkaen. Viimeisen vuoden aikana Tietoarkistossa on valmistauduttu muutokseen monella tavalla. Olemme muun muassa arvioineet jäännösriskiä ja uudistaneet anonymisointia koskevat ohjeet.

Jäännösriskin (residual risk) arviointi tarkoittaa henkilötietoja sisältävien tietojen systemaattista arviointia tasaisin aikavälein. Siinä arvioidaan kertaalleen anonymisoiduista datoista yksittäisten henkilöiden tai ryppäiden paljastumisriskiä niin itse datan kuin ulkopuolisten tietojen valossa. Tietoarkisto aloitti jo arkistoitujen aineistojen jäännösriskin arvioimisen viime syksynä, ja iloksemme saamme todeta, että työ on edistynyt hienosti.

Jäännösriskin arvioinnin aikaansaannokset käytännössä

Kvantitatiivisissa aineistoissamme, joita meillä on yhteensä yli tuhat, jäännösriskin arviointi aloitettiin kartoittamalla riskialtteimmat aineistosarjat ja suorittamalla niille tarvittavat täydentävät anonymisointitoimenpiteet. Datat on kyllä anonymisoitu aikanaan parhaan taidon mukaan, mutta osaamisemme on kehittynyt vuosien varrella. Viimeisen kymmenen vuoden aikana tiedon saatavuus on helpottunut, erityisesti internetistä löytyy paljon tietoja. Riskialttiutta arvioitiinkin eniten suhteessa niihin. Tietoarkiston kokemuksen mukaan muualta saatavat tiedot ovat hyvin ratkaisevia, kun arvioidaan mitä kaikkea aineistolle tulee tehdä, jotta se on mahdollisimman anonyymi.

Erityisesti opiskelua ja tutkintoja koskevia tietoja on nykyisin saatavilla huomattavasti enemmän kuin kymmenen tai vaikkapa vain viisi vuotta sitten. Siksi jäännösriskin arviointi aloitettiin opiskelua käsittelevistä aineistosarjoista. Reilun puolen vuoden aikana on täydentävästi anonymisoitu 70 kvantitatiivista aineistoa ja käyty läpi kuudesosa kaikista sarjoistamme. Tyypillisin muutos on ollut muuttujien arvojen uudelleen luokittelu.

Kvalitatiivisten aineistojen, joita meillä on noin parisen sataa, jäännösriskin arvioinnissa on anonymisoitu täysin yhdeksänkymmentä haastattelua sisältävä aineistosarja. Alun alkaen sarja oli vain de-identifioitu, siis aineistoista oli poistettu vain suorat tunnisteet, kuten osoitteet. Lisäksi on tarkistettu 60 prosenttia ennen vuotta 2017 valmistuneista aineistoista (yht. 180 kpl). Tutkittavien tietosuojan kannalta on hienoa, että vain kuutta prosenttia aineistoista tarvitsi anonymisoida lisää. Koko aineistoa koskevia muutoksia tarvitsi tehdä vain kahteen aineistoon.

Uusia toimintatapoja

Tietoarkistossa on tähänkin asti tarkoin dokumentoitu datamuutokset ja anonymisointi. Jäännösriskin arvioinnissa luotiin uusi toimintatapa: karttuville aineistosarjoille laaditaan jatkossa sarjakohtaisia anonymisointisuunnitelmia, eräänlaisia anonymisoinnin viitekehyksiä.

Sarjaa koskevassa anonymisoinnin viitekehyksessä datatiedoston sisäisen tarkastelun lisäksi kiinnitetään huomiota mahdollisiin muihin saatavilla oleviin tietoihin. Viitekehystä täydennetään ajan kuluessa ja se ohjaa datan käsittelijää tarkastelemaan itse datatiedoston ohella käyttöympäristöä. Erityisesti tulee selvittää, mitä tietoja kohdepopulaatiosta on saatavilla internetissä.

Yksityiskohtainen tarkastelu tulee tehdä joka tapauksessa myös jokaiseen aineistosarjan uuteen dataan. Anonymisoinnin viitekehys ei siis aina riitä ohjeeksi – tutkijat kun tykkäävät välillä muutella myös sarja-aineistojaan, esimerkiksi lisäämällä niihin uusia taustamuuttujia ja kysymyksiä tutkittaville. Jos viitekehystä täsmennetään aineiston uusien muuttujien tai muualta saatavan tiedon kasvun vuoksi, tulee myös sarjan aiemmat aineistot tarkistaa ja tarvittaessa muuttaa. Näin jäännösriskin arviointi tulee osaksi aineistosarjojen peruskäsittelyä.

Anonymisointiohjeistukset muutoksessa

Tietosuoja-asetuksen tuoma käsitteistö ja anonymisoinnin toimintatapojen uudistukset Tietoarkistossa antoivat sysäyksen myös Aineistonhallinnan käsikirjan tunnisteellisuutta ja anonymisointia koskevien ohjeiden uudistamiselle. Opas tarjoaa nyt ohjeita käsitteitä koskeviin epäselvyyksiin esimerkiksi pohdittaessa, miten erottaa pseydonyymi ja anonyymi tieto toisistaan. Lisäksi lukija saa laajan kattauksen siitä, mitä pitää ottaa huomioon anonymisointia suunniteltaessa.

Erityisesti kvantitutkijoiden kannattaa nyt heristää korviaan, sillä täydensimme urakassa nimenomaan kvantitatiivisten aineistojen anonymisointiohjeita ja -menetelmiä.

Tutkijoiden tietotaidon kartuttaminen Aineistonhallinnan käsikirjan avulla vahvistaa myös Tietoarkistoon arkistoitavien aineistojen tietosuojaa. Viime vuonna valmistuneista arkistoiduista aineistoista jouduimme tekemään lisäanonymisointia 60 prosentille – vaikka usein tutkija oli olettanut aineistonsa jo anonyymiksi. Toivomme, että käsikirjamme uudistetut ohjeet pienentävät jatkossa tuota osuutta.

Suosittelemme siis lämpimästi tutustumista uusiin ohjeisiimme. Koska ohjeistukset ovat nimenmaan aineistonkäyttäjiä varten, otamme niistä myös mielellään palautetta vastaan!

Lisätietoa:
» Tietoarkiston asiakaspalvelu: asiakaspalvelu.fsd at uta.fi
» Aineistonhallinnan käsikirja, Tunnisteellisuus ja anonymisointi

Annika Sallinen
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi

Tutkimusaineistojen ja -julkaisujen tekijyydestä sopiminen on tutkijan etu

Kuka tutkimusaineistossa on tekijä? Kysymys saattaa vaikuttaa selvältä: aineiston tekijä on sen kerääjä. Asia muuttuu kuitenkin monimutkaisemmaksi, jos kyseessä on tutkimushanke, jossa aineistoa ovat keränneet useat tutkijat tai muut tahot. Kenellä on silloin oikeus tulla merkityksi tekijäksi? Entäpä tilanteessa, jossa aineistosta ja tutkimustuloksista tuotetaan julkaisuja? Kuinka tekijyyden määrittäminen ja kaikkien työpanoksen oikeudenmukainen tunnustaminen otetaan huomioon hyvän tieteellisen käytännön mukaisesti?

Tutkimuseettinen neuvottelukunta (TENK) julkaisi tammikuussa suosituksen tieteellisten julkaisujen tekijyydestä sopimisesta, jonka laatimiseen osallistuin Tietoarkiston edustajana. Suosituksen tavoitteena on kannustaa erityisesti yhteisjulkaisuja tuottavia tutkimusryhmiä sopimaan tekijyydestä mahdollisimman ajoissa. Taustalla on ensinnäkin tavoite ehkäistä tekijyyskiistoja ja toisaalta muistuttaa, että tekijyyden asianmukainen merkitseminen on hyvän tieteellisen käytännön mukaista. Akateemisessa maailmassa tieteellinen julkaiseminen on tärkeä osa tutkijan meritoitumista ja nimi tekijäluettelossa kerryttää tieteellistä pistesaalista. Tämän vuoksi on tärkeää, että jokaisen tekijän työpanos tunnustetaan oikeudenmukaisesti. Tavoitteena onkin kannustaa tutkimushankkeita ja -ryhmiä pohtimaan sitä tapaa, jolla jokaisen osallisuus tehtyyn tutkimukseen huomioidaan mahdollisimman oikeudenmukaisesti.

Suosituksen yhtenä tavoitteena on kannustaa tutkimusryhmiä huomioimaan tekijyyden eri aspekteja tutkimuksen eri vaiheissa. Kysymys tekijyydestä kristalloituu usein siitä, kuka kirjoitti ja kuinka paljon. Monenlaiset muut roolit voivat kuitenkin oikeuttaa siihen, että tutkija saa nimensä tekijäksi. Suositus määrittelee tekijyydeksi kaikkea toimintaa, joka tuottaa ja mahdollistaa tutkimustietoa. Siten esimerkiksi tutkimusaineistojen tuottaminen, analyysi ja tulkinta voivat joillain tieteenaloilla oikeuttaa tekijyyteen. Tieteenalakohtaiset erot ja käytännöt eivät kuitenkaan ole aina selviä, jos tutkimushankkeessa on useiden eri tieteenalojen edustaja. Silloin myös aineistoja koskevien käytäntöjen tekeminen selväksi on kaikkien edun mukaista.

TENKin ohjeistus suosittelee laatimaan aineistonhallintasuunnitelman, jossa aineistoihin liittyvät velvollisuudet ja oikeudet tulevat määritellyiksi. Myös Tietoarkistossa kannustamme tutkijoita aina laatimaan aineistonhallintasuunnitelman ja sopimaan aineistoihin liittyvistä oikeuksista. Sopiminen selkiyttää esimerkiksi sitä, kuka merkitään aineiston tekijäksi. Tekijänoikeudellisesta näkökulmasta aineistoista sopiminen turvaa aineiston tekijän (aineiston kerääjän, koostajan tai luovuttajan) moraalisia oikeuksia. Jos aineisto arkistoidaan jatkokäyttöä varten, ovat jatkokäyttäjät aina velvoitettuja viittaamaan siihen asianmukaisesti. Tämä on tärkeää myös siksi, että tutkimus- ja tietoaineistojen tuottaminen ja jakaminen on tutkijalle tieteellinen ansio samalla tavalla kuin tutkimusjulkaisu.

Tämä blogiteksti on viimeinen tietoarkistolaisena kirjoittamani. Matkani tutkimusdatan ja avoimen tieteen parissa jatkuu kuitenkin uusissa tehtävissä Tampereen teknillisessä yliopistossa.

Lisätietoa:
» Tietoarkiston asiakaspalvelu: asiakaspalvelu.fsd at uta.fi
» Aineistonhallinnan käsikirja, sopimukset ja oikeudet
» Tutkimuseettinen neuvottelukunta: Tieteellisten julkaisujen tekijyydestä sopiminen

Katja Fält
tietoasiantuntija, TTY
Tietoarkiston entinen humanististen alojen tieteenala-asiantuntija
fsd [at] uta.fi

Let There Be Digital Preservation – A View from the Data Archive

For the most part, November 6 this year was just an ordinary day. What was different about it was a tiny SIP1, neatly wrapped in a METS2-container that digitally travelled from the Finnish Social Science Data Archive to the National Long Term Digital Preservation Service.

Confused? No worries. So were we a number of times before we got this far. Taking our digital preservation to the level described above required planning and hard work from both research data curators and programmers. In addition to simply preserving bits in a reliable way, we aim to make sure that the digital objects are also understandable by humans and machines in the future. This requires collecting metadata, harmonising file formats, managing versions, and preparing for the change.

I have often said that preserving digital research data is like preserving a moving train. You cannot stop it. If you do, you are not preserving a moving train anymore, only a snapshot. There is a lot to preserve and it may hit you hard, and a lot quicker than you think. The train also has different cars – one can add more, or take some away. Like file formats, cars are different too – from passenger cars to freight cars. There are containers, with hundreds of objects. You need to know what is in each one, and who should have access to those. Some cars contain goods, some people. While goods may last for a long time, people need to be refreshed regularly or they will not survive the journey.

The long road to preservation is paved with obstacles and opportunities

The train analogy should show that digital preservation is an active duty. You cannot put a lid on it and wait until someone asks what is in the box. Because by then, you do not know anymore. Everyone in the preservation business recognises this. At the Data Archive, we preserve research data for long-term access. That means that we actively keep on adding new information too. We make the metadata better, we may find errors in the data and fix them, or at very least we add information on where the data has been used. Moving train, remember!

Since 2008, we have been involved in building a national digital preservation solution for cultural heritage materials and research data. For our purposes, a secure, highly reliable document store is a crucial element for building a sustainable and scalable long-term preservation solution. It will add an additional preservation layer for the data we keep for our users. In a country about the size of Finland, it is feasible to provide a preservation platform nationally to a number of organisations.

We started piloting the service in 2015 and in November we finally transferred out first packages to the preservation service. It has been a long road. We have yet to pop the sparkling wine since there are a number of short-term goals to address. Piloting a service means that there have been moments when the envisioned services are not yet fully operational, specifications need tweaking before one can proceed, or something has simply appeared out of the blue.

Tools are needed to handle the data deluge

The greatest benefit of the exercise thus far has been the internal harmonisation of file formats and data processing workflows. The Data Archive has been around since 1999. While that is a relatively short time, it is a lifetime for many file formats or their versions. We have combed through the most – about 50 000 files – and defined what will be preserved and what are the acceptable file formats. While this is good, it is crystal clear that a constant technology watch is needed in the future. It is also apparent that very soon the magnitude of this will get out of hand. We cannot manually keep an eye on all files, versions and processes.

Therefore, we have built a specific data processing pipeline. It is a collection of tools that fulfil the requirements of the National Long Term Digital Preservation Service specification. It has individual parts that are responsible of standardising the character sets of all files to UTF-8, combining technical metadata with study level metadata, and creating a METS document as well as creating a submission information packet (SIP), and sending it to the preservation service provider.

Commit to constantly challenge the current practices

It is often the case that the ideal format for digital preservation may not be ideal for scientific use. This is no new dilemma. We need to carefully assess not only the formats and their feasibility for digital preservation, but also the costs of maintaining the system of archive formats and actively used formats. Any organisation that joins the national digital preservation service must have an interest in challenging the current best practises and bringing their specific user perspective into the discussion. Because in the end, everything is kept for future use, not for storage only.

The other corner stone is commitment. Once you start with digital preservation, you cannot easily stop. It means the knowhow and resources need to be there in the future too. We believe that a national solution will be beneficial for us. We are able to transfer some of our knowhow requirements to the digital preservation specialists, and focus on serving researchers better. However, we do need to keep monitoring the specialists’ performance like our own. Any outsourced activity in the digital preservation chain cannot be the weakest link. Therefore, further standardisation and auditing are crucial steps in the future.

Notes:
1 Submission Information Package (Information sent from the producer to the preservation service)
2 The Metadata Encoding and Transmission Standard (METS) (Container format and metadata standard for encoding descriptive, administrative, and structural metadata regarding objects)

Why today?
» This year, the first ever International Digital Preservation Day on 30th November 2017 will draw together individuals and institutions from across the world to celebrate the collections preserved, the access maintained and the understanding fostered by preserving digital materials. The aim of the day is to create greater awareness of digital preservation that will translate into a wider understanding which permeates all aspects of society – business, policy making, personal good practice.

Further reading:
» The National Digital Library – Digital Preservation
» Digital Preservation Solution for Research Data (PAS)

Tuomas J. Alaterä
IT Services Specialist
firstname.surname [at] uta.fi

GDPR tulee – onko akateeminen vapaus ja arkistojen toiminta vaarassa?

Euroopan unionin yleistä tietosuoja-asetusta, tuttavallisemmin GDPR:ää, ja sen aiheuttamia muutoksia tutkijoiden, yliopistojen ja arkistojen toimintaan on odotettu kauhun sekaisin tuntein jo kohta kuusi vuotta. Otsikon kysymys pyöri mielessä varmasti monella osallistujalla Tietoarkiston ja Avoin tiede- ja tutkimus -hankeen loka-marraskuun vaihteessa järjestämissä seminaareissa EU:n tietosuoja-asetus – tietosuojalainsäädännön muutokset tutkimuksessa ja arkistoinnissa sekä Tietosuoja ja tutkittavan suostumus osallistua tutkimukseen. Paikalla ja etänä tapahtumia seurasi yhteensä lähes tuhat ihmistä.

Valitsimme seminaarien ajankohdan hyvissä ajoin olettaen, että kotimainen tarkentava lainsäädäntö ja Euroopan tietosuojatyöryhmän odotettavissa olevat suostumusta koskevat ohjeet olisivat valmistuneet. Olimme sittenkin etuajassa, emmekä valitettavasti saaneet lopullisia vastauksia kaikkiin kuulijoiden – ja osin järjestäjienkin mieltä vaivaaviin kysymyksiin.

Oikeusministeriö sai lausuntokierrokselta tietosuojalaista yli sata lausuntoa. Nyt ministeriön virkamiehet valmistelevat hallituksen lakiesitystä. Lain pitäisi tulla voimaan samaan aikaan, kun tietosuoja-asetusta aletaan soveltaa 25.5.2018. Euroopan WP29-tietosuojatyöryhmän suostumusta koskeva ohjeluonnos julkaistaneen marraskuussa työryhmän kokouksen jälkeen.

Jotkin asiat ovat selvillä kuitenkin jo nyt. Varmaa on, että siitä mikä on asetuksessa säädetty, ei voida säätää uudelleen kotimaisessa tietosuojalaissa tai muissa kansallisissa säädöksissä. Tässä mielessä ei kannata odottaa liikoja kotimaiselta lainsäädännöltä. Säätää voidaan vain siitä, mihin asetus antaa mahdollisuuden. Jotkin asetuksen ja kotimaisen lain tulkinnat selviävät viimeistään vasta oikeustapauksien myötä. Lainsäädännön noudattamisen tueksi tarvitaan alakohtaisia käytännesääntöjä ja muita ohjeita.

Tavoitteena tutkittavien oikeuksien vahvistaminen

Tietosuoja-asetuksen tavoitteena on vahvistaa rekisteröidyn oikeuksia ja lisätä henkilötietojen käsittelyn avoimuutta. Se kuitenkin huomioi tutkimuksen erityislaadun eikä tarkoituksena ole rajoittaa tutkimuksen vapautta. Kansallisessa lainsäädännössä on sovitettava yhteen toisaalta oikeus henkilötietojen suojaan ja toisaalta oikeus sananvapauteen ja tiedonvälityksen vapauteen. Vapauksiin sisältyy myös tietojen käsittely akateemisen ilmaisun tarkoituksiin.

Tutkijoiden on syytä huomata, että tietosuojakielen ”rekisteröity” tarkoittaa heidän tutkittaviaan, jos itse tutkimusaineisto sisältää henkilötietoja. Lisäksi henkilötiedon käsite on paljon laajempi, kuin tutkijat ajattelevat sen olevan. Kun tutkii ihmisiä ja yhteiskuntaa tavalla tai toisella, kannattaa olla kiinnostunut EU:n tietosuoja-asetuksesta ja tulevasta kotimaisesta lainsäädännöstä. Tietosuojavaltuutetun toimiston ylitarkastaja Anna Hänninen muistutti esityksessään myös, että tietosuojan toteuttaminen tutkimuksessa ylläpitää luottamusta tutkimukseen yleisesti.

Tietojen käsittelylle oltava perusteet

Tietosuoja-asetuksen 6 artikla sisältää oikeusperusteet henkilötietojen lainmukaiselle käsittelylle. Perusteita henkilötietojen käsittelylle ovat sen perusteella muun muassa tutkittavan yksilöity suostumus ja käsittelyn tarpeellisuus yleistä etua koskevan tehtävän suorittamiseksi.

Jos käsitellään arkaluonteisia tietoja, on lisäksi jonkin 9 artiklan perusteista täytyttävä. Arkaluonteisia tietoja saa käsitellä esimerkiksi nimenomaisella suostumuksella, tieteellistä tai historiallista tutkimustarkoitusta varten, mutta käsittelyoikeudesta ja suojatoimista on säädettävä unionin oikeudessa tai kansallisella lainsäädännöllä, esimerkiksi tulevalla tietosuojalailla.

Kannattaa huomata, että arkaluonteisia tietoja saa käsitellä tutkimuksessa vain, jos se on tarpeen tutkimuksen tavoitteiden saavuttamiseksi. Toisin sanoen vaikka tutkittava olisi antanut suostumuksensa, tietoja ei saa käsitellä, jos se ei ole tarpeen. Tästä periaatteesta ei voida poiketa kansallisella lainsäädännölläkään. Esimerkiksi tarpeetonta käsittelyä olisi rekisteriaineiston käyttäminen anonymisoimattomana suojatun etäkäyttöjärjestelmän välityksellä, jos tutkimuksen tarkoituksen voisi saavuttaa anonyymiä aineistoa käyttäen. Kyse on tietojen minimoinnin periaatteen noudattamisesta. Tarvitaan siis rekistereistä tutkimustarkoituksiin valmistettuja dataversioita ja ehkä vielä yleisempään käyttöön soveltuvia versioita, ja tarvitaan Tietoarkiston kaltaisia toimijoita, jotka avustavat tutkijoita aineiston anonymisoinnissa ja avaamisessa alkuperäisen tutkimushankkeen jälkeen.

Tietosuojalain toivotaan turvaavan avointa tiedettä

Yleisen edun mukaisia arkistointitarkoituksia, tutkimustarkoituksia ja tilastollisia tarkoituksia varten tapahtuvan henkilötietojen käsittelyn perussäännös on tietoasuoja-asetuksen 89 artikla. Siinä säädetään suojatoimista ja poikkeuksista, joista voidaan säätää kansallisesti tai myös unionin oikeudessa muilla säädöksillä. Artiklaan viitataan muun muassa edellä mainituissa 6 ja 9 artikloissa.

Opetus- ja kulttuuriministeriön hallitusneuvoksen Immo Aakkulan mukaan tietosuojalakiin on tulossa laaja poikkeuspykälä käsittelyperustevaatimuksista ja rekisteröidyn oikeuksista. Hän esitteli seminaarissa OKM:n ehdotusta arkistoinnin osalta. Pyrkimyksenä on turvata myös muiden kuin Kansallisarkiston toimintamahdollisuudet. Siksi ehdotuksessa arkistotyyppinen rekisterinpitäjä määritellään laajasti niin, että sen tehtävä voi olla lakisääteinen tai sääntömääräinen tutkimus- tai kulttuuriperintöaineistojen tallentaminen ja saataville saattaminen. Toiminnan olisi lisäksi perustuttava julkisesti saatavilla olevaan suunnitelmaan; tietojen tulisi olla käytettävissä tieteelliseen ja historialliseen tutkimukseen ja journalistisia tarkoituksia varten; ja tietoja voisi luovuttaa vain niille, joilla on oikeus tietojen käsittelyyn.

Koska tietosuojalaista ei ole vielä edes hallituksen esitystä, emme voi tietää, meneekö OKM:n esittämä muotoilu läpi ja miten aineistojen avaaminen jatkokäyttöön mahdollistetaan tulevaisuudessa. Mietimme Tietoarkistossa, helpottuuko vai vaikeutuuko toimintamme, kun tietosuoja-asetusta aletaan soveltaa. Toivomme tutkimusaineistojen vastuullisen avoimuuden turvaavaa ratkaisua.

Tutustu tapahtumasivujen materiaaliin

Seminaarien esitysdiat ja -taltioinnit ovat katsottavissa seminaarien tapahtumasivuilla, jos puhuja on antanut tähän luvan. Kannattaa katsoa esimerkiksi ylitarkastaja Anna Hännisen esitykset, joista saa hyvän käsityksen siitä, mitä EU:n tietosuoja-asetus merkitsee tutkimuksen tai tutkittavan suostumuksen näkökulmasta. Hallitusneuvos Immo Aakkulan esityksestä näkee tarkemmin, mitä ministeriö on ehdottanut oikeusministeriölle, jotta myös avoimen tieteen ja arkistoinnin tarpeet huomioitaisiin.

Kiitän järjestäjien puolesta suuresta kiinnostuksesta ja saamastamme palautteesta.

Lisätietoa:
Linkit seminaaritallenteisiin ja esityksiin:
» EU:n tietosuoja-asetus – tietosuojalainsäädännön muutokset tutkimuksessa ja arkistoinnissa (31.10.2017)
» Tietosuoja ja tutkittavan suostumus osallistua tutkimukseen (1.11.2017)
Lähteitä:
» EU:n tietosuoja-asetus Euroopan unionin virallisessa lehdessä (pdf)
» Tietosuojavaltuutetun toimiston tiedotteet tietosuojauudistuksesta
» Tietosuojatyöryhmä, Article 29 Data Protection Working Party
» Tiedonhallinnan lainsäädännön kehittämislinjaukset: Työryhmän raportti. Valtiovarainministeriön julkaisuja 37/2017.

Helena Laaksonen
johtaja
etunimi.sukunimi [at] uta.fi

Sosiaalisen median ja internetin aineistot – mitä voin arkistoida Tietoarkistoon?

Tietoarkistolta kysytään säännöllisin väliajoin voiko sosiaalisen median aineistoja ja erilaisia verkkoaineistoja arkistoida jatkokäyttöä varten. Sosiaalisen median ja verkon aineistot ovat varsin monimuotoisia, kuten niitä hyödyntävä tutkimuskin. Usein tutkijan onkin tarpeen eritellä, millaista aineistoa on keräämässä ja millaisilta alustoilta. Arkistointimahdollisuus riippuu nimittäin pitkälti siitä, tutkiiko verkkokeskusteluja, organisaatioiden nettisivuja vai esimerkiksi nettiblogeja. Lisäksi kysymykseen vaikuttavat muun muassa tekijänoikeuteen ja tietosuojaan liittyvät seikat. Asia ei siis ole yksinkertainen, mutta ei onneksi mahdotonkaan.

Aineistoista haasteellisimman kokonaisuuden muodostavat sosiaalisen median aineistot. Somedataa on yleensä mahdollista kerätä eri sosiaalisen median alustoilta ja käyttää tutkimustarkoituksiin. Ongelmaksi kuitenkin nousee aineistojen arkistointi ja jatkokäyttö, jota sosiaalisen median alustojen liiketoimintamalli ei pääsääntöisesti salli. Esimerkiksi Facebook, LinkedIn ja Google omistavat oikeuden ostaa ja myydä käyttäjiensä tuottamaa sisältöä, ja pidättävät siten sen omistusoikeuden. Käytännössä alustat haluavat siis ensisijaisesti hyödyntää käyttäjädataa itse, eivätkä antaa sitä kolmansille osapuolille jatkohyödynnettäväksi. Muun muassa tästä syystä sosiaalisen median aineistojen arkistointi jatkokäyttöä varten esimerkiksi Tietoarkistoon ei ole mahdollista.

Myös muualta verkosta kerätyissä aineistoissa on arkistoinnin näkökulmasta muutamia rajoitteita. Yksityisten henkilöiden välinen viestintä, joka tapahtuu keskustelupalstoilla, blogeissa tai muissa vastaavissa ei ole arkistoitavissa. Näin on etenkin sellaisissa tapauksissa, kun palstalle tai blogiin pääsy vaatii kirjautumisen. Arkistointi on yleensä mahdotonta myös silloin, kun verkkosivuilla on sisältöä, johon sivun ylläpitäjällä ei ole oikeuksia. Käytännössä tämä tarkoittaa esimerkiksi sivustoja, joiden sisältö on otettu jostain muualta tai sisällön ovat tuottaneet jotkut muut kuin sivuston ylläpitäjä. Asiaa monimutkaistaa vielä se, että kaikkien verkkosivujen kohdalla ei aina ole selvää, kenellä on tekijänoikeus sisältöön. Epäselvissä tapauksissa asiasta kannattaa aina kysyä sivuston ylläpitäjältä.

Vaikka rajoitteet saattavat aluksi tuntua lannistavilta, verkossa on runsaasti aineistoja, joita voi arkistoida jatkokäyttöön. Tietoarkiston ja Kopioston välinen sopimus mahdollistaa erilaisten verkkosisältöjen keräämisen ja arkistoimisen sivustoilta, jotka eivät edellytä kirjautumista tai lisenssin hankkimista. Jos kuva- tai tekstiaineisto on kerätty kaikille avoimilta nettisivuilta, esimerkiksi julkisten organisaatioiden sivuilta, sen voi arkistoida Tietoarkistoon. Tämä pätee myös yleisiin blogiteksteihin kuten lehtien ylläpitämiin tai muutoin toimitettuihin blogeihin. Kannattaa kuitenkin muistaa, että arkistoida saa vain varsinaisia blogitekstejä, ei mahdollista kommenttiosiota, jossa yksityishenkilöt viestivät keskenään.

Tietoarkistoon on mahdollista arkistoida myös sellaista verkkosivuilta kerättyä tekstiä, joka on lisensoitu CC-lisenssillä eli Creative Commons -lisenssillä. Tällä lisenssillä teoksen tekijä voi jakaa tekijänoikeuslain suomia yksinoikeuksia muille. Yleisin lisenssi on CC BY, jonka mukaisesti lisensoitua teosta ja sen pohjalta tehtyjä muokattuja versioita saa kopioida, levittää, näyttää ja esittää julkisesti. Lisäksi lisensoidun tekstiaineiston arkistointi edellyttää luvan pyytämistä tekijältä.

Verkko- ja someaineistoja keräävä tutkija voikin siis noudattaa peukalosääntönä seuraavaa:

Tietoarkistoon on mahdollista arkistoida

  • Vapaasti kaikkien saatavilla olevien verkkosivujen kuva- ja tekstiaineistoja
  • Yleisiä blogitekstejä kuten lehtien ylläpitämiä ja toimitettuja blogeja
  • CC-lisensoituja kuva- ja tekstiaineistoja verkkosivuilla, jos arkistointiin saa luvan tekijältä

Tietoarkistoon ei ole mahdollista arkistoida

  • Sosiaalisen median dataa
  • Yksityisten henkilöiden välistä viestintää keskustelupalstoilla, blogeissa tai muissa vastaavissa
  • Verkkosivustoilta kopioitua sisältöä silloin, kun osa sivusta on muualta otettua tai muiden tekemää sisältöä, joiden oikeuksien haltija ei ole verkkosivun ylläpitäjä

Lisäksi kannattaa muistaa, että AllerMedian ja Kielipankin sopimuksen mukaisesti Suomi24-aineistojen käyttö on mahdollista Kielipankin kautta. Kielipankin kautta on käytettävissä myös Helsingin Sanomien kotimaan uutisia ja niiden kommentteja sisältävä aineisto.

Mikäli et ohjeistuksesta huolimatta ole varma, soveltuuko aineistosi arkistoitavaksi, ota suoraan yhteyttä Tietoarkiston asiakaspalveluun ja kysy neuvoa!

Lisätietoa:
» Tietoarkiston asiakaspalvelu: asiakaspalvelu.fsd at uta.fi
» Kielipankki
» Tietoarkistolehti (45, 2/2016): Someaineistojen arkistointi ja jatkokäyttö kaatuvat useimpien alustojen käyttöehtoihin

Katja Fält
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi

Tutkimusaineistojen avaaminen on tutkittavien etu

Terveys- ja lääketieteellisistä asioista olisi paljonkin kirjoitettavaa, mutta tämä blogiteksti jää viimeiseksi kirjoituksekseni Tietoarkistossa. Kun yksi ovi sulkeutuu, toisia avautuu – tällä kertaa ovi avautui Terveyden ja hyvinvoinnin laitoksessa, jossa nyt työskentelen.

Tämä kirjoitus käsittelee tärkeää aihetta, eli sitä mikä on tutkittavan etu lääketieteellisten tutkimusaineistojen avaamisessa. Taustalla ovat yhä lisääntyvät vaatimukset tutkimuksen avoimuudesta. Niistä lääketieteen tutkimuksen kannalta merkittävin on kansainvälisten lääketieteellisten lehtien komitean (ICMJE) tavoite, jonka mukaan kaikkien kliinisten tutkimusten aineistot on jatkossa aukaistava.

Miksi sitten sellainen instituutio kuin ICMJE suosittelee kliinisten tutkimusten datojen avaamista? Monella varmasti herää kysymys, eivätkö he ajattele tutkimukseen osallistuvien tietosuojaa? Ehkä vähän yllättäen, ICMJE kuitenkin perustelee tutkimusaineistojen avaamista juuri osallistujien edulla.

Heidän mukaansa kyse on ennen kaikkea tutkijan vastuusta tutkittavilleen. Jo suostumuksessa osallistujille tehdään selväksi, että tutkimuksen hyödyt eivät välttämättä suoraan koidu heille itselleen, vaan tuleville potilaille. Osallistuessaan tutkimukseen tutkittavat siis asettavat terveytensä, hyvinvointinsa ja taloudellisen toimeentulonsa alttiiksi riskeille hyödyttääkseen tulevia potilaita. Siksi on eettisesti välttämätöntä, että tutkimusaineisto ja sen tulokset käytetään hyödyksi mahdollisimman tarkoin.

Se ei onnistu, mikäli tutkimusaineistoa pääsee käyttämään vain datan kerännyt yritys tai akateeminen tutkimusryhmä. On epätodennäköistä, että tutkijat pystyvät analysoimaan täydellisesti kaikkea keräämäänsä dataa. Tutkimuksen tulokset voivat myös jäädä epäselviksi, jos tutkittavien joukko on ollut liian pieni, jotta intervention vaikutukset saataisiin tutkimuksessa selville. Tutkimuksen puutteetkin havaitaan helpommin ulkopuolisen silmin.

Siksi data on tärkeää antaa myös muiden tutkijoiden saataville. He voivat ottaa datan oman tutkimusaineistonsa rinnalle, jolloin tutkimusjoukon kasvu pienentää havaitun vaikutuksen suuruuteen ja suuntaan liittyvää epävarmuutta. Datan jakaminen auttaa pääsemään varmuuteen hoidon vaikuttavuudesta nopeammin ja potilaat hyötyvät paitsi nopeammasta uudesta hoidosta, myös siitä, ettei tutkimusta tarvitse toistaa yhtä monta kertaa ja altistaa yhä uusia osallistujia riskeille.

ICMJE esittää, että lähivuosina tutkimusaineistojen avaamisesta tehdään pakollista. Se ei ole vaatimuksineen yksin – yhä useampi tutkimusrahoittaja ja muun muassa Institute of Medicine/National Academy of Medicine sekä European Medicines Agency vaativat tutkimusaineistojen avaamista.

Potentiaalisena tulevien hoitojen ja lääkkeiden käyttäjänä kannatan lämpimästi myös lääketieteellisten aineistojen avaamista. Tänä tietotekniikan aikakautena tutkittavien tietosuoja saadaan varmasti taattua kaikkia osapuolia tyydyttävällä tavalla vaikkapa tietoturvallisten etäkäyttöjärjestelmien avulla. Suomessa tällainen etäkäyttöjärjestelmä on jo rakenteilla rekisteritietojen tietoturvallista käyttöä varten.

Annaleena Okuloff
erikoissuunnittelija, THL
Tietoarkiston entinen terveystieteiden tieteenala-asiantuntija
fsd [at] uta.fi

Aineiston avaajan muistilista

Tietoarkiston tieteenala-asiantuntija Katja Fält ja tutkimusamanuenssi Eliisa Haanpää antoivat Jyväskylässä pidetyllä Metodifestivaalilla hyviä käytännönvinkkejä tutkimusaineistojen avaamiseen.

Aineistojen avaaminen tarkoittaa, että oma tutkimusaineisto saatetaan muun tiedeyhteisön käyttöön avoimen tieteen periaatteiden mukaisesti. Tätä vaativat tai suosittelevat nykyisin jo useimmat suomalaiset sekä kansainväliset yliopistot, julkaisijat ja rahoittajat. Aineiston avaaminen on myös tutkijalle itselleen tieteellinen meriitti, ja se lisää oman tutkimuksen vaikuttavuutta.

Aineistojen avaamista käsittelevä sessio herätti Metodifestivaalilla paljon kiinnostusta, mistä voi päätellä, että tutkijat kaipaavat asiassa konkreettisia neuvoja. Kokosimmekin Tietoarkistoblogiin Haanpään ja Fältin esityksiin perustuvan muistilistan, josta toivottavasti on apua aineiston avaamista suunnitteleville tutkijoille myös jatkossa! Vinkeistä on apua sekä siinä vaiheessa, kun aineistonkeruu on vasta suunnitelmissa että silloin, kun aineisto on jo olemassa, ja se on päätetty arkistoida.

Kun oman aineiston arkistoiminen ja avaaminen tulevat ajankohtaisiksi, kannattaa tutustua myös Tietoarkiston Aineistonhallinnan käsikirjaan ja ottaa yhteyttä Tietoarkiston asiakaspalveluun. Asiantuntijoiltamme saat aina parhaat täsmäneuvot juuri oman aineistosi vastuulliseen avaamiseen.

1. Tee aineistonhallintasuunnitelma

Aineistonkeruun suunnitteluun ja aineiston käsittelyyn kannattaa käyttää aikaa, että aineiston avaaminen jatkokäyttöä varten onnistuu tutkimuksen lopuksi. Olennaista on kiinnittää huomiota siihen, että aineisto on alusta asti johdonmukaisesti kerätty, kuvailtu ja toteutettu.

Aineistonhallintasuunnitelmassa kannattaa kertoa ainakin, minkälaista aineistoa aikoo kerätä, mitkä ovat aineistoon liittyvät oikeudet, minkälaisia tietosuoja- tai tietoturvakysymyksiä aineistoa kerätessä, käsitellessä ja säilytettäessä pitää huomioida, minkälaisia tiedostoformaatteja ja ohjelmistoja aineistoon liittyy, miten aineistoa aiotaan käsitellä, miten se kuvaillaan ja millainen aineiston elinkaaresta kokonaisuudessaan ajan myötä muodostuu.

Aineistonhallintasuunnitelman laatimiseen saa hyviä neuvoja Aineistonhallinnan käsikirjasta. Konkreettinen apu on myös aineistonhallintasuunnitelman laatimista varten kehitetty työkalu DMPTuuli.

2. Pohdi onko aineistossasi tunnisteellisia tietoja

Ihmistieteiden tutkimusaineistot sisältävät useimmiten enemmän tai vähemmän tutkittavien henkilötietoja. Tiedot ovat tunnisteellisia, jos niiden perusteella on mahdollista tunnistaa yksittäinen henkilö. Henkilötietolain ja EU:n tietosuoja-asetuksen määritelmien mukaisesti käytännössä mikä tahansa elävää ihmistä koskeva tieto voi olla tunnistamisen mahdollistava henkilötieto. Henkilötietojen käsittely vaatii aina tutkittavien nimenomaisen suostumuksen, ja tunnisteellisen aineiston avaaminen on usein tietosuojasyistä haastavaa.

Jos tunnisteellisen aineiston anonymisoi, siihen ei enää tarvitse soveltaa henkilötietolakia tai tietosuoja-asetusta. Anonymisointi tarkoittaa sitä, että tunnisteelliset tiedot häivytetään aineistosta niin täydellisesti, että yksittäisen henkilön tunnistaminen ei enää ole mahdollista.

Henkilötiedoista ja aineistojen anonymisoinnista voi lukea tarkemmin kvalitatiivista aineistoa ja kvalitatiivista aineistoa koskevista blogikirjoituksista.

3. Varmista onko aineisto tekijänoikeuden alaista

Erityisesti laadullisen aineiston avaaja törmää usein tekijänoikeuteen liittyviin kysymyksiin. Teossuojaa saavan aineiston avaaminen saattaa olla ongelmallista, mutta useimmiten se on kuitenkin mahdollista erikseen sopimalla. Tärkeintä on ymmärtää, että tekijänoikeuden haltija määrää aineiston käyttötavat, joten aineiston jatkokäyttöön on yleensä saatava suostumus tekijänoikeuden haltijalta.

Tietoarkisto on solminut Kopioston kanssa sopimuksen, jonka perusteella teossuojaa saavat sanomalehti-, aikakauslehti- ja kuva-aineistot, eli kaikki Kopiosto-sopimuksen alaiset aineistot voi arkistoida Tietoarkistoon. Näiden aineistojen kohdalla tutkijan ei siis tarvitse enää ryhtyä itse kysymään teossuojaa saavien aineistojen avaamiseen erillisiä lupia.

Esimerkiksi tutkittavien ottamien valokuvien tai heidän kirjoittamiensa teoksiksi tulkittavien tekstien avaamiseen sen sijaan tarvitaan erillinen lupa. Sosiaalisen median aineistojen avaamisessa tekijänoikeudet muodostuvat valitettavasti usein aineiston avaamissuunnitelmat pysäyttäväksi kynnyskysymykseksi, koska Suomen laissa ei ole ainakaan vielä tutkimuskäyttöä mahdollistavaa poikkeussäännöstä.

4. Tallenna aineisto huolellisesti

Kun aineisto on kerätty, tallenna havaintomatriisi, haastattelulitteraatiot tai muu aineisto varmaan paikkaan. Huolehdi myös siitä, että aineistosta tulee otettua säännöllisesti varmuuskopio. Uusi varmuuskopio kannattaa ottaa aina esimerkiksi silloin, jos lisäät aineistoon jotain taustatietoja. Näin varmistat, ettei aineisto katoa kesken analysoinnin tai ennen kuin se on ehditty avata jatkokäyttöön.

5. Nimeä aineiston muuttujat loogisesti

Aineistoa kuvaillessaan kannattaa miettiä, minkä verran aineistosta pitäisi kertoa, jotta itse pystyisi vielä kymmenen vuoden päästä ymmärtämään, mistä aineistossa on kyse ja käyttämään sitä vaivatta uuteen tutkimukseen.

Nimeä kvantitatiivisen aineiston muuttujat ja niiden selitteet niin, että ne vastaavat mahdollisimman yksiselitteisesti kyselylomaketta tai muuta keruuinstrumenttia. Myös muuttuja-arvot ja niiden selitteet kannattaa avata kokonaisuudessaan. Lyhenteiden käyttäminen on riski, koska lyhenteet saattavat sekoittua toisiinsa.

Muuttuja-arvoille tehdyt muutokset kannattaa raportoida mahdollisimman hyvin, niin alkuperäisen muuttujan selvittäminen onnistuu tarvittaessa. Kerro aina myös mahdollisesta painomuuttujien käytöstä ja kuvaile tarkasti painomuuttujiin liittyvät tiedot.

Myös puuttuvien tietojen määritteleminen on tärkeää. Jos siis vastaaja ei ole esimerkiksi vastannut kyselytutkimuksessa johonkin kysymykseen mitään, vastauksen voi koodata selkeästi muista vastausvaihtoehdoista erottuvalla numerolla kuten 999.

6. Kuvaile tutkimuksen toteutustapa riittävän tarkasti

Kuvaile mahdollisimman tarkasti aineistonkeruuseen liittyvät yksityiskohdat, eli milloin keruu on aloitettu, milloin se on lopetettu ja minkälaisia yksityiskohtia aineistonkeruuseen liittyy. Muista kirjata ylös tutkimuksen alkuperäinen käyttötarkoitus, eli se minkä vuoksi aineisto on kerätty, samoin se, ketkä ovat aineiston tekijät. Pidä mahdollisimman tarkkaa listaa myös siitä, minkälaisiin julkaisuihin aineistoa on käytetty, jotta mahdollinen jatkokäyttäjä tietää, minkälaisia julkaisuja aineistosta on jo tehty.

Aineiston perusjoukko eli aineiston kattama populaatio kannattaa määritellä mahdollisimman tarkasti jo aineistonkeruuvaiheessa. Myös havaintoyksikön määritteleminen on olennaista. Huomaa, että perusjoukko ja havaintoyksikkö voivat olla keskenään eri asiat. Jos esimerkiksi havaintoyksikkönä on kunta, ja tutkimuksessa on haluttu selvittää yksittäisten kuntien tai useiden kuntien tilannetta, perusjoukkona aineistossa saattavat olla esimerkiksi kunnanjohtajat, joita on haastateltu, jotta saadaan tietoa havaintoyksiköstä eli kunnasta.

7. Muista, että huolellinen suunnittelutyö palkitaan

Vaikka aineistonkeruun suunnitteleminen, käsittely ja anonymisointi voivat tuntua työläiltä, kannattaa pitää mielessä, että käytetty aika maksaa itsensä takaisin. Aineistonhallinnan suunnittelu ja johdonmukainen käsittely auttavat jo tutkimuksen toteuttamisvaiheessa, ja takaavat sen, että aineiston avaaminen sujuu helposti ilman ylimääräisiä ponnisteluja.

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi