Tag Archives: anonymisointi

Some-aineistojen tutkiminen kariutuu usein tekijänoikeuksiin ja käyttöehtoihin

Sosiaalisen median aineistojen tutkiminen on ajankohtaista sekä humanistisilla aloilla että yhteiskuntatieteissä, mutta se miten uudentyyppisiä aineistoja saa tutkia, on monelle epäselvää.

Tietoarkiston, ATT-hankkeen ja Kielipankin järjestämässä Rajoittaako lainsäädäntö humanistista tutkimusta -seminaarissa some-tutkimuksen haasteisiin saatiin sekä lakiasiantuntijan että tutkijan näkökulmat.

Informaatio-oikeuden asiantuntija Marjut Salokannel (SaReCo) kertoi some-aineistojen käyttöön liittyvistä rajoituksista sopimusoikeudellisista, tekijänoikeudellisista ja tietosuojaan liittyvistä näkökulmista. Tohtoriopiskelija Salla-Maaria Laaksosen esitys taas oli käytännön esimerkki siitä, minkälaisia ongelmia some-tutkija joutuu työssänsä ratkaisemaan.

Vain osa palveluista sallii tutkimuskäytön

Salokannel totesi, että eri palvelut suhtautuvat tutkimukseen hyvin eri tavoin.

Twitterin käyttöehdot sallivat aineiston tutkimuskäytön, kunhan se tapahtuu palvelun määrittämällä tavalla. Twitter tarjoaa tutkijoiden käyttöön esimerkiksi rajapinnan, jonka välityksellä aineiston kerääminen on sallittua.

Facebookin käyttöehdot puolestaan mahdollistavat aineiston ei-kaupallisen käytön, jolloin myös ei-kaupallisen tutkimuskäytön voi Salokanteleen mukaan tulkita sallituksi.

Aller Median omistaman Suomi24:n ehdoissa myönnetään lupa vain aineiston yksityiseen käyttöön, jolloin ammattimainen tutkimuskäyttö on tulkittava kielletyksi. Käytännössä Suomi24:n aineistojen tutkiminen on kuitenkin mahdollista, sillä Aller Media ja Kielipankki ovat tehneet sopimuksen, jonka nojalla Suomi24-aineistot voi ladata tutkimuskäyttöön laillisesti Kielipankin kautta.

Myös Instagramin käyttöehdot ovat tiukat, eikä siellä julkaistuja kuvia voi Salokanteleen tulkinnan mukaan käyttää tutkimukseen ainakaan millään automatisoidulla tavalla.

Marjut Salokannel toteaa, että sosiaalisen median eri palvelut suhtautuvat tutkimukseen hyvin eri tavoin. (Kuva: Laura Chieri).

Suurimmat ongelmat liittyvät tekijänoikeuksiin

Tutkimuksen kannalta suurimmat ongelmat liittyvät Salokanteleen mukaan some-aineistojen tekijänoikeuksiin. Teossuojattujen sisältöjen kopioiminen ja yleisön saataville saattaminen vaativat oikeudenhaltijan luvan aina, jos tekijänoikeuslaissa ei ole oikeuttavaa poikkeussäännöstä. Suomessa sosiaalisen median sisältöjen tutkimisen suurin ongelma onkin Salokanteleen mukaan se, että Suomen laissa ei ole niin sanottua tutkimuspoikkeussäännöstä.

Useimpien teoskynnyksen ylittävien aineistojen tutkiminen ja opetuskäyttö on ollut Suomessa mahdollista Kopioston ja yliopistojen välillä solmitun erillissopimuksen ansiosta. Sopimus ei kuitenkaan kata mitään sosiaalisen median julkaisuja.

Pientä helpotusta tuo se, että tekijänoikeudet ovat voimassa vain silloin, kun julkaisu ylittää teoskynnyksen. Käytännössä kynnys on kuitenkin hyvin matala. Tohtoriopiskelija Salla-Maaria Laaksonen totesi tuntevansa tapauksen, jossa 140 merkin twiitti oli tulkittu teokseksi. Salokannel puolestaan viittasi Luxembourgin tuomioistuimessa käsiteltyyn tapaukseen, jossa teokseksi oli tulkittu 11 sanaa. Esimerkiksi Instagram-kuvat ylittävät teoskynnyksen Salokanteleen mukaan käytännössä aina, samoin vähääkään omaperäisemmät kirjoitukset.

Panelistit Salla-Maaria Laaksonen (oik.), Ulla-Maija Peltonen, Anna Hänninen ja Marjut Salokannel (vas.) keskustelivat seminaarissa siitä, rajoittaako lainsäädäntö humanistista tutkimusta. (Kuva: Laura Chieri).

Salokannel totesi ongelman olevan nimenomaan Suomen laissa. Esimerkiksi Yhdysvalloissa kysymys on ratkaistu fair use -säännöksellä, jonka nojalla tekijänoikeuksien suojaamaa aineistoa voi käyttää tieteelliseen tutkimukseen ilman oikeudenhaltijoiden lupaa.

Salokannel totesikin, että myös Suomen lakiin täytyisi saada oikeuttamisperiaate, jonka nojalla sosiaalisen median aineiston tieteellinen tutkiminen olisi tekijänoikeuksista huolimatta yksiselitteisesti mahdollista. Hänen mukaansa tutkimuksen oikeuttavan säännöksen puuttuminen vaikeuttaa suomalaisen tutkimuksen kilpailua maailmalla ratkaisevasti.

Tietosuoja-asetus ei estä some-datan tutkimista

Tietosuojan puitteissa sosiaalisen median aineistojen tutkiminen on Salokanteleen mukaan useimmissa tapauksissa mahdollista. EU:n uusi tietosuoja-asetus hyväksyttiin toukokuussa, ja sitä aletaan soveltaa suoraan suomalaiseen lainsäädäntöön keväällä 2018.

Uusi asetus mahdollistaa henkilötietoja sisältävän aineiston tutkimuskäytön jopa ilman rekisteröidyn lupaa, kunhan tarvittavista suojatoimista on huolehdittu. Suojatoimet ovat tarpeen aina, kun aineistossa on tietoja, joista yksittäiset henkilöt voidaan tunnistaa joko suoraan tai välillisesti.

Tietosuoja-asetuksen mukaan henkilötietoja sisältävä materiaali tulisi anonymisoida täysin aina, kun se on tutkimuksen tekemisen kannalta mahdollista. Silloin, kun anonymisointi ei tule kysymykseen, yksi mahdollinen suojatoimi voi olla esimerkiksi aineiston pseudonymisointi.

Varteenotettavana suojatoimena Salokannel nosti esille myös lakisääteisen eettisen arvioinnin, jota esimerkiksi Ruotsissa edellytetään aina, kun tutkimuksessa käsitellään arkaluonteista tietoa. Etenkin uuden tietosuoja-asetuksen ajalla, digitaalisessa toimintaympäristössä samanlainen lakisääteinen arviointi olisi hänen mukaansa paikallaan myös Suomessa.

Salokannel kuitenkin korosti, että lakisääteisen eettisen arvioinnin rahoituksen täytyisi tulla valtion budjetista, eli malli ei voisi perustua vapaaehtoisuuteen tai esimerkiksi tutkijoiden niskoille kaatuvaan ylimääräiseen työhön.

Verkkotutkija liikkuu jatkuvasti kaltevalla pinnalla

Some-aineistoja tutkinut tohtoriopiskelija Salla-Maaria Laaksonen totesi omassa puheenvuorossaan, että verkkotutkimusta sääntelevän lainsäädännön sisäistämistä vaikeuttaa kaiken muun ohessa se, että sosiaalisen median palvelut muuttuvat ja kehittyvät koko ajan. Esimerkiksi teknologisten ratkaisujen muutokset vaikuttavat hänen havaintojensa mukaan suoraan siihen, miten ihmiset palveluissa käyttäytyvät. Myös palveluiden käyttöehdot ja rajapinnat muuttuvat tasaiseen tahtiin.

Laaksonen näkee, että sometutkimuksessa data on käytännössä pystyttävä keräämään ilman jokaisen käyttäjän erillistä lupaa. (Kuva: Laura Chieri).

Salokanteleen esitystä Laaksonen kommentoi toteamalla, että käytännön tutkimustyössä data on usein pystyttävä keräämään ilman jokaisen käyttäjän erillistä lupaa. Esimerkiksi hän itse on ollut mukana tutkimassa sosiaalisesta mediasta kerättyä 1,5 miljoonan eduskuntavaaleja käsittelevän viestin aineistoa, jonka kohdalla erillisten lupien pyytäminen olisi ollut täysin utopistista.

Useimmat some-dataa keräävät tutkijat luottavat Laaksosen mukaan joko siihen, että sosiaalisen median palveluissa julkaistu data on julkista tai siihen, että palvelun käyttöehdot mahdollistavat tutkimuskäytön, jolloin myös kaikki käyttäjät ovat periaatteessa suostuneet siihen.

Heti perään hän kuitenkin myönsi, että todellisuudessa harva käyttäjä on kunnolla perehtynyt palveluiden käyttöehtoihin, jolloin ei myöskään voida olettaa, että he tietäisivät mahdollisesta tutkimuskäytöstä. Laaksonen totesikin, että digitutkija joutuu tällä hetkellä liikkumaan sosiaalisessa mediassa jatkuvasti liukkaalla pinnalla.

Lisätietoja
» Seminaarin ohjelma ja esitykset
» Katja Fält, Tietoarkistolehti 2/2016: Someaineistojen arkistointi ja jatkokäyttö kaatuvat useimpien alustojen käyttöehtoihin

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Some-aineistojen tutkiminen kariutuu usein tekijänoikeuksiin ja käyttöehtoihin

Sosiaalisen median aineistojen tutkiminen on ajankohtaista sekä humanistisilla aloilla että yhteiskuntatieteissä, mutta se miten uudentyyppisiä aineistoja saa tutkia, on monelle epäselvää.

Tietoarkiston, ATT-hankkeen ja Kielipankin järjestämässä Rajoittaako lainsäädäntö humanistista tutkimusta -seminaarissa some-tutkimuksen haasteisiin saatiin sekä lakiasiantuntijan että tutkijan näkökulmat.

Informaatio-oikeuden asiantuntija Marjut Salokannel (SaReCo) kertoi some-aineistojen käyttöön liittyvistä rajoituksista sopimusoikeudellisista, tekijänoikeudellisista ja tietosuojaan liittyvistä näkökulmista. Tohtoriopiskelija Salla-Maaria Laaksosen esitys taas oli käytännön esimerkki siitä, minkälaisia ongelmia some-tutkija joutuu työssänsä ratkaisemaan.

Vain osa palveluista sallii tutkimuskäytön

Salokannel totesi, että eri palvelut suhtautuvat tutkimukseen hyvin eri tavoin.

Twitterin käyttöehdot sallivat aineiston tutkimuskäytön, kunhan se tapahtuu palvelun määrittämällä tavalla. Twitter tarjoaa tutkijoiden käyttöön esimerkiksi rajapinnan, jonka välityksellä aineiston kerääminen on sallittua.

Facebookin käyttöehdot puolestaan mahdollistavat aineiston ei-kaupallisen käytön, jolloin myös ei-kaupallisen tutkimuskäytön voi Salokanteleen mukaan tulkita sallituksi.

Aller Median omistaman Suomi24:n ehdoissa myönnetään lupa vain aineiston yksityiseen käyttöön, jolloin ammattimainen tutkimuskäyttö on tulkittava kielletyksi. Käytännössä Suomi24:n aineistojen tutkiminen on kuitenkin mahdollista, sillä Aller Media ja Kielipankki ovat tehneet sopimuksen, jonka nojalla Suomi24-aineistot voi ladata tutkimuskäyttöön laillisesti Kielipankin kautta.

Myös Instagramin käyttöehdot ovat tiukat, eikä siellä julkaistuja kuvia voi Salokanteleen tulkinnan mukaan käyttää tutkimukseen ainakaan millään automatisoidulla tavalla.

Marjut Salokannel toteaa, että sosiaalisen median eri palvelut suhtautuvat tutkimukseen hyvin eri tavoin. (Kuva: Laura Chieri).

Suurimmat ongelmat liittyvät tekijänoikeuksiin

Tutkimuksen kannalta suurimmat ongelmat liittyvät Salokanteleen mukaan some-aineistojen tekijänoikeuksiin. Teossuojattujen sisältöjen kopioiminen ja yleisön saataville saattaminen vaativat oikeudenhaltijan luvan aina, jos tekijänoikeuslaissa ei ole oikeuttavaa poikkeussäännöstä. Suomessa sosiaalisen median sisältöjen tutkimisen suurin ongelma onkin Salokanteleen mukaan se, että Suomen laissa ei ole niin sanottua tutkimuspoikkeussäännöstä.

Useimpien teoskynnyksen ylittävien aineistojen tutkiminen ja opetuskäyttö on ollut Suomessa mahdollista Kopioston ja yliopistojen välillä solmitun erillissopimuksen ansiosta. Sopimus ei kuitenkaan kata mitään sosiaalisen median julkaisuja.

Pientä helpotusta tuo se, että tekijänoikeudet ovat voimassa vain silloin, kun julkaisu ylittää teoskynnyksen. Käytännössä kynnys on kuitenkin hyvin matala. Tohtoriopiskelija Salla-Maaria Laaksonen totesi tuntevansa tapauksen, jossa 140 merkin twiitti oli tulkittu teokseksi. Salokannel puolestaan viittasi Luxembourgin tuomioistuimessa käsiteltyyn tapaukseen, jossa teokseksi oli tulkittu 11 sanaa. Esimerkiksi Instagram-kuvat ylittävät teoskynnyksen Salokanteleen mukaan käytännössä aina, samoin vähääkään omaperäisemmät kirjoitukset.

Panelistit Salla-Maaria Laaksonen (oik.), Ulla-Maija Peltonen, Anna Hänninen ja Marjut Salokannel (vas.) keskustelivat seminaarissa siitä, rajoittaako lainsäädäntö humanistista tutkimusta. (Kuva: Laura Chieri).

Salokannel totesi ongelman olevan nimenomaan Suomen laissa. Esimerkiksi Yhdysvalloissa kysymys on ratkaistu fair use -säännöksellä, jonka nojalla tekijänoikeuksien suojaamaa aineistoa voi käyttää tieteelliseen tutkimukseen ilman oikeudenhaltijoiden lupaa.

Salokannel totesikin, että myös Suomen lakiin täytyisi saada oikeuttamisperiaate, jonka nojalla sosiaalisen median aineiston tieteellinen tutkiminen olisi tekijänoikeuksista huolimatta yksiselitteisesti mahdollista. Hänen mukaansa tutkimuksen oikeuttavan säännöksen puuttuminen vaikeuttaa suomalaisen tutkimuksen kilpailua maailmalla ratkaisevasti.

Tietosuoja-asetus ei estä some-datan tutkimista

Tietosuojan puitteissa sosiaalisen median aineistojen tutkiminen on Salokanteleen mukaan useimmissa tapauksissa mahdollista. EU:n uusi tietosuoja-asetus hyväksyttiin toukokuussa, ja sitä aletaan soveltaa suoraan suomalaiseen lainsäädäntöön keväällä 2018.

Uusi asetus mahdollistaa henkilötietoja sisältävän aineiston tutkimuskäytön jopa ilman rekisteröidyn lupaa, kunhan tarvittavista suojatoimista on huolehdittu. Suojatoimet ovat tarpeen aina, kun aineistossa on tietoja, joista yksittäiset henkilöt voidaan tunnistaa joko suoraan tai välillisesti.

Tietosuoja-asetuksen mukaan henkilötietoja sisältävä materiaali tulisi anonymisoida täysin aina, kun se on tutkimuksen tekemisen kannalta mahdollista. Silloin, kun anonymisointi ei tule kysymykseen, yksi mahdollinen suojatoimi voi olla esimerkiksi aineiston pseudonymisointi.

Varteenotettavana suojatoimena Salokannel nosti esille myös lakisääteisen eettisen arvioinnin, jota esimerkiksi Ruotsissa edellytetään aina, kun tutkimuksessa käsitellään arkaluonteista tietoa. Etenkin uuden tietosuoja-asetuksen ajalla, digitaalisessa toimintaympäristössä samanlainen lakisääteinen arviointi olisi hänen mukaansa paikallaan myös Suomessa.

Salokannel kuitenkin korosti, että lakisääteisen eettisen arvioinnin rahoituksen täytyisi tulla valtion budjetista, eli malli ei voisi perustua vapaaehtoisuuteen tai esimerkiksi tutkijoiden niskoille kaatuvaan ylimääräiseen työhön.

Verkkotutkija liikkuu jatkuvasti kaltevalla pinnalla

Some-aineistoja tutkinut tohtoriopiskelija Salla-Maaria Laaksonen totesi omassa puheenvuorossaan, että verkkotutkimusta sääntelevän lainsäädännön sisäistämistä vaikeuttaa kaiken muun ohessa se, että sosiaalisen median palvelut muuttuvat ja kehittyvät koko ajan. Esimerkiksi teknologisten ratkaisujen muutokset vaikuttavat hänen havaintojensa mukaan suoraan siihen, miten ihmiset palveluissa käyttäytyvät. Myös palveluiden käyttöehdot ja rajapinnat muuttuvat tasaiseen tahtiin.

Laaksonen näkee, että sometutkimuksessa data on käytännössä pystyttävä keräämään ilman jokaisen käyttäjän erillistä lupaa. (Kuva: Laura Chieri).

Salokanteleen esitystä Laaksonen kommentoi toteamalla, että käytännön tutkimustyössä data on usein pystyttävä keräämään ilman jokaisen käyttäjän erillistä lupaa. Esimerkiksi hän itse on ollut mukana tutkimassa sosiaalisesta mediasta kerättyä 1,5 miljoonan eduskuntavaaleja käsittelevän viestin aineistoa, jonka kohdalla erillisten lupien pyytäminen olisi ollut täysin utopistista.

Useimmat some-dataa keräävät tutkijat luottavat Laaksosen mukaan joko siihen, että sosiaalisen median palveluissa julkaistu data on julkista tai siihen, että palvelun käyttöehdot mahdollistavat tutkimuskäytön, jolloin myös kaikki käyttäjät ovat periaatteessa suostuneet siihen.

Heti perään hän kuitenkin myönsi, että todellisuudessa harva käyttäjä on kunnolla perehtynyt palveluiden käyttöehtoihin, jolloin ei myöskään voida olettaa, että he tietäisivät mahdollisesta tutkimuskäytöstä. Laaksonen totesikin, että digitutkija joutuu tällä hetkellä liikkumaan sosiaalisessa mediassa jatkuvasti liukkaalla pinnalla.

Lisätietoja
» Seminaarin ohjelma ja esitykset
» Katja Fält, Tietoarkistolehti 2/2016: Someaineistojen arkistointi ja jatkokäyttö kaatuvat useimpien alustojen käyttöehtoihin

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Miten aineistot arkistoituvat Tietoarkistoon?

Kun tutkija tai tutkijaryhmä on lähettänyt tutkimusaineistonsa Tietoarkistoon arkistoitavaksi, varsinainen aineiston käsittelyprosessi vasta alkaa. Arkistoitavaksi toimitettu aineisto kulkee aina aineistonkäsittelijän sormien läpi ennen kuin se julkaistaan palveluportaali Ailassa jatkokäyttöä varten.

Erilaiset tietokoneohjelmat helpottavat, nopeuttavat ja virtaviivaistavat aineiston käsittelyä, mutta loppujen lopuksi aineiston käsittelyyn liittyvän työn tekevät ihmiset eivätkä koneet. Näin pystymme varmistamaan, että mitä moninaisimmat aineistot ovat tulevaisuudessakin tutkimusmaailman käytettävissä yhdenmukaiseksi suunniteltujen ohjeidemme mukaisesti.

Aineistonkäsittelijäntyö on Tietoarkiston ydintyötä, jota ilman Ailassa ei olisi jatkokäyttökelpoisia aineistoja. Tietoarkiston pitkäaikaiset tutkimusapulaiset Eliisa Haanpää (kvantitatiivisten aineistojen käsittely) ja Annika Sallinen (kvalitatiivisten aineistojen käsittely) kertovat, minkälaista aineistonkäsittelijän työ on, ja minkälaisen prosessin aineistot käyvät läpi ennen kuin ne ilmestyvät Ailaan.

Kyselytutkimukset arkistoituvat muuttuja muuttujalta

Eliisa

Aloitan kvantitatiivisen aineiston käsittelyn aina tutustumalla aineistoon, siihen sisältyviin muuttujiin sekä aineistoon liittyvään tutkimusraporttiin ja lisämateriaaliin. Avattuani datatiedoston, tarkastan ensimmäisenä kaikki muuttujat ja varmistan, että käsiteltävä data vastaa kyselylomaketta. Nimeän muuttujat kyselylomakkeen mukaisesti, mihin perustuen määrittelen myös muuttujien selitteet.

Tämän jälkeen arvioin aineiston tunnisteellisuutta ja arkaluontoisuutta, jonka jälkeen teen tarvittavat toimet vastaajien anonymiteetin säilyttämiseksi. Tässä vaiheessa apunani ovat usein Tilastokeskuksen erilaiset alue-, toimiala- ja tieteenalaluokitukset. Lopuksi vielä varsinaista dataa käsitellessäni tarkistan muuttujien frekvenssit suhteessa tutkimusraporttiin.

Käsittelen dataa SPSS:n syntaksin avulla. Numeroista ja loogisesta päättelystä pitävänä ihmisenä syntaksin työstäminen on mielestäni palkitsevaa puuhaa. Syntaksin tekemiseen sisältyy monia yksin ja yhdessä kollegojen kanssa pohdittavia haasteita, useita onnistumisen kokemuksia, kun komennot toimivat toivomallani tavalla ja tietysti työni kannalta tärkein tuotos, jatkokäyttöön valmistuva datatiedosto.

Varsinaisen datan valmistuttua siirryn aineiston kuvailuun, johon kuuluu muuttujien kuvailu sekä aineiston sisällöllinen kuvailu. Tietopankkina sisällöllistä kuvailua tehdessäni käytän tutkimusraporttia ja sieltä löytyviä aineistonkeruuseen liittyviä tietoja. Aineiston (eli datan sekä aineiston kuvailun) käsittelyn valmistuttua kirjaan tietokantaamme ”data valmis”-komennon, jonka jälkeen aineisto julkaistaan palveluportaali Ailassa.

Aineistoja käsitellessäni olen oppinut paljon paitsi tilastollisista menetelmistä ja kyselytutkimuksista, myös eri tieteenalojen tutkimusteemoista. Olen tähän mennessä käsitellyt aineistoja liittyen muun muassa lasten ja nuorten mediakäyttäytymiseen, lasten uhrikokemuksiin, suomalaisten hyvinvointiin, eduskuntavaaleihin, asumiseen ja kaupunkikuvaan, opiskeluun sekä vapaaehtoistoimintaan.

Aineiston käsittelyn eri vaiheissa olen yhteydessä yhteen tai useampaan tutkijaan, mikäli tarvitsen aineistosta lisätietoja. Yhteistyö sekä tutkijoiden suuntaan että kollegoiden kanssa on erittäin merkittävässä osassa työskentelyssäni aineistojen parissa.

Kvalitatiivisessa aineistossa tallentuu aina pala aikaa

Annika

Kvalitatiivisten aineistojen arkistointi poikkeaa kvantitatiivisten aineistojen arkistoinnista sikäli, ettei siinä tarvitse pohtia syntaksin komentoja, mutta lukulihaksia työ vaatii senkin edestä. Luemme tänne toimitetuista haastatteluista ja kirjoituksista jokaisen sivun. Tämä täytyy tehdä huolellisesti, että ihmisten tunnistetietoja ei jää luovutettavaan aineistoon. Tekstimassaa saattaa olla yhdessä aineistossa jopa lähes tuhat sivua.

Kvalitatiivisten aineistojen tarkastaminen on siis välillä uppoutumista lukemiseen, mutta työ sisältää myös järjestelmällistä tiedon poimimista sekä järjestelyä ja tietokoneohjelmien kanssa kikkailua – mikä on aina oma taiteenlajinsa.

Dokumentit nimetään järjestelmällisesti. Aineistojen taustatiedot järjestetään yhdenmukaisiksi ja niistä tehdään taustatietohakemisto jatkokäyttäjälle. Työssä käytetään lukuisia ohjelmia, joista tekninen palvelu keskustelee mm. termeillä DDI, HTML ja Python – minä keskityn opettelemaan konkreettisen käytön.

Koko arkistointiprosessin ajan teen muistiinpanoja eteen tulleista ongelmakohdista, niiden ratkaisuista ja vielä tehtävistä vaiheista. Listalla voi olla selvitettävänä, mitä tutkijan kryptinen merkintä muistiinpanoissa tarkoittaa, mihin teollisuusalaan karkeistetaan Suomussalmen Hallan lihajalostamo, sisältävätkö dokumentit piilodataa ja saisiko 400 erillisen tiedoston nimet muutettua automaattisesti toiseen muotoon, jotta kaikkea ei tarvitsisi tehdä käsin.

Kaikkeen löytyy yleensä vastaus, joko kollegoilta, tutkijoilta tai yhdeltä tärkeältä työkaverilta – internetistä. Netti on ollut oiva apu esimerkiksi tilanteessa, jossa oman pään kapasiteetti keksiä suomalaista naisten nimiä on tullut tiensä päätökseen.

Minun mielestäni kvalitatiivisten aineistojen arkistointi on erittäin mielenkiintoista, sillä tutkimusaineistoon perehtyminen on aina oma matkansa jonkin tieteenalan ja alueen tutkimuksen pariin. Aineistoja läpi kahlatessa oppii uusia käsitteitä ja ymmärtää taas elämää eri näkökulmista ehkä hitusen paremmin. Tutkittavat kertovat tutkijalle elämästään asioita, joita eivät muille välttämättä kerro. Työ sisältää myös varjopuolia. Koska kaikki työvaiheet vaativat tarkkuutta ja keskittymistä, silmien ja lukuhermojen ajoittaiselta väsymisiltä ei voi välttyä.

Arkistoinnin loppusuoralla kirjoitetaan vielä nettisivuille tuleva kuvaus aineistosta ja hiotaan aineiston yksityiskohtia. Esimerkiksi taustatietoihin tulee helposti virheitä. Minun tulee myös tarkastaa, että aineistoon on liitetty mukaan tutkimuskutsut, haastattelukysymykset ja muut tarvittavat dokumentit. Lisäksi haastattelukysymykset tulee tallentaa Aila-hakuun. Julkaisun jälkeen menen vielä nettisivuille katsomaan, että aineisto näyttää siellä siltä, miltä sen pitääkin!

Lisätietoa:
» Palveluportaali Aila

Annika Sallinen, tutkimusapulainen, etunimi.sukunimi [at] uta.fi
Eliisa Haanpää, tutkimusapulainen, etunimi.sukunimi [at] uta.fi

Miten aineistot arkistoituvat Tietoarkistoon?

Kun tutkija tai tutkijaryhmä on lähettänyt tutkimusaineistonsa Tietoarkistoon arkistoitavaksi, varsinainen aineiston käsittelyprosessi vasta alkaa. Arkistoitavaksi toimitettu aineisto kulkee aina aineistonkäsittelijän sormien läpi ennen kuin se julkaistaan palveluportaali Ailassa jatkokäyttöä varten.

Erilaiset tietokoneohjelmat helpottavat, nopeuttavat ja virtaviivaistavat aineiston käsittelyä, mutta loppujen lopuksi aineiston käsittelyyn liittyvän työn tekevät ihmiset eivätkä koneet. Näin pystymme varmistamaan, että mitä moninaisimmat aineistot ovat tulevaisuudessakin tutkimusmaailman käytettävissä yhdenmukaiseksi suunniteltujen ohjeidemme mukaisesti.

Aineistonkäsittelijäntyö on Tietoarkiston ydintyötä, jota ilman Ailassa ei olisi jatkokäyttökelpoisia aineistoja. Tietoarkiston pitkäaikaiset tutkimusapulaiset Eliisa Haanpää (kvantitatiivisten aineistojen käsittely) ja Annika Sallinen (kvalitatiivisten aineistojen käsittely) kertovat, minkälaista aineistonkäsittelijän työ on, ja minkälaisen prosessin aineistot käyvät läpi ennen kuin ne ilmestyvät Ailaan.

Kyselytutkimukset arkistoituvat muuttuja muuttujalta

Eliisa

Aloitan kvantitatiivisen aineiston käsittelyn aina tutustumalla aineistoon, siihen sisältyviin muuttujiin sekä aineistoon liittyvään tutkimusraporttiin ja lisämateriaaliin. Avattuani datatiedoston, tarkastan ensimmäisenä kaikki muuttujat ja varmistan, että käsiteltävä data vastaa kyselylomaketta. Nimeän muuttujat kyselylomakkeen mukaisesti, mihin perustuen määrittelen myös muuttujien selitteet.

Tämän jälkeen arvioin aineiston tunnisteellisuutta ja arkaluontoisuutta, jonka jälkeen teen tarvittavat toimet vastaajien anonymiteetin säilyttämiseksi. Tässä vaiheessa apunani ovat usein Tilastokeskuksen erilaiset alue-, toimiala- ja tieteenalaluokitukset. Lopuksi vielä varsinaista dataa käsitellessäni tarkistan muuttujien frekvenssit suhteessa tutkimusraporttiin.

Käsittelen dataa SPSS:n syntaksin avulla. Numeroista ja loogisesta päättelystä pitävänä ihmisenä syntaksin työstäminen on mielestäni palkitsevaa puuhaa. Syntaksin tekemiseen sisältyy monia yksin ja yhdessä kollegojen kanssa pohdittavia haasteita, useita onnistumisen kokemuksia, kun komennot toimivat toivomallani tavalla ja tietysti työni kannalta tärkein tuotos, jatkokäyttöön valmistuva datatiedosto.

Varsinaisen datan valmistuttua siirryn aineiston kuvailuun, johon kuuluu muuttujien kuvailu sekä aineiston sisällöllinen kuvailu. Tietopankkina sisällöllistä kuvailua tehdessäni käytän tutkimusraporttia ja sieltä löytyviä aineistonkeruuseen liittyviä tietoja. Aineiston (eli datan sekä aineiston kuvailun) käsittelyn valmistuttua kirjaan tietokantaamme ”data valmis”-komennon, jonka jälkeen aineisto julkaistaan palveluportaali Ailassa.

Aineistoja käsitellessäni olen oppinut paljon paitsi tilastollisista menetelmistä ja kyselytutkimuksista, myös eri tieteenalojen tutkimusteemoista. Olen tähän mennessä käsitellyt aineistoja liittyen muun muassa lasten ja nuorten mediakäyttäytymiseen, lasten uhrikokemuksiin, suomalaisten hyvinvointiin, eduskuntavaaleihin, asumiseen ja kaupunkikuvaan, opiskeluun sekä vapaaehtoistoimintaan.

Aineiston käsittelyn eri vaiheissa olen yhteydessä yhteen tai useampaan tutkijaan, mikäli tarvitsen aineistosta lisätietoja. Yhteistyö sekä tutkijoiden suuntaan että kollegoiden kanssa on erittäin merkittävässä osassa työskentelyssäni aineistojen parissa.

Kvalitatiivisessa aineistossa tallentuu aina pala aikaa

Annika

Kvalitatiivisten aineistojen arkistointi poikkeaa kvantitatiivisten aineistojen arkistoinnista sikäli, ettei siinä tarvitse pohtia syntaksin komentoja, mutta lukulihaksia työ vaatii senkin edestä. Luemme tänne toimitetuista haastatteluista ja kirjoituksista jokaisen sivun. Tämä täytyy tehdä huolellisesti, että ihmisten tunnistetietoja ei jää luovutettavaan aineistoon. Tekstimassaa saattaa olla yhdessä aineistossa jopa lähes tuhat sivua.

Kvalitatiivisten aineistojen tarkastaminen on siis välillä uppoutumista lukemiseen, mutta työ sisältää myös järjestelmällistä tiedon poimimista sekä järjestelyä ja tietokoneohjelmien kanssa kikkailua – mikä on aina oma taiteenlajinsa.

Dokumentit nimetään järjestelmällisesti. Aineistojen taustatiedot järjestetään yhdenmukaisiksi ja niistä tehdään taustatietohakemisto jatkokäyttäjälle. Työssä käytetään lukuisia ohjelmia, joista tekninen palvelu keskustelee mm. termeillä DDI, HTML ja Python – minä keskityn opettelemaan konkreettisen käytön.

Koko arkistointiprosessin ajan teen muistiinpanoja eteen tulleista ongelmakohdista, niiden ratkaisuista ja vielä tehtävistä vaiheista. Listalla voi olla selvitettävänä, mitä tutkijan kryptinen merkintä muistiinpanoissa tarkoittaa, mihin teollisuusalaan karkeistetaan Suomussalmen Hallan lihajalostamo, sisältävätkö dokumentit piilodataa ja saisiko 400 erillisen tiedoston nimet muutettua automaattisesti toiseen muotoon, jotta kaikkea ei tarvitsisi tehdä käsin.

Kaikkeen löytyy yleensä vastaus, joko kollegoilta, tutkijoilta tai yhdeltä tärkeältä työkaverilta – internetistä. Netti on ollut oiva apu esimerkiksi tilanteessa, jossa oman pään kapasiteetti keksiä suomalaista naisten nimiä on tullut tiensä päätökseen.

Minun mielestäni kvalitatiivisten aineistojen arkistointi on erittäin mielenkiintoista, sillä tutkimusaineistoon perehtyminen on aina oma matkansa jonkin tieteenalan ja alueen tutkimuksen pariin. Aineistoja läpi kahlatessa oppii uusia käsitteitä ja ymmärtää taas elämää eri näkökulmista ehkä hitusen paremmin. Tutkittavat kertovat tutkijalle elämästään asioita, joita eivät muille välttämättä kerro. Työ sisältää myös varjopuolia. Koska kaikki työvaiheet vaativat tarkkuutta ja keskittymistä, silmien ja lukuhermojen ajoittaiselta väsymisiltä ei voi välttyä.

Arkistoinnin loppusuoralla kirjoitetaan vielä nettisivuille tuleva kuvaus aineistosta ja hiotaan aineiston yksityiskohtia. Esimerkiksi taustatietoihin tulee helposti virheitä. Minun tulee myös tarkastaa, että aineistoon on liitetty mukaan tutkimuskutsut, haastattelukysymykset ja muut tarvittavat dokumentit. Lisäksi haastattelukysymykset tulee tallentaa Aila-hakuun. Julkaisun jälkeen menen vielä nettisivuille katsomaan, että aineisto näyttää siellä siltä, miltä sen pitääkin!

Lisätietoa:
» Palveluportaali Aila

Annika Sallinen, tutkimusapulainen, etunimi.sukunimi [at] uta.fi
Eliisa Haanpää, tutkimusapulainen, etunimi.sukunimi [at] uta.fi

Mitä tutkijat ajattelevat terveys- ja lääketieteen aineistojen arkistoinnista?

Tutkimusaineistojen avoimuus on jo tavallista biotieteissä ja monilla luonnontieteiden aloilla, mutta useilla muilla aloilla avoimuus on harvinaista ja lääketieteessä sitä on hädin tuskin edes harkittu. Tutkimusaineistojen avoimuusvaatimus koskee kuitenkin myös terveys- ja lääketieteitä. Tietoarkisto onkin laajentamassa palveluitaan, jotta myös näiden alojen aineistoille saadaan asianmukaiset käytännöt arkistointiin ja aineistojen jatkokäyttöön.

Kartoittaaksemme tutkijoiden tarpeita, toteutimme toukokuussa 2015 tutkijakyselyn, jossa selvitimme tutkijoiden ajatuksia ja käytäntöjä tutkimusaineistojen jatkohyödyntämisestä. Kysely suunnattiin Tietoarkiston uusille tieteenaloille, humanististen ja lääke- ja terveystieteiden tutkijoille, pois lukien biotieteiden ala. Tässä kirjoituksessani käsittelen terveystieteiden tutkijoiden vastauksia.

Puolet vastaajista oli tietoisia rahoittajien (esim. Suomen Akatemia ja TEKES) ja julkaisijoiden suosituksista ja edellytyksistä avata tutkimusaineistot tiedeyhteisön käyttöön. Tästä huolimatta vain neljäsosa arkistoi aineistonsa omaan yliopistoonsa tai tutkimuslaitokseensa, ja vain neljä prosenttia arkistoi aineistoja erilliseen arkistoimisyksikköön.

Miksi näin harva? Aineistojen jakaminen tutkimusryhmien kesken kun on kuitenkin yleinen käytäntö terveys- ja lääketieteissä.

Osaltaan syynä on väärinymmärrys. Monen tutkijan käsityksen mukaan arkaluonteisia tietoja sisältävää aineistoa ei saa arkistoida muuta tutkimuskäyttöä varten.

Aineiston voi kuitenkin arkistoida, kun siitä ensin poistetaan tunnistetiedot, eli aineisto anonymisoidaan. Mahdollista on myös poistaa aineistosta kaikkein arkaluonteisin osa ja arkistoida vähemmän arkaluonteiset tiedot. Tietoarkistossa anonymisointi ja tutkittavien tietosuojan varmistaminen onkin keskeinen osa arkistointiprosessia.

Tutkijoita huolestuttaa myös se, että ulkopuolinen ei pysty käyttämään aineistoa oikein. Arkistoitava aineisto kuitenkin kuvaillaan Tietoarkistossa niin perin pohjin, että uusi käyttäjä saa tietoonsa miten tiedot on kerätty ja mitä rajoituksia eri muuttujiin liittyy. Tutkija voi myös halutessaan rajata aineiston jatkokäyttöä päättämällä hakemuskohtaisesti, kenelle jatkokäyttölupa myönnetään. Kyselyssä tutkijat toivoivat myös, että heillä olisi oikeus rajata, millainen osa aineistosta hakijalle kulloinkin annetaan.

Tutkittavien informoinnissa ja suostumusten keräämisessä käytetään usein suostumusmallia, jossa tutkittaville kerrotaan aineistoa käytettävän vain yhteen tutkimukseen, ja että tutkimuksen päätyttyä aineisto hävitetään. On myös tavallista kirjoittaa eettisen luvan hakemukseen sen kummemmin asiaa harkitsematta, että aineistoa käytetään vain tähän tutkimukseen ja tutkimuksen loputtua aineisto hävitetään.

Eettiset toimikunnatkin voivat tulkita lakia jyrkemmin kuin lain kirjain vaatii. Eettisen lausunnon saamiseen voi liittyä vaatimuksia aineiston hävittämisestä tai muista rajoituksista. Myös tutkijat itse voivat pitää arkaluonteisen aineiston arkistointia eettisesti arveluttavana, vaikka anonyymin aineiston arkistoinnin sallisi sekä lainsäädäntö että eettinen toimikunta.

Yksi selitys sille, että aineistoja ei juuri arkistoida, on myös se, että tutkijat eivät ole tietoisia arkistointiin ja aineistojen jatkokäyttöön tähtäävästä tutkimuspolitiikasta, eikä muun muassa Tietoarkistoa tai sen palveluita vielä tunneta. Julkaisujen vaatimukset artikkeliin liittyvän tutkimusaineiston avaamisesta ovat jo tutumpia.

Tieto arkistoimisen hyödyistä kuitenkin leviää. Tietoarkistojen ja tutkijoiden välisen yhteistyön lisääntyessä edetään kohti tilannetta, jossa aineistot käytetään hyödyksi tehokkaasti. Tämä säästää tutkimuksessa arvokasta aikaa ja rahaa sekä altistaa tutkittavia vähemmille tutkimuksille.

Lopuksi yhden vastaajan kirjoitus aineistojen jakamisesta: ”Tutkimusryhmämme on jo avannut aineistoja laajasti suomalaisille ja kansainvälisille tutkimusryhmille. Olemme tietojeni mukaan saaneet tiedostojen jakamisesta pelkästään hyötyä ja positiivista palautetta sekä kymmeniä hyviä yhteisjulkaisuja. Tämän lisäksi tutkimus kuuluu kymmeniin kansainvälisiin genetiikan alan konsortiotutkimuksiin, mistä on saatu hyötynä kymmeniä huippujulkaisuja. Aineistojen jakamisesta on hyötyä myös siksi, että vastavuoroisesti meille on auennut mahdollisuus käyttää kansanvälisiä aineistoja, mikä on parantanut mahdollisuuksia julkaisujen hyväksymisestä alan huippulehtiin.

Lisätietoa:
Tutkimusaineistojen avoimen saatavuuden määrittelystä ja asiaan liittyvistä taustatekijöistä voi lukea tarkemmin Tietoarkistolehdessä 2/2014.

Annaleena Okuloff
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi

Kirjoitus on kolmiosaisen terveys- ja lääketieteitä käsittelevän postaussarjan ensimmäinen osa. Ks. toinen osa.

Mitä tutkijat ajattelevat terveys- ja lääketieteen aineistojen arkistoinnista?

Tutkimusaineistojen avoimuus on jo tavallista biotieteissä ja monilla luonnontieteiden aloilla, mutta useilla muilla aloilla avoimuus on harvinaista ja lääketieteessä sitä on hädin tuskin edes harkittu. Tutkimusaineistojen avoimuusvaatimus koskee kuitenkin myös terveys- ja lääketieteitä. Tietoarkisto onkin laajentamassa palveluitaan, jotta myös näiden alojen aineistoille saadaan asianmukaiset käytännöt arkistointiin ja aineistojen jatkokäyttöön.

Kartoittaaksemme tutkijoiden tarpeita, toteutimme toukokuussa 2015 tutkijakyselyn, jossa selvitimme tutkijoiden ajatuksia ja käytäntöjä tutkimusaineistojen jatkohyödyntämisestä. Kysely suunnattiin Tietoarkiston uusille tieteenaloille, humanististen ja lääke- ja terveystieteiden tutkijoille, pois lukien biotieteiden ala. Tässä kirjoituksessani käsittelen terveystieteiden tutkijoiden vastauksia.

Puolet vastaajista oli tietoisia rahoittajien (esim. Suomen Akatemia ja TEKES) ja julkaisijoiden suosituksista ja edellytyksistä avata tutkimusaineistot tiedeyhteisön käyttöön. Tästä huolimatta vain neljäsosa arkistoi aineistonsa omaan yliopistoonsa tai tutkimuslaitokseensa, ja vain neljä prosenttia arkistoi aineistoja erilliseen arkistoimisyksikköön.

Miksi näin harva? Aineistojen jakaminen tutkimusryhmien kesken kun on kuitenkin yleinen käytäntö terveys- ja lääketieteissä.

Osaltaan syynä on väärinymmärrys. Monen tutkijan käsityksen mukaan arkaluonteisia tietoja sisältävää aineistoa ei saa arkistoida muuta tutkimuskäyttöä varten.

Aineiston voi kuitenkin arkistoida, kun siitä ensin poistetaan tunnistetiedot, eli aineisto anonymisoidaan. Mahdollista on myös poistaa aineistosta kaikkein arkaluonteisin osa ja arkistoida vähemmän arkaluonteiset tiedot. Tietoarkistossa anonymisointi ja tutkittavien tietosuojan varmistaminen onkin keskeinen osa arkistointiprosessia.

Tutkijoita huolestuttaa myös se, että ulkopuolinen ei pysty käyttämään aineistoa oikein. Arkistoitava aineisto kuitenkin kuvaillaan Tietoarkistossa niin perin pohjin, että uusi käyttäjä saa tietoonsa miten tiedot on kerätty ja mitä rajoituksia eri muuttujiin liittyy. Tutkija voi myös halutessaan rajata aineiston jatkokäyttöä päättämällä hakemuskohtaisesti, kenelle jatkokäyttölupa myönnetään. Kyselyssä tutkijat toivoivat myös, että heillä olisi oikeus rajata, millainen osa aineistosta hakijalle kulloinkin annetaan.

Tutkittavien informoinnissa ja suostumusten keräämisessä käytetään usein suostumusmallia, jossa tutkittaville kerrotaan aineistoa käytettävän vain yhteen tutkimukseen, ja että tutkimuksen päätyttyä aineisto hävitetään. On myös tavallista kirjoittaa eettisen luvan hakemukseen sen kummemmin asiaa harkitsematta, että aineistoa käytetään vain tähän tutkimukseen ja tutkimuksen loputtua aineisto hävitetään.

Eettiset toimikunnatkin voivat tulkita lakia jyrkemmin kuin lain kirjain vaatii. Eettisen lausunnon saamiseen voi liittyä vaatimuksia aineiston hävittämisestä tai muista rajoituksista. Myös tutkijat itse voivat pitää arkaluonteisen aineiston arkistointia eettisesti arveluttavana, vaikka anonyymin aineiston arkistoinnin sallisi sekä lainsäädäntö että eettinen toimikunta.

Yksi selitys sille, että aineistoja ei juuri arkistoida, on myös se, että tutkijat eivät ole tietoisia arkistointiin ja aineistojen jatkokäyttöön tähtäävästä tutkimuspolitiikasta, eikä muun muassa Tietoarkistoa tai sen palveluita vielä tunneta. Julkaisujen vaatimukset artikkeliin liittyvän tutkimusaineiston avaamisesta ovat jo tutumpia.

Tieto arkistoimisen hyödyistä kuitenkin leviää. Tietoarkistojen ja tutkijoiden välisen yhteistyön lisääntyessä edetään kohti tilannetta, jossa aineistot käytetään hyödyksi tehokkaasti. Tämä säästää tutkimuksessa arvokasta aikaa ja rahaa sekä altistaa tutkittavia vähemmille tutkimuksille.

Lopuksi yhden vastaajan kirjoitus aineistojen jakamisesta: ”Tutkimusryhmämme on jo avannut aineistoja laajasti suomalaisille ja kansainvälisille tutkimusryhmille. Olemme tietojeni mukaan saaneet tiedostojen jakamisesta pelkästään hyötyä ja positiivista palautetta sekä kymmeniä hyviä yhteisjulkaisuja. Tämän lisäksi tutkimus kuuluu kymmeniin kansainvälisiin genetiikan alan konsortiotutkimuksiin, mistä on saatu hyötynä kymmeniä huippujulkaisuja. Aineistojen jakamisesta on hyötyä myös siksi, että vastavuoroisesti meille on auennut mahdollisuus käyttää kansanvälisiä aineistoja, mikä on parantanut mahdollisuuksia julkaisujen hyväksymisestä alan huippulehtiin.

Lisätietoa:
Tutkimusaineistojen avoimen saatavuuden määrittelystä ja asiaan liittyvistä taustatekijöistä voi lukea tarkemmin Tietoarkistolehdessä 2/2014.

Annaleena Okuloff
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi

Kirjoitus on kolmiosaisen terveys- ja lääketieteitä käsittelevän postaussarjan ensimmäinen osa. Ks. toinen osa.