Tag Archives: aineistonkeruu

Anonymisointi luontevaksi osaksi tutkimusprosessia

Aineistonhallinta vaatii tutkijalta entistä enemmän osaamista. Tutkijan tulisi opiskella muuttuneet tietosuojakäytänteet ja toisaalta pitäisi pystyä vastaamaan myös datan avoimuuden haasteeseen. Usein aineiston arkistoiminen jatkokäyttöön on mahdollista vain anonyyminä. Anonymisoinnin osaaminen ja resursointi nousevat tässä vaiheessa keskeiseen asemaan. Tutkijoiden näkökulmasta lisävaatimukset eivät ole aina mieluisia, sillä usein anonymisointiin ei ole varattu aikaa ja toisaalta ei ole myöskään tietoa, miten aineisto saatetaan anonyymiksi. Jonkin pitää muuttua, mutta miten?

Mieti anonymisointia jo tutkimusprosessin alussa

Uudet vaatimukset otetaan haltuun muuttamalla käsitystä anonymisoinnista ja kasvattamalla anonymisoinnin osaamista. Tästä lähtien tutkimusprojekteissa tulee jo alkuvaiheessa resursoida anonymisoinnin suunnitteluun ja toteuttamiseen. Käsitys siitä, että anonymisointi on jotain, jota tehdään vain aineistonkeruuvaiheessa poistamalla suorat tunnisteet tai tutkimusprosessin loppuvaiheessa ennen arkistointia, tulisi heittää romukoppaan.

Ensinnäkään anonymisointi ei ole vain suorien tunnisteiden poistamista, vaan vaatii laajemman aineiston sisällön tarkastelun ja tietojen suhteuttamisen ulkopuolelta saataviin tietoihin. Anonymisoinnissa pyritään ymmärtämään, minkä tiedon poistaminen on tarpeellista, ja miten tietojen poistaminen vaikuttaa aineiston käytettävyyteen. Toiseksi anonymisointia tulee miettiä jo tutkimusprosessin alussa, sillä henkilötiedot tulee kerätä tietosuoja-asetuksen minimoinnin periaatteen mukaan eli keräämällä vain tutkimuksen kannalta tarpeellisia tietoja. Henkilötietojen keruun huolellisella suunnittelulla voi vähentää oleellisesti anonymisointiin myöhemmin kuluvaa aikaa.

Miten kerättäviä tietoja voi minimoida?

Määrällisissä aineistonkeruissa anonymisointia vaativien tietojen keruuta pystyy minimoimaan tehokkaasti välttämällä avokysymyksiä, joiden sisältöä tutkija ei voi kontrolloida. Kannattaa välttää myös kysymyksiä, joiden perusteella vastaajasta paljastuu kohdejoukkoon nähden harvinaisia tietoja. Tietoja suositellaan kerättäväksi valmiiksi luokiteltuna, niin että kysytään esimerkiksi yksittäisen harrastuksen sijaan harrastustyyppiä. Kirjoitettavan avovastauksen ”pelaan jalkapalloa Äänekosken Huimassa” sijaan vastaaja voi valita esimerkiksi luokitellun arvon ”palloilulajit”, eikä tutkijan tarvitse anonymisoida paikkakuntaa ja seuraa. Erityisesti taustatietojen kysyminen luokiteltuna ehkäisee oleellisesti myöhäisempää anonymisointitarvetta niin kvalitatiivisissa kuin kvantitatiivisissa aineistoissa.

Laadullisissa aineistoissa sisällön etukäteen rajoittaminen on hankalampaa, mutta sitä voi helpottaa muutaman hyödyllisen vinkin avulla. Esimerkiksi haastatteluissa ja kirjoitusaineistoissa haastateltavien taustatiedot kannattaa kerätä strukturoituna, henkilöiden vapaamuotoisten esittelyjen sijaan. Haastattelun aluksi haastattelija voi esimerkiksi pyytää iän, ammatin ja lasten lukumäärän luokiteltuna. Haastateltavia voi myös muistuttaa aluksi ystävällisesti, jos haastattelun luonne antaa siihen mahdollisuuden, että he eivät kertoisi ihmisten oikeita nimiä tai muita tarkkoja tietoja. Tutkija voi myös välttää liian yksityiskohtaista tietoa tuottavien kysymysten esittämisen.

Yleisimmät ongelmat anonymisoinnissa

Koska anonymisointiin ei ole valmiina kaikkiin aineistoihin sopivia ohjeistuksia, se voidaan kokea haasteellisena. Usein ongelmana on hahmottaa, mitä tietoja tulee anonymisoida ja mitä tietoja voidaan jättää. Tutkija saattaa myös ajatella, ettei sensitiivistä aineistoa voi saattaa anonyymiksi. Anonymisoinnin jälkeen tutkijan mieleen voi hiipiä myös pelko siitä, onko aineistoa anonymisoitu tarpeeksi.

Ensinnäkin tulee muistaa, että aineiston sensitiivisyys ei ole lähtökohtaisesti este aineiston anonymisoinnille ja jakamiselle. Sensitiivisen aineiston anonymisointi voidaan suunnitella samalla tavoin kuin ei-sensitiivisiä tietoja sisältävän aineiston. Merkityksellisintä on henkilöistä saatavien taustatietojen ja muiden aineiston sisältämien tietojen karkeistaminen tai poisto tasolle, josta yksittäisiä henkilöitä ei pysty tunnistamaan. Sensitiivisen aineiston anonymisointi voi kuitenkin olla haasteellista, sillä aineiston luonteen vuoksi rajoitettavia tietoja voi olla paljon.

Anonymisointitarpeen hahmottamisen helpottamiseen tarvitaan ohjeistusta ja tarve konkreettisille anonymisointiohjeille on suuri. Ennen anonymisoinnin ohjeistus keskittyi usein anonymisoinnin menetelmien, kuten karkeistuksen ja luokitteluiden, esittämiseen, ei anonymisointipäätösten tekemisestä ohjeistamiseen. Ohjeistuksen tarpeeseen vastatakseen Tietoarkisto on päivittänyt anonymisoinnin ohjeistuksiaan viimeksi viime kuussa. Ohjeistuksiin lisättiin erityisesti tukea anonymisoinnin suunnitteluun. Ohjeista löytyy nyt myös havainnollistavia esimerkkejä ja mallipohjia anonymisointisuunnitelman tekoon.

Anonymisoinnin tarpeen hahmottaminen

Kun haluaa anonymisoida oman tutkimusaineistonsa, sille kannattaa tehdä anonymisointisuunnitelma, josta käy ilmi tunnisteellisuuden kannalta tärkeimmät aineiston tiedot ja tehdyt anonymisointipäätökset ja -toimet. Anonymisoitavien tietojen hahmottamiseen auttaa seuraavien tärkeimpien asioiden muistaminen ja tarkastelu:

  • Suorat tunnisteet poistetaan aina!
  • Keitä ja mitä tutkit? Henkilöiden tunnistettavuus riippuu paljon tavoitellun kohdejoukon määrästä ja tutkittavasta ilmiöstä. Mitä pienempi kohdejoukko ja mitä enemmän heistä on saatavilla tietoa, sitä vähemmän yksityiskohtaista tietoa henkilöistä voidaan jättää aineistoon.
  • Anonymisoinnissa pyritään eroon harvinaisista tiedoista, joiden perusteella yksittäinen henkilö tai rypäs on tunnistettavissa. Anonymisoitavia tietoja pohditaan aina suhteessa tutkimuksen perusjoukkoon. Tieto on harvinainen vain, jos ominaisuus on harvinainen kohdejoukossa. Pienet jakaumat eivät ole näin yksiselitteisesti harvinaista tietoa. Harvinaistakaan tietoa ei tarvitse anonymisoida, jos tietoa henkilöstä ei voida saada selville.
  • Pohdi, voiko henkilö olla tunnistettavissa yhdistämällä aineiston tietoja toisiinsa. Pohdi myös, mitä tietoja tutkittavista voi olla saatavilla ulkoisista lähteistä, kuten sosiaalisesta mediasta, ja voiko tietoja yhdistää datan sisältämiin tietoihin. Esimerkiksi LinkedInissä on useamman suomalaisen koulutus- ja työhistoria julkisesti nähtävillä.
  • Sensitiivisten tietojen anonymisointi on tarpeellista, mikäli niiden perusteella voi tunnistaa tai päätellä yksittäisen henkilön tai henkilöitä. Jos sensitiivisten asiasisältöjen tutkiminen on tutkimuksen kannalta keskeistä, tietoja ei tietenkään poisteta, vaan aineisto pyritään tekemään anonyymiksi muita henkilöihin viittaavia tietoja poistamalla.
  • Jos aineisto vaatii anonymisointia, se voidaan toteuttaa monin eri tavoin. Pyri poistamaan tietoja, jotka ovat vähemmän tärkeitä tutkimusilmiön kannalta ja säilyttämään tärkeimmät taustatiedot. Esimerkiksi, jos kuntatasoinen muuttuja aluetietona on tutkimuksen kannalta merkityksellinen, anonymisointia voi tehdä esimerkiksi vastaajan perhe- tai tulotietoihin.

Lisätietoa ja tarkemmat ohjeet löydät Tietoarkiston aineistonhallinnan käsikirjasta.

Anonymisoinnin kartoittamisen jälkeen voi jopa olla että anonymisointia ei välttämättä tarvitsekaan tehdä. Tällainen tilanne voi olla esimerkiksi väestötutkimuksissa, joissa aluemuuttuja on kerätty vain maakunnan tasolla ja muiden tietojen perusteella henkilöt eivät ole yksilöitävissä tai liitettävissä harvinaisiin ryhmiin. Anonymisointisuunnitelman tekeminen on siis suositeltavaa, jotta tutkimusprosessin aikana aineistoa tulee tarkasteltua kerran yksinomaan tunnisteellisuuden näkökulmasta. Lisäksi suunnitelma toimii hyvänä dokumentaationa aineistoille tunnisteellisuussyistä tehdyistä muutoksista, mikäli aineisto luovutetaan jatkokäyttöön.

Et ole anonymisointipulmiesi kanssa yksin

Anonymisoinnin riittävyys on yleinen tutkijoiden huoli, ja se on hyvin ymmärrettävää. Tulee kuitenkin muistaa, että anonyymiksi voidaan määritellä aineisto, josta ei kohtuullisen todennäköisesti käytettävissä olevin keinoin voi tunnistaa tai päätellä henkilöitä. On jo paljon, että aineiston anonymiteettiä ja henkilöiden paljastumisriskiä on pohdittu ja se on kirjattu anonymisointisuunnitelmaan. Lisäksi on hyvä muistaa, että aineistolle voidaan tehdä lisäanonymisointia myöhemminkin. Aineistolle tulee tehdä säännöllisesti jäännösriskin arviointi, jossa tarkastellaan anonymiteettiä uudelleen. Se on tarpeellista tiedon lisääntymisen ja tekniikan kehittymisen vuoksi.

Tavoitteet anonymisoinnin käsitysten muuttamisesta ja osaamisen levittämisestä ovat alkuvaiheessa. Toivomme, että anonymisointi nähdään mahdollisuutena lisätä tieteen avoimuutta ja luotettavuutta. Asiasta tarvitaan myös keskustelua ja näkemyksiä. Otamme niitä mielellämme vastaan täällä Tietoarkistossa!

Annika Sallinen
tietopalveluasiantuntija
etunimi.sukunimi [at] tuni.fi

Ensikokemuksia kirjoitusaineistojen keruutyökalu Pennasta

Tietoarkisto lanseerasi syksyllä 2017 uuden kirjoitusaineistojen keruutyökalu Pennan. Pennan tarkoituksena on tarjota aineistonsa arkistoiville tutkijoille ja opiskelijoille helppo tapa kerätä kirjoitusaineistoja. Päädyimme täysin uuden palvelun luomiseen havaittuamme, että opiskelijat ja tutkijat käyttävät arkistoituja kirjoitusaineistoja hyvinkin paljon, mutta niitä keräävät lähinnä vain isommat organisaatiot ja eri alojen järjestöt.

Tulkitsimme, että tutkijat ja opiskelijat pitivät kirjoitusaineistoja kiinnostavana ja tutkimuksellisesti rikkaana aineistotyyppinä, mutta keruiden järjestäminen ja tekninen hallinta koettiin jossain määrin hankalaksi. Haastetta lisää se, että erityisesti kaikelle kansalle suunnatuissa kirjoituskeruissa on vaikea etukäteen arvioida, kuinka suureksi aineistomäärät lopulta kasvavat.

Pennan julkaisun jälkeen kirjoitusaineistojen keruu on helpottunut, sillä Tietoarkisto hoitaa keruun teknisen toteutuksen ja kirjoitusten tietoturvallisen säilytyksen. Tutkijan itsensä tarvitsee ainoastaan laatia kirjoituskutsu ja tiedottaa keruusta valitsemalleen kohderyhmälle.

Tietoarkisto luo tutkijan laatiman kirjoituskutsun pohjalta Pennaan keruulomakkeen ja lisää lomakkeeseen tarvittavat taustatietokysymykset. Tämän jälkeen tutkija saa Tietoarkistolta keruulinkin, jota hän voi levittää parhaiksi katsomissaan kanavissa. Kun keruu on päättynyt, Tietoarkisto toimittaa kirjoitukset tutkijalle txt-muodossa zip-pakettina. Tietoarkistoon arkistoitavat kirjoitukset tulevat sovitun ajan kuluttua jatkokäytettäviksi palveluportaali Ailaan aineiston käyttöehtojen mukaisesti.

Koska Tietoarkisto vastaa keruun teknisestä toteutuksesta, voidaan samalla varmistaa kirjoitusaineistojen ongelmaton arkistointi tietosuojalainsäädännön ja tutkimusetiikan näkökulmasta. Jokaisessa keruussa tutkittavia informoidaan asianmukaisesti aineiston käytöstä sekä kysytään lupa kirjoituksen arkistointiin ja jatkokäyttöön.

Ensimmäiset keruut ovat onnistuneet

Nyt Penna on ollut käytössä vajaan vuoden ja ensimmäiset kuusi keruuta on järjestetty. Jo nyt Pennalla on kerätty vastaajien kokemuksia hyvin erilaisista aiheista. Aineistoja on kerätty muun muassa liittyen opiskelijoiden hyvinvointiin, sukupuolen merkitykseen opetuksessa sekä ilman parisuhdetta elävien miesten elämään.

Ensimmäisten keruiden jälkeen voimme myös jo hieman tarkastella keruista saatuja kokemuksia. Yleisesti ottaen ensikokemukset Pennasta ovat olleet erittäin hyviä. Pennaa käyttäneet tutkijat ovat olleet tyytyväisiä uuden keruualustan tarjoamiin mahdollisuuksiin ja moni on ollut yllättynyt, kuinka vaivatta keruun järjestäminen on onnistunut.

Hyvien kokemusten innoittamana Tietoarkisto esitteli toukokuun lopussa Pennaa myös data-arkistointi- ja tietopalvelualan kansainvälisen IASSIST-järjestön vuosittaisessa päätapahtumassa, joka järjestettiin tänä vuonna Montrealissa Kanadassa. Myös siellä oltiin kiinnostuneita uudesta palvelusta.

Hyvä tiedotus onnistuneen keruun avain

Vaikka Pennan ansiosta keruiden tekninen toteutus onkin nyt helppoa, ei pelkkä Pennan olemassaolo vielä takaa keruun onnistumista. Suurimmassa vastuussa on edelleen tutkija itse, sillä keruusta tiedottaminen on yksinomaan tutkijan vastuulla. Lähes kaikissa tähänastisista keruista tutkimuksen kohderyhmänä on ollut jokin erityinen väestönryhmä, ei koko väestö. Koska tällaisissa keruissa tavoitellut vastaajamäärät ovat jo lähtökohtaisesti varsin kohtuullisia, vaikuttaa keruun onnistumiseen olennaisesti tiedotuksen hyvä suunnittelu ja oikeiden tiedotuskanavien löytäminen.

Tiedottamisen merkitystä korostaa myös toinen ensimmäisistä keruista tekemämme havainto. Keruuajan pidentäminen kesken keruun ei ole lisännyt vastausmääriä käytännössä lainkaan, ellei tiedottamista ei samalla ole tehostettu. Lisäksi niissä keruissa, joissa tiedämme keruutiedotteiden lähettämisajankohdan, vastausmäärät ovat aina selvästi nousseet hetkellisesti tiedotteen lähettämistä seuraavina päivinä. Vastaavasti keruissa, joissa keruutiedote on lähetetty vain kertaalleen keruun alussa, vastausmäärät ovat alun piikin jälkeen kuihtuneet riippumatta siitä, kuinka pitkään keruu on ollut auki.

Vaikka jokainen keruu on aina erilainen, emmekä muutaman yksittäisen keruun jälkeen voi yleistää liikaa, ovat tähänastiset keruut kuitenkin selvästi osoittaneet hyvän tiedottamisen tärkeyden onnistuneessa kirjoituskeruussa.

Kehitystarpeita

Ensimmäiset Pennalla toteutetut keruut synnyttivät myös kehitysideoita. Esiin nousi muun muassa toive siitä, että aineistonkerääjät voisivat itse reaaliaikaisesti seurata oman keruunsa vastaussaldon kehittymistä. Tällä hetkellä Tietoarkisto lähettää tutkijalle tiedon vastaussaldosta keruun pituudesta riippuen noin viikon tai kahden välein sekä aina pyydettäessä. Tutkijan kannalta olisi parempi, että hän voisi seurata vastaussaldonsa kehittymistä reaaliaikaisesti. Tällöin hän voisi esimerkiksi tarvittaessa tehostaa tiedottamistaan tekemiensä havaintojen perusteella.

Toinen konkreettinen tarve olisi tehdä Pennasta myös englanninkielinen versio, jotta myös muut kuin suomenkieliset tutkijat ja vastaajat voisivat käyttää Pennaa täysipainoisesti. Nykyään keruulomakkeen voi kyllä tehdä muullakin kuin suomenkielellä, mutta Pennan ohjeet ja muut tekstit ovat vain suomeksi.

Kaikki käyttäjien palautteet sekä omat havaintomme Pennan kehittämiseksi kirjataan ja niiden toteuttamismahdollisuuksia kartoitetaan Pennan tulevien päivitysten yhteydessä. Toivomme, että voimme myös edellä mainitut toiveet toteutettua mahdollisimman pian.

Käyttäkää Pennaa, olkaa hyvä!

Pennasta tähän mennessä saatujen kokemusten perusteella uskallan vilpittömästi suositella Pennaa kaikille, jotka haluavat kerätä oman kirjoitusaineiston tutkimustansa varten. Pennan käyttö on tutkijoille ja opiskelijoille täysin ilmaista. Lisätietoa Pennasta löytyy Tietoarkiston verkkosivuilta. Voit myös olla suoraan yhteydessä Tietoarkiston asiakaspalveluun.

Lisätietoa:

» Kirjoitusaineistojen keruutyökalu Penna
» Lisää Penna-palvelusta
» asiakaspalvelu.fsd [at] uta.fi

Jarkko Päivärinta
tietopalveluasiantuntija
etunimi.sukunimi [at] uta.fi

Some-aineistojen tutkiminen kariutuu usein tekijänoikeuksiin ja käyttöehtoihin

Sosiaalisen median aineistojen tutkiminen on ajankohtaista sekä humanistisilla aloilla että yhteiskuntatieteissä, mutta se miten uudentyyppisiä aineistoja saa tutkia, on monelle epäselvää.

Tietoarkiston, ATT-hankkeen ja Kielipankin järjestämässä Rajoittaako lainsäädäntö humanistista tutkimusta -seminaarissa some-tutkimuksen haasteisiin saatiin sekä lakiasiantuntijan että tutkijan näkökulmat.

Informaatio-oikeuden asiantuntija Marjut Salokannel (SaReCo) kertoi some-aineistojen käyttöön liittyvistä rajoituksista sopimusoikeudellisista, tekijänoikeudellisista ja tietosuojaan liittyvistä näkökulmista. Tohtoriopiskelija Salla-Maaria Laaksosen esitys taas oli käytännön esimerkki siitä, minkälaisia ongelmia some-tutkija joutuu työssänsä ratkaisemaan.

Vain osa palveluista sallii tutkimuskäytön

Salokannel totesi, että eri palvelut suhtautuvat tutkimukseen hyvin eri tavoin.

Twitterin käyttöehdot sallivat aineiston tutkimuskäytön, kunhan se tapahtuu palvelun määrittämällä tavalla. Twitter tarjoaa tutkijoiden käyttöön esimerkiksi rajapinnan, jonka välityksellä aineiston kerääminen on sallittua.

Facebookin käyttöehdot puolestaan mahdollistavat aineiston ei-kaupallisen käytön, jolloin myös ei-kaupallisen tutkimuskäytön voi Salokanteleen mukaan tulkita sallituksi.

Aller Median omistaman Suomi24:n ehdoissa myönnetään lupa vain aineiston yksityiseen käyttöön, jolloin ammattimainen tutkimuskäyttö on tulkittava kielletyksi. Käytännössä Suomi24:n aineistojen tutkiminen on kuitenkin mahdollista, sillä Aller Media ja Kielipankki ovat tehneet sopimuksen, jonka nojalla Suomi24-aineistot voi ladata tutkimuskäyttöön laillisesti Kielipankin kautta.

Myös Instagramin käyttöehdot ovat tiukat, eikä siellä julkaistuja kuvia voi Salokanteleen tulkinnan mukaan käyttää tutkimukseen ainakaan millään automatisoidulla tavalla.

Marjut Salokannel toteaa, että sosiaalisen median eri palvelut suhtautuvat tutkimukseen hyvin eri tavoin. (Kuva: Laura Chieri).

Suurimmat ongelmat liittyvät tekijänoikeuksiin

Tutkimuksen kannalta suurimmat ongelmat liittyvät Salokanteleen mukaan some-aineistojen tekijänoikeuksiin. Teossuojattujen sisältöjen kopioiminen ja yleisön saataville saattaminen vaativat oikeudenhaltijan luvan aina, jos tekijänoikeuslaissa ei ole oikeuttavaa poikkeussäännöstä. Suomessa sosiaalisen median sisältöjen tutkimisen suurin ongelma onkin Salokanteleen mukaan se, että Suomen laissa ei ole niin sanottua tutkimuspoikkeussäännöstä.

Useimpien teoskynnyksen ylittävien aineistojen tutkiminen ja opetuskäyttö on ollut Suomessa mahdollista Kopioston ja yliopistojen välillä solmitun erillissopimuksen ansiosta. Sopimus ei kuitenkaan kata mitään sosiaalisen median julkaisuja.

Pientä helpotusta tuo se, että tekijänoikeudet ovat voimassa vain silloin, kun julkaisu ylittää teoskynnyksen. Käytännössä kynnys on kuitenkin hyvin matala. Tohtoriopiskelija Salla-Maaria Laaksonen totesi tuntevansa tapauksen, jossa 140 merkin twiitti oli tulkittu teokseksi. Salokannel puolestaan viittasi Luxembourgin tuomioistuimessa käsiteltyyn tapaukseen, jossa teokseksi oli tulkittu 11 sanaa. Esimerkiksi Instagram-kuvat ylittävät teoskynnyksen Salokanteleen mukaan käytännössä aina, samoin vähääkään omaperäisemmät kirjoitukset.

Panelistit Salla-Maaria Laaksonen (oik.), Ulla-Maija Peltonen, Anna Hänninen ja Marjut Salokannel (vas.) keskustelivat seminaarissa siitä, rajoittaako lainsäädäntö humanistista tutkimusta. (Kuva: Laura Chieri).

Salokannel totesi ongelman olevan nimenomaan Suomen laissa. Esimerkiksi Yhdysvalloissa kysymys on ratkaistu fair use -säännöksellä, jonka nojalla tekijänoikeuksien suojaamaa aineistoa voi käyttää tieteelliseen tutkimukseen ilman oikeudenhaltijoiden lupaa.

Salokannel totesikin, että myös Suomen lakiin täytyisi saada oikeuttamisperiaate, jonka nojalla sosiaalisen median aineiston tieteellinen tutkiminen olisi tekijänoikeuksista huolimatta yksiselitteisesti mahdollista. Hänen mukaansa tutkimuksen oikeuttavan säännöksen puuttuminen vaikeuttaa suomalaisen tutkimuksen kilpailua maailmalla ratkaisevasti.

Tietosuoja-asetus ei estä some-datan tutkimista

Tietosuojan puitteissa sosiaalisen median aineistojen tutkiminen on Salokanteleen mukaan useimmissa tapauksissa mahdollista. EU:n uusi tietosuoja-asetus hyväksyttiin toukokuussa, ja sitä aletaan soveltaa suoraan suomalaiseen lainsäädäntöön keväällä 2018.

Uusi asetus mahdollistaa henkilötietoja sisältävän aineiston tutkimuskäytön jopa ilman rekisteröidyn lupaa, kunhan tarvittavista suojatoimista on huolehdittu. Suojatoimet ovat tarpeen aina, kun aineistossa on tietoja, joista yksittäiset henkilöt voidaan tunnistaa joko suoraan tai välillisesti.

Tietosuoja-asetuksen mukaan henkilötietoja sisältävä materiaali tulisi anonymisoida täysin aina, kun se on tutkimuksen tekemisen kannalta mahdollista. Silloin, kun anonymisointi ei tule kysymykseen, yksi mahdollinen suojatoimi voi olla esimerkiksi aineiston pseudonymisointi.

Varteenotettavana suojatoimena Salokannel nosti esille myös lakisääteisen eettisen arvioinnin, jota esimerkiksi Ruotsissa edellytetään aina, kun tutkimuksessa käsitellään arkaluonteista tietoa. Etenkin uuden tietosuoja-asetuksen ajalla, digitaalisessa toimintaympäristössä samanlainen lakisääteinen arviointi olisi hänen mukaansa paikallaan myös Suomessa.

Salokannel kuitenkin korosti, että lakisääteisen eettisen arvioinnin rahoituksen täytyisi tulla valtion budjetista, eli malli ei voisi perustua vapaaehtoisuuteen tai esimerkiksi tutkijoiden niskoille kaatuvaan ylimääräiseen työhön.

Verkkotutkija liikkuu jatkuvasti kaltevalla pinnalla

Some-aineistoja tutkinut tohtoriopiskelija Salla-Maaria Laaksonen totesi omassa puheenvuorossaan, että verkkotutkimusta sääntelevän lainsäädännön sisäistämistä vaikeuttaa kaiken muun ohessa se, että sosiaalisen median palvelut muuttuvat ja kehittyvät koko ajan. Esimerkiksi teknologisten ratkaisujen muutokset vaikuttavat hänen havaintojensa mukaan suoraan siihen, miten ihmiset palveluissa käyttäytyvät. Myös palveluiden käyttöehdot ja rajapinnat muuttuvat tasaiseen tahtiin.

Laaksonen näkee, että sometutkimuksessa data on käytännössä pystyttävä keräämään ilman jokaisen käyttäjän erillistä lupaa. (Kuva: Laura Chieri).

Salokanteleen esitystä Laaksonen kommentoi toteamalla, että käytännön tutkimustyössä data on usein pystyttävä keräämään ilman jokaisen käyttäjän erillistä lupaa. Esimerkiksi hän itse on ollut mukana tutkimassa sosiaalisesta mediasta kerättyä 1,5 miljoonan eduskuntavaaleja käsittelevän viestin aineistoa, jonka kohdalla erillisten lupien pyytäminen olisi ollut täysin utopistista.

Useimmat some-dataa keräävät tutkijat luottavat Laaksosen mukaan joko siihen, että sosiaalisen median palveluissa julkaistu data on julkista tai siihen, että palvelun käyttöehdot mahdollistavat tutkimuskäytön, jolloin myös kaikki käyttäjät ovat periaatteessa suostuneet siihen.

Heti perään hän kuitenkin myönsi, että todellisuudessa harva käyttäjä on kunnolla perehtynyt palveluiden käyttöehtoihin, jolloin ei myöskään voida olettaa, että he tietäisivät mahdollisesta tutkimuskäytöstä. Laaksonen totesikin, että digitutkija joutuu tällä hetkellä liikkumaan sosiaalisessa mediassa jatkuvasti liukkaalla pinnalla.

Lisätietoja
» Seminaarin ohjelma ja esitykset
» Katja Fält, Tietoarkistolehti 2/2016: Someaineistojen arkistointi ja jatkokäyttö kaatuvat useimpien alustojen käyttöehtoihin

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Some-aineistojen tutkiminen kariutuu usein tekijänoikeuksiin ja käyttöehtoihin

Sosiaalisen median aineistojen tutkiminen on ajankohtaista sekä humanistisilla aloilla että yhteiskuntatieteissä, mutta se miten uudentyyppisiä aineistoja saa tutkia, on monelle epäselvää.

Tietoarkiston, ATT-hankkeen ja Kielipankin järjestämässä Rajoittaako lainsäädäntö humanistista tutkimusta -seminaarissa some-tutkimuksen haasteisiin saatiin sekä lakiasiantuntijan että tutkijan näkökulmat.

Informaatio-oikeuden asiantuntija Marjut Salokannel (SaReCo) kertoi some-aineistojen käyttöön liittyvistä rajoituksista sopimusoikeudellisista, tekijänoikeudellisista ja tietosuojaan liittyvistä näkökulmista. Tohtoriopiskelija Salla-Maaria Laaksosen esitys taas oli käytännön esimerkki siitä, minkälaisia ongelmia some-tutkija joutuu työssänsä ratkaisemaan.

Vain osa palveluista sallii tutkimuskäytön

Salokannel totesi, että eri palvelut suhtautuvat tutkimukseen hyvin eri tavoin.

Twitterin käyttöehdot sallivat aineiston tutkimuskäytön, kunhan se tapahtuu palvelun määrittämällä tavalla. Twitter tarjoaa tutkijoiden käyttöön esimerkiksi rajapinnan, jonka välityksellä aineiston kerääminen on sallittua.

Facebookin käyttöehdot puolestaan mahdollistavat aineiston ei-kaupallisen käytön, jolloin myös ei-kaupallisen tutkimuskäytön voi Salokanteleen mukaan tulkita sallituksi.

Aller Median omistaman Suomi24:n ehdoissa myönnetään lupa vain aineiston yksityiseen käyttöön, jolloin ammattimainen tutkimuskäyttö on tulkittava kielletyksi. Käytännössä Suomi24:n aineistojen tutkiminen on kuitenkin mahdollista, sillä Aller Media ja Kielipankki ovat tehneet sopimuksen, jonka nojalla Suomi24-aineistot voi ladata tutkimuskäyttöön laillisesti Kielipankin kautta.

Myös Instagramin käyttöehdot ovat tiukat, eikä siellä julkaistuja kuvia voi Salokanteleen tulkinnan mukaan käyttää tutkimukseen ainakaan millään automatisoidulla tavalla.

Marjut Salokannel toteaa, että sosiaalisen median eri palvelut suhtautuvat tutkimukseen hyvin eri tavoin. (Kuva: Laura Chieri).

Suurimmat ongelmat liittyvät tekijänoikeuksiin

Tutkimuksen kannalta suurimmat ongelmat liittyvät Salokanteleen mukaan some-aineistojen tekijänoikeuksiin. Teossuojattujen sisältöjen kopioiminen ja yleisön saataville saattaminen vaativat oikeudenhaltijan luvan aina, jos tekijänoikeuslaissa ei ole oikeuttavaa poikkeussäännöstä. Suomessa sosiaalisen median sisältöjen tutkimisen suurin ongelma onkin Salokanteleen mukaan se, että Suomen laissa ei ole niin sanottua tutkimuspoikkeussäännöstä.

Useimpien teoskynnyksen ylittävien aineistojen tutkiminen ja opetuskäyttö on ollut Suomessa mahdollista Kopioston ja yliopistojen välillä solmitun erillissopimuksen ansiosta. Sopimus ei kuitenkaan kata mitään sosiaalisen median julkaisuja.

Pientä helpotusta tuo se, että tekijänoikeudet ovat voimassa vain silloin, kun julkaisu ylittää teoskynnyksen. Käytännössä kynnys on kuitenkin hyvin matala. Tohtoriopiskelija Salla-Maaria Laaksonen totesi tuntevansa tapauksen, jossa 140 merkin twiitti oli tulkittu teokseksi. Salokannel puolestaan viittasi Luxembourgin tuomioistuimessa käsiteltyyn tapaukseen, jossa teokseksi oli tulkittu 11 sanaa. Esimerkiksi Instagram-kuvat ylittävät teoskynnyksen Salokanteleen mukaan käytännössä aina, samoin vähääkään omaperäisemmät kirjoitukset.

Panelistit Salla-Maaria Laaksonen (oik.), Ulla-Maija Peltonen, Anna Hänninen ja Marjut Salokannel (vas.) keskustelivat seminaarissa siitä, rajoittaako lainsäädäntö humanistista tutkimusta. (Kuva: Laura Chieri).

Salokannel totesi ongelman olevan nimenomaan Suomen laissa. Esimerkiksi Yhdysvalloissa kysymys on ratkaistu fair use -säännöksellä, jonka nojalla tekijänoikeuksien suojaamaa aineistoa voi käyttää tieteelliseen tutkimukseen ilman oikeudenhaltijoiden lupaa.

Salokannel totesikin, että myös Suomen lakiin täytyisi saada oikeuttamisperiaate, jonka nojalla sosiaalisen median aineiston tieteellinen tutkiminen olisi tekijänoikeuksista huolimatta yksiselitteisesti mahdollista. Hänen mukaansa tutkimuksen oikeuttavan säännöksen puuttuminen vaikeuttaa suomalaisen tutkimuksen kilpailua maailmalla ratkaisevasti.

Tietosuoja-asetus ei estä some-datan tutkimista

Tietosuojan puitteissa sosiaalisen median aineistojen tutkiminen on Salokanteleen mukaan useimmissa tapauksissa mahdollista. EU:n uusi tietosuoja-asetus hyväksyttiin toukokuussa, ja sitä aletaan soveltaa suoraan suomalaiseen lainsäädäntöön keväällä 2018.

Uusi asetus mahdollistaa henkilötietoja sisältävän aineiston tutkimuskäytön jopa ilman rekisteröidyn lupaa, kunhan tarvittavista suojatoimista on huolehdittu. Suojatoimet ovat tarpeen aina, kun aineistossa on tietoja, joista yksittäiset henkilöt voidaan tunnistaa joko suoraan tai välillisesti.

Tietosuoja-asetuksen mukaan henkilötietoja sisältävä materiaali tulisi anonymisoida täysin aina, kun se on tutkimuksen tekemisen kannalta mahdollista. Silloin, kun anonymisointi ei tule kysymykseen, yksi mahdollinen suojatoimi voi olla esimerkiksi aineiston pseudonymisointi.

Varteenotettavana suojatoimena Salokannel nosti esille myös lakisääteisen eettisen arvioinnin, jota esimerkiksi Ruotsissa edellytetään aina, kun tutkimuksessa käsitellään arkaluonteista tietoa. Etenkin uuden tietosuoja-asetuksen ajalla, digitaalisessa toimintaympäristössä samanlainen lakisääteinen arviointi olisi hänen mukaansa paikallaan myös Suomessa.

Salokannel kuitenkin korosti, että lakisääteisen eettisen arvioinnin rahoituksen täytyisi tulla valtion budjetista, eli malli ei voisi perustua vapaaehtoisuuteen tai esimerkiksi tutkijoiden niskoille kaatuvaan ylimääräiseen työhön.

Verkkotutkija liikkuu jatkuvasti kaltevalla pinnalla

Some-aineistoja tutkinut tohtoriopiskelija Salla-Maaria Laaksonen totesi omassa puheenvuorossaan, että verkkotutkimusta sääntelevän lainsäädännön sisäistämistä vaikeuttaa kaiken muun ohessa se, että sosiaalisen median palvelut muuttuvat ja kehittyvät koko ajan. Esimerkiksi teknologisten ratkaisujen muutokset vaikuttavat hänen havaintojensa mukaan suoraan siihen, miten ihmiset palveluissa käyttäytyvät. Myös palveluiden käyttöehdot ja rajapinnat muuttuvat tasaiseen tahtiin.

Laaksonen näkee, että sometutkimuksessa data on käytännössä pystyttävä keräämään ilman jokaisen käyttäjän erillistä lupaa. (Kuva: Laura Chieri).

Salokanteleen esitystä Laaksonen kommentoi toteamalla, että käytännön tutkimustyössä data on usein pystyttävä keräämään ilman jokaisen käyttäjän erillistä lupaa. Esimerkiksi hän itse on ollut mukana tutkimassa sosiaalisesta mediasta kerättyä 1,5 miljoonan eduskuntavaaleja käsittelevän viestin aineistoa, jonka kohdalla erillisten lupien pyytäminen olisi ollut täysin utopistista.

Useimmat some-dataa keräävät tutkijat luottavat Laaksosen mukaan joko siihen, että sosiaalisen median palveluissa julkaistu data on julkista tai siihen, että palvelun käyttöehdot mahdollistavat tutkimuskäytön, jolloin myös kaikki käyttäjät ovat periaatteessa suostuneet siihen.

Heti perään hän kuitenkin myönsi, että todellisuudessa harva käyttäjä on kunnolla perehtynyt palveluiden käyttöehtoihin, jolloin ei myöskään voida olettaa, että he tietäisivät mahdollisesta tutkimuskäytöstä. Laaksonen totesikin, että digitutkija joutuu tällä hetkellä liikkumaan sosiaalisessa mediassa jatkuvasti liukkaalla pinnalla.

Lisätietoja
» Seminaarin ohjelma ja esitykset
» Katja Fält, Tietoarkistolehti 2/2016: Someaineistojen arkistointi ja jatkokäyttö kaatuvat useimpien alustojen käyttöehtoihin

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Lapsella on oikeus osallistua ja kertoa elämästään

Lapsiin kohdistuvaa väkivaltaa on tutkittu valtakunnallisella uhritutkimuksella kaksi kertaa (2008 ja 2013). Tutkimukset ovat tuottaneet tärkeää tietoa kuudes- ja yhdeksäsluokkalaisten elämästä. Suurin osa lasten kokemasta väkivallasta ei tule viranomaisten tietoon, jolloin lasten kokemusten kysyminen heiltä itseltään on ainoa tapa saada tietoa ilmiöstä kokonaisuudessaan. Kerättyä tietoa onkin käytetty laajasti muun muassa viranomaisten toiminnan kehittämisessä.

Uhritutkimukset toteutettiin kouluissa koulupäivän aikana. Päätöksen koulun osallistumisesta teki rehtori ja lapsen osallistumisesta lapsi itse. Vanhempien lupaa ei siis kysytty, koska lapsella on oikeus itse päättää osallistumisestaan, kun kysely tehdään koulunkaltaisessa turvallisessa ympäristössä. Vuonna 2008 kyselyn toteutus sujui hyvin. Väkivallasta kysyminen lapsilta ilman vanhempien lupaa herätti kouluissa hieman eettistä epäröintiä, mutta perusteellisella valmistelulla ja yhteistyöllä kyselyn toteutus kuitenkin onnistui ja koulut olivat hyvin mukana.

Vuoden 2013 kyselyn toteutus ei sitten sujunutkaan yhtä mallikkaasti. Yhä useampi kunta edellytti rehtorin päätöksen lisäksi kuntatason hyväksyntää kyselylle. Yhä useampi rehtori kieltäytyi osallistumasta, ja yhä useampi kunta tai koulu toivoi vanhempien etukäteislupaa. Ääriesimerkkinä Helsinki, joka oli linjannut, että mitään kyselyä ei toteuteta ilman vanhempien etukäteislupaa. Osaa kieltäytymisistä perusteltiin sillä, että pyyntöjä kyselyiden toteuttamiseksi tulee jatkuvasti ja se häiritsee koulutyötä. Vanhempien luvan vaatimiselle ei sen sijaan saatu yksiselitteistä syytä, mutta jotkut viittasivat siihen, että koulut eivät halua kuulla sanavalmiiden vanhempien valitusta jälkikäteen. Epäröinti oli siis lisääntynyt, eikä sillä ollut enää mitään tekemistä eettisyyden tai lapsen oikeuksien kanssa. Tavoitteena oli oman selustan turvaaminen ja työn vähentäminen.

Vastaavat ongelmat on havaittu monissa muissakin tutkimuksissa, joissa tuotetaan niin ikään korvaamatonta tietoa lasten elämästä, esimerkiksi nuorisorikollisuuskyselyssä. On äärimmäisen huolestuttavaa, että koulujen ja kuntien haluttomuus on vaarantamassa näitä tärkeitä tiedonlähteitä ja vielä perustein, jotka lapsen edun näkökulmasta eivät kestä päivänvaloa. Nyt olisikin aikalisän paikka miettiä yhdessä, miten tämä kehityssuunta muutetaan. Tutkijoiden on otettava vakavasti se palaute, että kyselyjen määrä häiritsee opetustyötä. Nettisovellusten myötä innostus kyselyjen tekemiseen opinnäytetasollakin on lisääntynyt suuresti, mutta koulujen, työpaikkojen yms. työrauhan takia olisi toivottavaa, että oman aineiston keruuta harkittaisiin huolella.

Heittäisin tämän haasteeksi erityisesti opinnäytteiden ohjaajille. Opinnäytteet eivät ole sen vähempiarvoisia tutkimuksia kuin muutkaan tutkimukset, mutta jos jatkuvat kyselyt kuormittavat eri instituutioita liikaa, on ensisijaisesti turvattava ne kyselyt, joiden anti on valtakunnantasolla merkittävä. Varsinkin, kun Tietoarkistosta on saatavilla valmiita hyviä aineistoja joka lähtöön eikä oman aineiston keruulle ole siten aina edes perusteita. Kouluja puolestaan muistuttaisin lapsen oikeudesta osallistua ja kertoa omasta elämästään. Tämä lapsen oikeus ei saa jäädä vanhempien oikeuksien tai oikkujen jalkoihin.

Vieraskynäblogisti
Noora Ellonen
tutkija
etunimi.sukunimi [at] uta.fi

Lapsella on oikeus osallistua ja kertoa elämästään

Lapsiin kohdistuvaa väkivaltaa on tutkittu valtakunnallisella uhritutkimuksella kaksi kertaa (2008 ja 2013). Tutkimukset ovat tuottaneet tärkeää tietoa kuudes- ja yhdeksäsluokkalaisten elämästä. Suurin osa lasten kokemasta väkivallasta ei tule viranomaisten tietoon, jolloin lasten kokemusten kysyminen heiltä itseltään on ainoa tapa saada tietoa ilmiöstä kokonaisuudessaan. Kerättyä tietoa onkin käytetty laajasti muun muassa viranomaisten toiminnan kehittämisessä.

Uhritutkimukset toteutettiin kouluissa koulupäivän aikana. Päätöksen koulun osallistumisesta teki rehtori ja lapsen osallistumisesta lapsi itse. Vanhempien lupaa ei siis kysytty, koska lapsella on oikeus itse päättää osallistumisestaan, kun kysely tehdään koulunkaltaisessa turvallisessa ympäristössä. Vuonna 2008 kyselyn toteutus sujui hyvin. Väkivallasta kysyminen lapsilta ilman vanhempien lupaa herätti kouluissa hieman eettistä epäröintiä, mutta perusteellisella valmistelulla ja yhteistyöllä kyselyn toteutus kuitenkin onnistui ja koulut olivat hyvin mukana.

Vuoden 2013 kyselyn toteutus ei sitten sujunutkaan yhtä mallikkaasti. Yhä useampi kunta edellytti rehtorin päätöksen lisäksi kuntatason hyväksyntää kyselylle. Yhä useampi rehtori kieltäytyi osallistumasta, ja yhä useampi kunta tai koulu toivoi vanhempien etukäteislupaa. Ääriesimerkkinä Helsinki, joka oli linjannut, että mitään kyselyä ei toteuteta ilman vanhempien etukäteislupaa. Osaa kieltäytymisistä perusteltiin sillä, että pyyntöjä kyselyiden toteuttamiseksi tulee jatkuvasti ja se häiritsee koulutyötä. Vanhempien luvan vaatimiselle ei sen sijaan saatu yksiselitteistä syytä, mutta jotkut viittasivat siihen, että koulut eivät halua kuulla sanavalmiiden vanhempien valitusta jälkikäteen. Epäröinti oli siis lisääntynyt, eikä sillä ollut enää mitään tekemistä eettisyyden tai lapsen oikeuksien kanssa. Tavoitteena oli oman selustan turvaaminen ja työn vähentäminen.

Vastaavat ongelmat on havaittu monissa muissakin tutkimuksissa, joissa tuotetaan niin ikään korvaamatonta tietoa lasten elämästä, esimerkiksi nuorisorikollisuuskyselyssä. On äärimmäisen huolestuttavaa, että koulujen ja kuntien haluttomuus on vaarantamassa näitä tärkeitä tiedonlähteitä ja vielä perustein, jotka lapsen edun näkökulmasta eivät kestä päivänvaloa. Nyt olisikin aikalisän paikka miettiä yhdessä, miten tämä kehityssuunta muutetaan. Tutkijoiden on otettava vakavasti se palaute, että kyselyjen määrä häiritsee opetustyötä. Nettisovellusten myötä innostus kyselyjen tekemiseen opinnäytetasollakin on lisääntynyt suuresti, mutta koulujen, työpaikkojen yms. työrauhan takia olisi toivottavaa, että oman aineiston keruuta harkittaisiin huolella.

Heittäisin tämän haasteeksi erityisesti opinnäytteiden ohjaajille. Opinnäytteet eivät ole sen vähempiarvoisia tutkimuksia kuin muutkaan tutkimukset, mutta jos jatkuvat kyselyt kuormittavat eri instituutioita liikaa, on ensisijaisesti turvattava ne kyselyt, joiden anti on valtakunnantasolla merkittävä. Varsinkin, kun Tietoarkistosta on saatavilla valmiita hyviä aineistoja joka lähtöön eikä oman aineiston keruulle ole siten aina edes perusteita. Kouluja puolestaan muistuttaisin lapsen oikeudesta osallistua ja kertoa omasta elämästään. Tämä lapsen oikeus ei saa jäädä vanhempien oikeuksien tai oikkujen jalkoihin.

Vieraskynäblogisti
Noora Ellonen
tutkija
etunimi.sukunimi [at] uta.fi