Tag Archives: Aineistonhallinnan käsikirja

Aineistojen tietosuoja luupin alla – jäännösriskin arviointi ja uudet ohjeet

Euroopan unionin tietosuoja-asetusta sovelletaan 25. toukokuuta alkaen. Viimeisen vuoden aikana Tietoarkistossa on valmistauduttu muutokseen monella tavalla. Olemme muun muassa arvioineet jäännösriskiä ja uudistaneet anonymisointia koskevat ohjeet.

Jäännösriskin (residual risk) arviointi tarkoittaa henkilötietoja sisältävien tietojen systemaattista arviointia tasaisin aikavälein. Siinä arvioidaan kertaalleen anonymisoiduista datoista yksittäisten henkilöiden tai ryppäiden paljastumisriskiä niin itse datan kuin ulkopuolisten tietojen valossa. Tietoarkisto aloitti jo arkistoitujen aineistojen jäännösriskin arvioimisen viime syksynä, ja iloksemme saamme todeta, että työ on edistynyt hienosti.

Jäännösriskin arvioinnin aikaansaannokset käytännössä

Kvantitatiivisissa aineistoissamme, joita meillä on yhteensä yli tuhat, jäännösriskin arviointi aloitettiin kartoittamalla riskialtteimmat aineistosarjat ja suorittamalla niille tarvittavat täydentävät anonymisointitoimenpiteet. Datat on kyllä anonymisoitu aikanaan parhaan taidon mukaan, mutta osaamisemme on kehittynyt vuosien varrella. Viimeisen kymmenen vuoden aikana tiedon saatavuus on helpottunut, erityisesti internetistä löytyy paljon tietoja. Riskialttiutta arvioitiinkin eniten suhteessa niihin. Tietoarkiston kokemuksen mukaan muualta saatavat tiedot ovat hyvin ratkaisevia, kun arvioidaan mitä kaikkea aineistolle tulee tehdä, jotta se on mahdollisimman anonyymi.

Erityisesti opiskelua ja tutkintoja koskevia tietoja on nykyisin saatavilla huomattavasti enemmän kuin kymmenen tai vaikkapa vain viisi vuotta sitten. Siksi jäännösriskin arviointi aloitettiin opiskelua käsittelevistä aineistosarjoista. Reilun puolen vuoden aikana on täydentävästi anonymisoitu 70 kvantitatiivista aineistoa ja käyty läpi kuudesosa kaikista sarjoistamme. Tyypillisin muutos on ollut muuttujien arvojen uudelleen luokittelu.

Kvalitatiivisten aineistojen, joita meillä on noin parisen sataa, jäännösriskin arvioinnissa on anonymisoitu täysin yhdeksänkymmentä haastattelua sisältävä aineistosarja. Alun alkaen sarja oli vain de-identifioitu, siis aineistoista oli poistettu vain suorat tunnisteet, kuten osoitteet. Lisäksi on tarkistettu 60 prosenttia ennen vuotta 2017 valmistuneista aineistoista (yht. 180 kpl). Tutkittavien tietosuojan kannalta on hienoa, että vain kuutta prosenttia aineistoista tarvitsi anonymisoida lisää. Koko aineistoa koskevia muutoksia tarvitsi tehdä vain kahteen aineistoon.

Uusia toimintatapoja

Tietoarkistossa on tähänkin asti tarkoin dokumentoitu datamuutokset ja anonymisointi. Jäännösriskin arvioinnissa luotiin uusi toimintatapa: karttuville aineistosarjoille laaditaan jatkossa sarjakohtaisia anonymisointisuunnitelmia, eräänlaisia anonymisoinnin viitekehyksiä.

Sarjaa koskevassa anonymisoinnin viitekehyksessä datatiedoston sisäisen tarkastelun lisäksi kiinnitetään huomiota mahdollisiin muihin saatavilla oleviin tietoihin. Viitekehystä täydennetään ajan kuluessa ja se ohjaa datan käsittelijää tarkastelemaan itse datatiedoston ohella käyttöympäristöä. Erityisesti tulee selvittää, mitä tietoja kohdepopulaatiosta on saatavilla internetissä.

Yksityiskohtainen tarkastelu tulee tehdä joka tapauksessa myös jokaiseen aineistosarjan uuteen dataan. Anonymisoinnin viitekehys ei siis aina riitä ohjeeksi – tutkijat kun tykkäävät välillä muutella myös sarja-aineistojaan, esimerkiksi lisäämällä niihin uusia taustamuuttujia ja kysymyksiä tutkittaville. Jos viitekehystä täsmennetään aineiston uusien muuttujien tai muualta saatavan tiedon kasvun vuoksi, tulee myös sarjan aiemmat aineistot tarkistaa ja tarvittaessa muuttaa. Näin jäännösriskin arviointi tulee osaksi aineistosarjojen peruskäsittelyä.

Anonymisointiohjeistukset muutoksessa

Tietosuoja-asetuksen tuoma käsitteistö ja anonymisoinnin toimintatapojen uudistukset Tietoarkistossa antoivat sysäyksen myös Aineistonhallinnan käsikirjan tunnisteellisuutta ja anonymisointia koskevien ohjeiden uudistamiselle. Opas tarjoaa nyt ohjeita käsitteitä koskeviin epäselvyyksiin esimerkiksi pohdittaessa, miten erottaa pseydonyymi ja anonyymi tieto toisistaan. Lisäksi lukija saa laajan kattauksen siitä, mitä pitää ottaa huomioon anonymisointia suunniteltaessa.

Erityisesti kvantitutkijoiden kannattaa nyt heristää korviaan, sillä täydensimme urakassa nimenomaan kvantitatiivisten aineistojen anonymisointiohjeita ja -menetelmiä.

Tutkijoiden tietotaidon kartuttaminen Aineistonhallinnan käsikirjan avulla vahvistaa myös Tietoarkistoon arkistoitavien aineistojen tietosuojaa. Viime vuonna valmistuneista arkistoiduista aineistoista jouduimme tekemään lisäanonymisointia 60 prosentille – vaikka usein tutkija oli olettanut aineistonsa jo anonyymiksi. Toivomme, että käsikirjamme uudistetut ohjeet pienentävät jatkossa tuota osuutta.

Suosittelemme siis lämpimästi tutustumista uusiin ohjeisiimme. Koska ohjeistukset ovat nimenmaan aineistonkäyttäjiä varten, otamme niistä myös mielellään palautetta vastaan!

Lisätietoa:
» Tietoarkiston asiakaspalvelu: asiakaspalvelu.fsd at uta.fi
» Aineistonhallinnan käsikirja, Tunnisteellisuus ja anonymisointi

Annika Sallinen
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi

Aineiston avaajan muistilista

Tietoarkiston tieteenala-asiantuntija Katja Fält ja tutkimusamanuenssi Eliisa Haanpää antoivat Jyväskylässä pidetyllä Metodifestivaalilla hyviä käytännönvinkkejä tutkimusaineistojen avaamiseen.

Aineistojen avaaminen tarkoittaa, että oma tutkimusaineisto saatetaan muun tiedeyhteisön käyttöön avoimen tieteen periaatteiden mukaisesti. Tätä vaativat tai suosittelevat nykyisin jo useimmat suomalaiset sekä kansainväliset yliopistot, julkaisijat ja rahoittajat. Aineiston avaaminen on myös tutkijalle itselleen tieteellinen meriitti, ja se lisää oman tutkimuksen vaikuttavuutta.

Aineistojen avaamista käsittelevä sessio herätti Metodifestivaalilla paljon kiinnostusta, mistä voi päätellä, että tutkijat kaipaavat asiassa konkreettisia neuvoja. Kokosimmekin Tietoarkistoblogiin Haanpään ja Fältin esityksiin perustuvan muistilistan, josta toivottavasti on apua aineiston avaamista suunnitteleville tutkijoille myös jatkossa! Vinkeistä on apua sekä siinä vaiheessa, kun aineistonkeruu on vasta suunnitelmissa että silloin, kun aineisto on jo olemassa, ja se on päätetty arkistoida.

Kun oman aineiston arkistoiminen ja avaaminen tulevat ajankohtaisiksi, kannattaa tutustua myös Tietoarkiston Aineistonhallinnan käsikirjaan ja ottaa yhteyttä Tietoarkiston asiakaspalveluun. Asiantuntijoiltamme saat aina parhaat täsmäneuvot juuri oman aineistosi vastuulliseen avaamiseen.

1. Tee aineistonhallintasuunnitelma

Aineistonkeruun suunnitteluun ja aineiston käsittelyyn kannattaa käyttää aikaa, että aineiston avaaminen jatkokäyttöä varten onnistuu tutkimuksen lopuksi. Olennaista on kiinnittää huomiota siihen, että aineisto on alusta asti johdonmukaisesti kerätty, kuvailtu ja toteutettu.

Aineistonhallintasuunnitelmassa kannattaa kertoa ainakin, minkälaista aineistoa aikoo kerätä, mitkä ovat aineistoon liittyvät oikeudet, minkälaisia tietosuoja- tai tietoturvakysymyksiä aineistoa kerätessä, käsitellessä ja säilytettäessä pitää huomioida, minkälaisia tiedostoformaatteja ja ohjelmistoja aineistoon liittyy, miten aineistoa aiotaan käsitellä, miten se kuvaillaan ja millainen aineiston elinkaaresta kokonaisuudessaan ajan myötä muodostuu.

Aineistonhallintasuunnitelman laatimiseen saa hyviä neuvoja Aineistonhallinnan käsikirjasta. Konkreettinen apu on myös aineistonhallintasuunnitelman laatimista varten kehitetty työkalu DMPTuuli.

2. Pohdi onko aineistossasi tunnisteellisia tietoja

Ihmistieteiden tutkimusaineistot sisältävät useimmiten enemmän tai vähemmän tutkittavien henkilötietoja. Tiedot ovat tunnisteellisia, jos niiden perusteella on mahdollista tunnistaa yksittäinen henkilö. Henkilötietolain ja EU:n tietosuoja-asetuksen määritelmien mukaisesti käytännössä mikä tahansa elävää ihmistä koskeva tieto voi olla tunnistamisen mahdollistava henkilötieto. Henkilötietojen käsittely vaatii aina tutkittavien nimenomaisen suostumuksen, ja tunnisteellisen aineiston avaaminen on usein tietosuojasyistä haastavaa.

Jos tunnisteellisen aineiston anonymisoi, siihen ei enää tarvitse soveltaa henkilötietolakia tai tietosuoja-asetusta. Anonymisointi tarkoittaa sitä, että tunnisteelliset tiedot häivytetään aineistosta niin täydellisesti, että yksittäisen henkilön tunnistaminen ei enää ole mahdollista.

Henkilötiedoista ja aineistojen anonymisoinnista voi lukea tarkemmin kvalitatiivista aineistoa ja kvalitatiivista aineistoa koskevista blogikirjoituksista.

3. Varmista onko aineisto tekijänoikeuden alaista

Erityisesti laadullisen aineiston avaaja törmää usein tekijänoikeuteen liittyviin kysymyksiin. Teossuojaa saavan aineiston avaaminen saattaa olla ongelmallista, mutta useimmiten se on kuitenkin mahdollista erikseen sopimalla. Tärkeintä on ymmärtää, että tekijänoikeuden haltija määrää aineiston käyttötavat, joten aineiston jatkokäyttöön on yleensä saatava suostumus tekijänoikeuden haltijalta.

Tietoarkisto on solminut Kopioston kanssa sopimuksen, jonka perusteella teossuojaa saavat sanomalehti-, aikakauslehti- ja kuva-aineistot, eli kaikki Kopiosto-sopimuksen alaiset aineistot voi arkistoida Tietoarkistoon. Näiden aineistojen kohdalla tutkijan ei siis tarvitse enää ryhtyä itse kysymään teossuojaa saavien aineistojen avaamiseen erillisiä lupia.

Esimerkiksi tutkittavien ottamien valokuvien tai heidän kirjoittamiensa teoksiksi tulkittavien tekstien avaamiseen sen sijaan tarvitaan erillinen lupa. Sosiaalisen median aineistojen avaamisessa tekijänoikeudet muodostuvat valitettavasti usein aineiston avaamissuunnitelmat pysäyttäväksi kynnyskysymykseksi, koska Suomen laissa ei ole ainakaan vielä tutkimuskäyttöä mahdollistavaa poikkeussäännöstä.

4. Tallenna aineisto huolellisesti

Kun aineisto on kerätty, tallenna havaintomatriisi, haastattelulitteraatiot tai muu aineisto varmaan paikkaan. Huolehdi myös siitä, että aineistosta tulee otettua säännöllisesti varmuuskopio. Uusi varmuuskopio kannattaa ottaa aina esimerkiksi silloin, jos lisäät aineistoon jotain taustatietoja. Näin varmistat, ettei aineisto katoa kesken analysoinnin tai ennen kuin se on ehditty avata jatkokäyttöön.

5. Nimeä aineiston muuttujat loogisesti

Aineistoa kuvaillessaan kannattaa miettiä, minkä verran aineistosta pitäisi kertoa, jotta itse pystyisi vielä kymmenen vuoden päästä ymmärtämään, mistä aineistossa on kyse ja käyttämään sitä vaivatta uuteen tutkimukseen.

Nimeä kvantitatiivisen aineiston muuttujat ja niiden selitteet niin, että ne vastaavat mahdollisimman yksiselitteisesti kyselylomaketta tai muuta keruuinstrumenttia. Myös muuttuja-arvot ja niiden selitteet kannattaa avata kokonaisuudessaan. Lyhenteiden käyttäminen on riski, koska lyhenteet saattavat sekoittua toisiinsa.

Muuttuja-arvoille tehdyt muutokset kannattaa raportoida mahdollisimman hyvin, niin alkuperäisen muuttujan selvittäminen onnistuu tarvittaessa. Kerro aina myös mahdollisesta painomuuttujien käytöstä ja kuvaile tarkasti painomuuttujiin liittyvät tiedot.

Myös puuttuvien tietojen määritteleminen on tärkeää. Jos siis vastaaja ei ole esimerkiksi vastannut kyselytutkimuksessa johonkin kysymykseen mitään, vastauksen voi koodata selkeästi muista vastausvaihtoehdoista erottuvalla numerolla kuten 999.

6. Kuvaile tutkimuksen toteutustapa riittävän tarkasti

Kuvaile mahdollisimman tarkasti aineistonkeruuseen liittyvät yksityiskohdat, eli milloin keruu on aloitettu, milloin se on lopetettu ja minkälaisia yksityiskohtia aineistonkeruuseen liittyy. Muista kirjata ylös tutkimuksen alkuperäinen käyttötarkoitus, eli se minkä vuoksi aineisto on kerätty, samoin se, ketkä ovat aineiston tekijät. Pidä mahdollisimman tarkkaa listaa myös siitä, minkälaisiin julkaisuihin aineistoa on käytetty, jotta mahdollinen jatkokäyttäjä tietää, minkälaisia julkaisuja aineistosta on jo tehty.

Aineiston perusjoukko eli aineiston kattama populaatio kannattaa määritellä mahdollisimman tarkasti jo aineistonkeruuvaiheessa. Myös havaintoyksikön määritteleminen on olennaista. Huomaa, että perusjoukko ja havaintoyksikkö voivat olla keskenään eri asiat. Jos esimerkiksi havaintoyksikkönä on kunta, ja tutkimuksessa on haluttu selvittää yksittäisten kuntien tai useiden kuntien tilannetta, perusjoukkona aineistossa saattavat olla esimerkiksi kunnanjohtajat, joita on haastateltu, jotta saadaan tietoa havaintoyksiköstä eli kunnasta.

7. Muista, että huolellinen suunnittelutyö palkitaan

Vaikka aineistonkeruun suunnitteleminen, käsittely ja anonymisointi voivat tuntua työläiltä, kannattaa pitää mielessä, että käytetty aika maksaa itsensä takaisin. Aineistonhallinnan suunnittelu ja johdonmukainen käsittely auttavat jo tutkimuksen toteuttamisvaiheessa, ja takaavat sen, että aineiston avaaminen sujuu helposti ilman ylimääräisiä ponnisteluja.

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Aineiston avaajan muistilista

Tietoarkiston tieteenala-asiantuntija Katja Fält ja tutkimusamanuenssi Eliisa Haanpää antoivat Jyväskylässä pidetyllä Metodifestivaalilla hyviä käytännönvinkkejä tutkimusaineistojen avaamiseen.

Aineistojen avaaminen tarkoittaa, että oma tutkimusaineisto saatetaan muun tiedeyhteisön käyttöön avoimen tieteen periaatteiden mukaisesti. Tätä vaativat tai suosittelevat nykyisin jo useimmat suomalaiset sekä kansainväliset yliopistot, julkaisijat ja rahoittajat. Aineiston avaaminen on myös tutkijalle itselleen tieteellinen meriitti, ja se lisää oman tutkimuksen vaikuttavuutta.

Aineistojen avaamista käsittelevä sessio herätti Metodifestivaalilla paljon kiinnostusta, mistä voi päätellä, että tutkijat kaipaavat asiassa konkreettisia neuvoja. Kokosimmekin Tietoarkistoblogiin Haanpään ja Fältin esityksiin perustuvan muistilistan, josta toivottavasti on apua aineiston avaamista suunnitteleville tutkijoille myös jatkossa! Vinkeistä on apua sekä siinä vaiheessa, kun aineistonkeruu on vasta suunnitelmissa että silloin, kun aineisto on jo olemassa, ja se on päätetty arkistoida.

Kun oman aineiston arkistoiminen ja avaaminen tulevat ajankohtaisiksi, kannattaa tutustua myös Tietoarkiston Aineistonhallinnan käsikirjaan ja ottaa yhteyttä Tietoarkiston asiakaspalveluun. Asiantuntijoiltamme saat aina parhaat täsmäneuvot juuri oman aineistosi vastuulliseen avaamiseen.

1. Tee aineistonhallintasuunnitelma

Aineistonkeruun suunnitteluun ja aineiston käsittelyyn kannattaa käyttää aikaa, että aineiston avaaminen jatkokäyttöä varten onnistuu tutkimuksen lopuksi. Olennaista on kiinnittää huomiota siihen, että aineisto on alusta asti johdonmukaisesti kerätty, kuvailtu ja toteutettu.

Aineistonhallintasuunnitelmassa kannattaa kertoa ainakin, minkälaista aineistoa aikoo kerätä, mitkä ovat aineistoon liittyvät oikeudet, minkälaisia tietosuoja- tai tietoturvakysymyksiä aineistoa kerätessä, käsitellessä ja säilytettäessä pitää huomioida, minkälaisia tiedostoformaatteja ja ohjelmistoja aineistoon liittyy, miten aineistoa aiotaan käsitellä, miten se kuvaillaan ja millainen aineiston elinkaaresta kokonaisuudessaan ajan myötä muodostuu.

Aineistonhallintasuunnitelman laatimiseen saa hyviä neuvoja Aineistonhallinnan käsikirjasta. Konkreettinen apu on myös aineistonhallintasuunnitelman laatimista varten kehitetty työkalu DMPTuuli.

2. Pohdi onko aineistossasi tunnisteellisia tietoja

Ihmistieteiden tutkimusaineistot sisältävät useimmiten enemmän tai vähemmän tutkittavien henkilötietoja. Tiedot ovat tunnisteellisia, jos niiden perusteella on mahdollista tunnistaa yksittäinen henkilö. Henkilötietolain ja EU:n tietosuoja-asetuksen määritelmien mukaisesti käytännössä mikä tahansa elävää ihmistä koskeva tieto voi olla tunnistamisen mahdollistava henkilötieto. Henkilötietojen käsittely vaatii aina tutkittavien nimenomaisen suostumuksen, ja tunnisteellisen aineiston avaaminen on usein tietosuojasyistä haastavaa.

Jos tunnisteellisen aineiston anonymisoi, siihen ei enää tarvitse soveltaa henkilötietolakia tai tietosuoja-asetusta. Anonymisointi tarkoittaa sitä, että tunnisteelliset tiedot häivytetään aineistosta niin täydellisesti, että yksittäisen henkilön tunnistaminen ei enää ole mahdollista.

Henkilötiedoista ja aineistojen anonymisoinnista voi lukea tarkemmin kvalitatiivista aineistoa ja kvalitatiivista aineistoa koskevista blogikirjoituksista.

3. Varmista onko aineisto tekijänoikeuden alaista

Erityisesti laadullisen aineiston avaaja törmää usein tekijänoikeuteen liittyviin kysymyksiin. Teossuojaa saavan aineiston avaaminen saattaa olla ongelmallista, mutta useimmiten se on kuitenkin mahdollista erikseen sopimalla. Tärkeintä on ymmärtää, että tekijänoikeuden haltija määrää aineiston käyttötavat, joten aineiston jatkokäyttöön on yleensä saatava suostumus tekijänoikeuden haltijalta.

Tietoarkisto on solminut Kopioston kanssa sopimuksen, jonka perusteella teossuojaa saavat sanomalehti-, aikakauslehti- ja kuva-aineistot, eli kaikki Kopiosto-sopimuksen alaiset aineistot voi arkistoida Tietoarkistoon. Näiden aineistojen kohdalla tutkijan ei siis tarvitse enää ryhtyä itse kysymään teossuojaa saavien aineistojen avaamiseen erillisiä lupia.

Esimerkiksi tutkittavien ottamien valokuvien tai heidän kirjoittamiensa teoksiksi tulkittavien tekstien avaamiseen sen sijaan tarvitaan erillinen lupa. Sosiaalisen median aineistojen avaamisessa tekijänoikeudet muodostuvat valitettavasti usein aineiston avaamissuunnitelmat pysäyttäväksi kynnyskysymykseksi, koska Suomen laissa ei ole ainakaan vielä tutkimuskäyttöä mahdollistavaa poikkeussäännöstä.

4. Tallenna aineisto huolellisesti

Kun aineisto on kerätty, tallenna havaintomatriisi, haastattelulitteraatiot tai muu aineisto varmaan paikkaan. Huolehdi myös siitä, että aineistosta tulee otettua säännöllisesti varmuuskopio. Uusi varmuuskopio kannattaa ottaa aina esimerkiksi silloin, jos lisäät aineistoon jotain taustatietoja. Näin varmistat, ettei aineisto katoa kesken analysoinnin tai ennen kuin se on ehditty avata jatkokäyttöön.

5. Nimeä aineiston muuttujat loogisesti

Aineistoa kuvaillessaan kannattaa miettiä, minkä verran aineistosta pitäisi kertoa, jotta itse pystyisi vielä kymmenen vuoden päästä ymmärtämään, mistä aineistossa on kyse ja käyttämään sitä vaivatta uuteen tutkimukseen.

Nimeä kvantitatiivisen aineiston muuttujat ja niiden selitteet niin, että ne vastaavat mahdollisimman yksiselitteisesti kyselylomaketta tai muuta keruuinstrumenttia. Myös muuttuja-arvot ja niiden selitteet kannattaa avata kokonaisuudessaan. Lyhenteiden käyttäminen on riski, koska lyhenteet saattavat sekoittua toisiinsa.

Muuttuja-arvoille tehdyt muutokset kannattaa raportoida mahdollisimman hyvin, niin alkuperäisen muuttujan selvittäminen onnistuu tarvittaessa. Kerro aina myös mahdollisesta painomuuttujien käytöstä ja kuvaile tarkasti painomuuttujiin liittyvät tiedot.

Myös puuttuvien tietojen määritteleminen on tärkeää. Jos siis vastaaja ei ole esimerkiksi vastannut kyselytutkimuksessa johonkin kysymykseen mitään, vastauksen voi koodata selkeästi muista vastausvaihtoehdoista erottuvalla numerolla kuten 999.

6. Kuvaile tutkimuksen toteutustapa riittävän tarkasti

Kuvaile mahdollisimman tarkasti aineistonkeruuseen liittyvät yksityiskohdat, eli milloin keruu on aloitettu, milloin se on lopetettu ja minkälaisia yksityiskohtia aineistonkeruuseen liittyy. Muista kirjata ylös tutkimuksen alkuperäinen käyttötarkoitus, eli se minkä vuoksi aineisto on kerätty, samoin se, ketkä ovat aineiston tekijät. Pidä mahdollisimman tarkkaa listaa myös siitä, minkälaisiin julkaisuihin aineistoa on käytetty, jotta mahdollinen jatkokäyttäjä tietää, minkälaisia julkaisuja aineistosta on jo tehty.

Aineiston perusjoukko eli aineiston kattama populaatio kannattaa määritellä mahdollisimman tarkasti jo aineistonkeruuvaiheessa. Myös havaintoyksikön määritteleminen on olennaista. Huomaa, että perusjoukko ja havaintoyksikkö voivat olla keskenään eri asiat. Jos esimerkiksi havaintoyksikkönä on kunta, ja tutkimuksessa on haluttu selvittää yksittäisten kuntien tai useiden kuntien tilannetta, perusjoukkona aineistossa saattavat olla esimerkiksi kunnanjohtajat, joita on haastateltu, jotta saadaan tietoa havaintoyksiköstä eli kunnasta.

7. Muista, että huolellinen suunnittelutyö palkitaan

Vaikka aineistonkeruun suunnitteleminen, käsittely ja anonymisointi voivat tuntua työläiltä, kannattaa pitää mielessä, että käytetty aika maksaa itsensä takaisin. Aineistonhallinnan suunnittelu ja johdonmukainen käsittely auttavat jo tutkimuksen toteuttamisvaiheessa, ja takaavat sen, että aineiston avaaminen sujuu helposti ilman ylimääräisiä ponnisteluja.

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Mistä apua aineistonhallintaan?

Rahoittajien kiinnostus tutkimusaineistoihin ja niiden avaamiseen on tehnyt aineistonhallinnasta ajankohtaisempaa kuin koskaan. Yhä useampi suomalainen ja ulkomainen rahoittaja haluaa hakemuksen yhteyteen aineistonhallintasuunnitelman, jossa rahoituksen hakijan on määriteltävä millaista aineistoa on tarkoitus kerätä, miten sitä on tarkoitus käsitellä ja analysoida, miten tutkimuseettisiin seikkoihin, tekijänoikeuteen ja immateriaalioikeuksiin liittyvät näkökulmat huomioidaan, ja miten aineistoa on tarkoitus säilyttää tutkimuksen aikana ja sen jälkeen. Lisäksi suunnitelmissa pitää tyypillisesti määritellä, miten aineisto aiotaan saattaa avoimeksi muun tiedeyhteisön käyttöön. Jos tutkija ei aio avata aineistoaan, myös tämä ratkaisu on perusteltava.

Varsinkin tutkimusprosessin alussa villinä vellovan aineiston hallinta voi tuntua kurittoman kissalauman paimentamiselta. Paniikkiin ei kuitenkaan ole syytä, sillä tutkimusaineiston hallintaan löytyy näppärästi verkosta apuvälineitä käsikirjamaisista oppaista kursseihin.

Ensimmäisenä on luonnollisesti mainostettava Tietoarkiston omaa Aineistonhallinnan käsikirjaa. Käsikirja on informatiivinen tietopaketti, joka on jaoteltu osa-alueittain muun muassa aineistonhallinnan suunnitteluun, laadullisen ja määrällisen aineiston käsittelyyn ja kuvailuun sekä aineistojen säilyttämiseen. Ohjeistus on käytännönläheistä ja yksityiskohtaista, ja sitä on höystetty esimerkein sekä mallipohjin. Osiot voi lukea järjestyksessä tai yksitellen osa-alue kerrallaan. Jokaisen osion loppuun on koottu myös linkkilista, josta löytyy lisälukemista enemmän tietoa kaipaaville.

Kurssimaista tarjontaa etsiville on verkossa tarjolla useampiakin vaihtoehtoja. Ensisijaisesti opiskelijoille ja tutkijoille on suunnattu esimerkiksi Edinburghin yliopiston yhteydessä toimivan Edinan aineistonhallintakoulutus MANTRA, joka opastaa aineistonhallinnan saloihin interaktiivisten osioiden kautta. MANTRAssa aineistonhallintapaketti rakentuu tekstiosioista, videoista ja niihin liittyvistä tehtävistä, ja sisältöjä on mahdollista myös ladata omalle koneelle. Aivan kuten Aineistonhallinnan käsikirjassakin, voi MANTRAssa suunnistaa haluamansa osio kerrallaan, sillä kurssi ei pakota lineaariseen etenemiseen. Aineistonhallinnan opastuksen lisäksi aineiston käsittelyyn on tarjolla tutoriaaleja, joista saa käytännön vinkkejä sekä määrällisen että laadullisen, mutta myös geospatiaalisen aineiston käsittelyyn.

Courseran laaja-alaisessa kurssivalikoimassa on tutkimusaineistojen hallintaan ja jakamiseen opastava viisiviikkoinen Research Data Management and Sharing -kurssi, jonka tavoitteissa on varustaa osallistujat paremmilla aineistonhallinnan taidoilla sekä rohkaista aineistojen arkistointiin ja jakamiseen. Kurssi on koostettu viikkojen mukaan viiteen kokonaisuuteen, ja viikoittaiset opetusmateriaalit koostuvat muun muassa erilaisista harjoitustehtävistä, kokeista, lukupaketeista ja opetusvideoista. Asiakokonaisuudet painottavat aineistonhallinnan suunnittelua sekä aineiston käsittelyä, jakamista ja arkistointia. Kurssille on mahdollista osallistua ilmaiseksi; vain diplominhimoisilta peritään osallistumismaksu.

Hollantilainen Research Data Netherlands tarjoaa Essentials 4 Data Support kurssin, joka on suunniteltu ensisijaisesti aineistonhallinnan ammattilaisille eli henkilöille, joiden tehtävä on opastaa tutkijoita aineistoihin liittyvissä kysymyksissä. Kurssi opastaa aineistonhallinnan saloihin kolmella eri tavalla: netin kurssimateriaalia voi hyödyntää rekisteröitymättä palvelun käyttäjäksi, luomalla käyttäjäprofiilin tai osallistumalla online-osuuksien lisäksi läsnäoloa vaativiin osuuksiin. Viimeksi mainittu vaihtoehto on maksullinen, mutta netissä tapahtuvat osuudet ovat ilmaisia. Kurssi sopii kuitenkin hyvin myös tutkijoille, sillä se lähestyy aihetta aineiston elinkaarijaottelun avulla, jonka mukaisesti kokonaisuudet esitetään tutkimusvaiheittain.

Myös eurooppalaisten yhteiskuntatieteellisten tietoarkistojen muodostama tutkimusinfrastruktuuri CESSDA on kehittämässä omaa aineistonhallinnan moduuliaan. Tässä työssä on mukana myös Tietoarkisto. CESSDAn kehittelemä aineistonhallinnan kokonaisuus on vielä ideointivaiheessa, mutta sen tavoitteena on opastaa jo olemassa olevien aineistojen jatkokäytössä sekä tutkimusaineistojen hallinnassa, arkistoinnissa, säilyttämisessä ja jakamisessa parhaiden käytäntöjen mukaisesti. Pyrkimyksenä on noudattaa Euroopan komission Horizon 2020 -ohjelman Open Research Data -linjauksia, joissa painottuu FAIR-periaate. Sen mukaisesti Horizon 2020 -rahoituksen saajien tulee saattaa tutkimusaineistonsa löydettäväksi (findable), saavutettavaksi (accessible), yhteentoimivaksi (interoperable) ja uudelleen käytettäväksi (reusable). Ohjelman tavoite onkin, että tutkijat avaisivat tutkimusaineistonsa vuodesta 2017 eteenpäin oletusarvoisesti.

Aineistonhallinnan edessä ei siis tarvitse nosta käsiään pystyyn saati väännellä niitä epätoivoissaan. Pelkästään netistä löytyvän tarjonnan avulla on mahdollista saada kattava ohjeistus onnistuneeseen aineistonhallintaan. Ja toki Tietoarkiston asiakaspalvelu on aina valmiina auttamaan aineistonhallintaan liittyvissä kysymyksissä.

Linkkejä ja lisätietoa:
» Aineistonhallinnan käsikirja
» Edina: MANTRA
» RDNL: Essentials 4 Data Support
» Coursera MOOC: Research Data Management and Sharing
» DCC (2013): Checklist for a Data Management Plan (pdf)
» Horizon 2020:n Open Research Data (pdf)

Katja Fält
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi

Mistä apua aineistonhallintaan?

Rahoittajien kiinnostus tutkimusaineistoihin ja niiden avaamiseen on tehnyt aineistonhallinnasta ajankohtaisempaa kuin koskaan. Yhä useampi suomalainen ja ulkomainen rahoittaja haluaa hakemuksen yhteyteen aineistonhallintasuunnitelman, jossa rahoituksen hakijan on määriteltävä millaista aineistoa on tarkoitus kerätä, miten sitä on tarkoitus käsitellä ja analysoida, miten tutkimuseettisiin seikkoihin, tekijänoikeuteen ja immateriaalioikeuksiin liittyvät näkökulmat huomioidaan, ja miten aineistoa on tarkoitus säilyttää tutkimuksen aikana ja sen jälkeen. Lisäksi suunnitelmissa pitää tyypillisesti määritellä, miten aineisto aiotaan saattaa avoimeksi muun tiedeyhteisön käyttöön. Jos tutkija ei aio avata aineistoaan, myös tämä ratkaisu on perusteltava.

Varsinkin tutkimusprosessin alussa villinä vellovan aineiston hallinta voi tuntua kurittoman kissalauman paimentamiselta. Paniikkiin ei kuitenkaan ole syytä, sillä tutkimusaineiston hallintaan löytyy näppärästi verkosta apuvälineitä käsikirjamaisista oppaista kursseihin.

Ensimmäisenä on luonnollisesti mainostettava Tietoarkiston omaa Aineistonhallinnan käsikirjaa. Käsikirja on informatiivinen tietopaketti, joka on jaoteltu osa-alueittain muun muassa aineistonhallinnan suunnitteluun, laadullisen ja määrällisen aineiston käsittelyyn ja kuvailuun sekä aineistojen säilyttämiseen. Ohjeistus on käytännönläheistä ja yksityiskohtaista, ja sitä on höystetty esimerkein sekä mallipohjin. Osiot voi lukea järjestyksessä tai yksitellen osa-alue kerrallaan. Jokaisen osion loppuun on koottu myös linkkilista, josta löytyy lisälukemista enemmän tietoa kaipaaville.

Kurssimaista tarjontaa etsiville on verkossa tarjolla useampiakin vaihtoehtoja. Ensisijaisesti opiskelijoille ja tutkijoille on suunnattu esimerkiksi Edinburghin yliopiston yhteydessä toimivan Edinan aineistonhallintakoulutus MANTRA, joka opastaa aineistonhallinnan saloihin interaktiivisten osioiden kautta. MANTRAssa aineistonhallintapaketti rakentuu tekstiosioista, videoista ja niihin liittyvistä tehtävistä, ja sisältöjä on mahdollista myös ladata omalle koneelle. Aivan kuten Aineistonhallinnan käsikirjassakin, voi MANTRAssa suunnistaa haluamansa osio kerrallaan, sillä kurssi ei pakota lineaariseen etenemiseen. Aineistonhallinnan opastuksen lisäksi aineiston käsittelyyn on tarjolla tutoriaaleja, joista saa käytännön vinkkejä sekä määrällisen että laadullisen, mutta myös geospatiaalisen aineiston käsittelyyn.

Courseran laaja-alaisessa kurssivalikoimassa on tutkimusaineistojen hallintaan ja jakamiseen opastava viisiviikkoinen Research Data Management and Sharing -kurssi, jonka tavoitteissa on varustaa osallistujat paremmilla aineistonhallinnan taidoilla sekä rohkaista aineistojen arkistointiin ja jakamiseen. Kurssi on koostettu viikkojen mukaan viiteen kokonaisuuteen, ja viikoittaiset opetusmateriaalit koostuvat muun muassa erilaisista harjoitustehtävistä, kokeista, lukupaketeista ja opetusvideoista. Asiakokonaisuudet painottavat aineistonhallinnan suunnittelua sekä aineiston käsittelyä, jakamista ja arkistointia. Kurssille on mahdollista osallistua ilmaiseksi; vain diplominhimoisilta peritään osallistumismaksu.

Hollantilainen Research Data Netherlands tarjoaa Essentials 4 Data Support kurssin, joka on suunniteltu ensisijaisesti aineistonhallinnan ammattilaisille eli henkilöille, joiden tehtävä on opastaa tutkijoita aineistoihin liittyvissä kysymyksissä. Kurssi opastaa aineistonhallinnan saloihin kolmella eri tavalla: netin kurssimateriaalia voi hyödyntää rekisteröitymättä palvelun käyttäjäksi, luomalla käyttäjäprofiilin tai osallistumalla online-osuuksien lisäksi läsnäoloa vaativiin osuuksiin. Viimeksi mainittu vaihtoehto on maksullinen, mutta netissä tapahtuvat osuudet ovat ilmaisia. Kurssi sopii kuitenkin hyvin myös tutkijoille, sillä se lähestyy aihetta aineiston elinkaarijaottelun avulla, jonka mukaisesti kokonaisuudet esitetään tutkimusvaiheittain.

Myös eurooppalaisten yhteiskuntatieteellisten tietoarkistojen muodostama tutkimusinfrastruktuuri CESSDA on kehittämässä omaa aineistonhallinnan moduuliaan. Tässä työssä on mukana myös Tietoarkisto. CESSDAn kehittelemä aineistonhallinnan kokonaisuus on vielä ideointivaiheessa, mutta sen tavoitteena on opastaa jo olemassa olevien aineistojen jatkokäytössä sekä tutkimusaineistojen hallinnassa, arkistoinnissa, säilyttämisessä ja jakamisessa parhaiden käytäntöjen mukaisesti. Pyrkimyksenä on noudattaa Euroopan komission Horizon 2020 -ohjelman Open Research Data -linjauksia, joissa painottuu FAIR-periaate. Sen mukaisesti Horizon 2020 -rahoituksen saajien tulee saattaa tutkimusaineistonsa löydettäväksi (findable), saavutettavaksi (accessible), yhteentoimivaksi (interoperable) ja uudelleen käytettäväksi (reusable). Ohjelman tavoite onkin, että tutkijat avaisivat tutkimusaineistonsa vuodesta 2017 eteenpäin oletusarvoisesti.

Aineistonhallinnan edessä ei siis tarvitse nosta käsiään pystyyn saati väännellä niitä epätoivoissaan. Pelkästään netistä löytyvän tarjonnan avulla on mahdollista saada kattava ohjeistus onnistuneeseen aineistonhallintaan. Ja toki Tietoarkiston asiakaspalvelu on aina valmiina auttamaan aineistonhallintaan liittyvissä kysymyksissä.

Linkkejä ja lisätietoa:
» Aineistonhallinnan käsikirja
» Edina: MANTRA
» RDNL: Essentials 4 Data Support
» Coursera MOOC: Research Data Management and Sharing
» DCC (2013): Checklist for a Data Management Plan (pdf)
» Horizon 2020:n Open Research Data (pdf)

Katja Fält
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi