Tag Archives: kvalitatiivinen

Näin anonymisoit kvalitatiivisen tutkimusaineistosi

Kvalitatiivisissa tutkimusaineistoissa, esimerkiksi haastattelu- ja kirjoitusaineistoissa, tutkittavat kertovat usein itsestään ja läheisistään avoimesti yksityiskohtaisia tietoja. Lain mukaan henkilötiedot eivät saa vuotaa ulkopuolisille, joten aineistot täytyy anonymisoida huolellisesti ennen kuin ne voi arkistoida jatkokäyttöä varten.

Lähes kaikki suomalaiset yliopistot ja monet tutkimusrahoittajat suosittelevat tai vaativat, että tutkijat avaavat aineistonsa, joten anonymisointiosaaminen alkaa kuulua kvalitatiivisia aineistoja keräävän tutkijan perustaitoihin.

Tietoarkisto ja Avoin tiede ja tutkimus -hanke järjestivät 5. huhtikuuta Tutkimusaineistojen anonymisointi -seminaarin jossa käsiteltiin sekä kvantitatiivisten että kvalitatiivisten aineistojen anonymisointikeinoja.

Seminaarin esityksiin voi tutustua tapahtuman sivulla julkaistujen diojen ja esitysvideoiden avulla. Täsmällisempiä anonymisointivinkkejä kaipaavan kannattaa tutustua myös Aineistonhallinnan käsikirjaan.

Tässä blogikirjoituksessa käyn Tietoarkiston tieteenala-asiantuntijan Katja Fältin ja Tietoarkiston tutkimusapulaisen Emilia Lehdon seminaariesitysten perusteella läpi kvalitatiivisen aineiston tavallisimpia anonymisointikäytäntöjä.

Kaikki elävään ihmiseen liittyvät tiedot voivat olla henkilötietoja

Aivan ensimmäiseksi on olennaista ymmärtää, milloin aineisto vaatii anonymisoimista, eli mitkä kaikki tiedot aineistossa ovat lain mukaan henkilötietoja.

Henkilötietolaissa määritelmä on varsin laaja: henkilötietoja ovat kaikki elävää ihmistä, hänen ominaisuuksiaan tai elinolosuhteitaan kuvaavat merkinnät, joista henkilö, hänen perheensä tai hänen kanssaan yhteisessä taloudessa elävät ihmiset voidaan tunnistaa. Toisin sanoen lähes kaikki elävään ihmiseen liittyvät tiedot voivat olla henkilötietoja.

Käytännössä tiedot lasketaan henkilötiedoiksi kuitenkin vain silloin, kun niiden perusteella voidaan tunnistaa aineistosta yksittäinen henkilö. Tunnistamisen mahdollistavat tiedot, eli tunnisteet on jaettu suoriin ja epäsuoriin tunnisteisiin. Epäsuorat tunnisteet on lisäksi jaoteltu vahvoihin epäsuoriin tunnisteisiin ja epäsuoriin tunnisteisiin.

Suorat tunnisteet riittävät yksin tutkittavan tunnistamiseen, eli niiden lisäksi ei tarvita mitään muita tietoja. Suoria tunnisteita ovat esimerkiksi koko nimi, henkilönimen mukainen sähköpostiosoite ja biometriset tunnisteet kuten sormenjälki tai ääni.

Vahvat epäsuorat tunnisteet ovat tietoja, jotka eivät suoraan kerro kuka henkilö on, mutta henkilöllisyyden selvittäminen niiden perusteella on hyvin helppoa. Tällaisia ovat esimerkiksi osoite, auton rekisterinumero, harvinainen ammattinimike tai harvinainen sairaus.

Epäsuoriksi tunnisteiksi voidaan laskea monenlaiset henkilöstä kertovat tiedot, kuten sukupuoli, ikä, asuinkunta ja ammattinimike. Epäsuorat tunnisteet eivät yleensä yksin riitä tutkittavan tunnistamiseen, mutta useammat epäsuorat tunnisteet saattavat yhdessä mahdollistaa tutkittavan tunnistamisen.

Tietoarkiston humanististen tieteiden tieteenala-asiantuntija Katja Fält kertoi seminaarissa kvalitatiivisten aineistojen anonymisoimisesta teoreettisella tasolla. (Kuva: Kaisa Järvelä).

Poista aineistosta kaikki tarpeettomat tunnisteet

Aineisto on anonyymi silloin, kun yksittäisiä henkilöitä ei voida tunnistaa siitä kohtuullisesti toteutettavissa olevilla toimenpiteillä. Haastateltavien omien tietojen lisäksi on tärkeää muistaa poistaa aineistosta myös kolmansia henkilöitä koskevat tunnisteet. Laadullisissa aineistoissa näitä voi olla paljonkin, jos esimerkiksi tutkittava mainitsee haastattelussa perheenjäseniään, naapureitaan tai työkavereitaan.

Yleisenä ohjeena anonymisoinnissa voi pitää sitä, että aineistosta täytyy poistaa kaikki tarpeettomat tunnisteet. Tunnisteellisten tietojen käsitteleminen ja aineiston anonymisoiminen täytyy kuitenkin suunnitella aina aineistokohtaisesti. Jokainen tutkimusaineisto on yksilöllinen, ja joissain aineistoissa tunnistetietoja on esimerkiksi selvästi enemmän kuin toisissa.

Ennen anonymisoinnin aloittamista aineistolle onkin hyvä laatia konkreettinen anonymisointisuunnitelma. Suunnitelmaan kannattaa kirjata ainakin, mitä anonymisointitoimenpiteitä aineistolle aikoo tehdä. Lisäksi suunnitelmassa kannattaa kuvailla esimerkiksi se, miten tutkittavia on informoitu ja millä tavalla aineistoa on mahdollisesti aiemmin muokattu.

Anonymisoinnin yleinen periaate on, että suorat tunnisteet ja vahvat epäsuorat tunnisteet poistetaan aineistoista aina kokonaan. Tämän lisäksi myös epäsuorat tunnisteet vaativat yleensä vähintään jonkin verran käsittelemistä.

Joissain poikkeustapauksissa voi kuitenkin olla mahdollista jättää arkistoitavaan aineistoon jopa haastateltavan koko nimi. Näin on esimerkiksi silloin, jos haastateltava on ammattipoliitikko, haastattelu koskee politiikkaa ja haastateltava on antanut luvan nimensä julkaisemiseen.

Epäsuorien tunnisteiden kohdalla on tärkeää ottaa huomioon aina myös se, mitä tietoja tutkittavasta voi saada aineiston ulkopuolelta, esimerkiksi sosiaalisesta mediasta tai muualta internetistä.

Yksinkertaisimmillaan anonymisointi on tietojen poistamista

Tyypillisimmät laadullisen aineiston anonymisointikeinot ovat tietojen poistaminen, pseudonymisointi, kategorisointi ja tunnistetietojen vaihtaminen. Tavallisesti yksittäisen aineiston anonymisointiin joudutaan käyttämään useaa mainituista keinoista.

Yksinkertaisimmillaan tietojen poistaminen tarkoittaa suorien ja vahvojen epäsuorien tunnisteiden poistamista sekä taustamuuttujista että haastattelulitteraatioista tai esimerkiksi kilpakirjoitusteksteistä.

Haastatteluista on mahdollista poistaa yksittäisten tunnisteiden lisäksi myös pidempiä pätkiä, jos haastateltava harhautuu kertomaan itsestään yksilöiviä arkaluonteisia tietoja. Tämä on perusteltua etenkin silloin, kun tiedot eivät ole tutkimuksen varsinaisena kohteena.

Poistettavia, eli kokonaan hävitettäviä tietoja ovat myös kaikki aineistoon liittyvät, tunnisteita sisältävät taustamateriaalit. Tiedostoista on syytä tarkistaa, onko niissä piilotettuja teknisiä tietoja, esimerkiksi kuvatiedostojen tekijä- tai paikkatietoja.

Voisiko tiedon pseudonymisoida, karkeistaa tai vaihtaa?

Haastatteluissa ja kirjoitusaineistoissa henkilönimien pseudonymisointi on usein aineiston ymmärrettävyyden kannalta parempi vaihtoehto kuin se, että nimet poistettaisiin kokonaan.

Pseudonymisointi tarkoittaa sitä, että henkilönimet vaihdetaan peitenimiksi eli pseudonyymeiksi. Haastateltavana olleesta Matista voi siis tehdä esimerkiksi Pekan ja hänen Anna-vaimostaan Liisan. Pseudonymisointi täytyy suunnitella johdonmukaisesti niin, että sama henkilö esiintyy aineistossa alusta loppuun asti samalla peitenimellä.

Kategorisointia eli tietojen karkeistamista tehdään paljon esimerkiksi aineiston taustatiedoille. Taustatietojen kohdalla kategorisoiminen on yleensä parempi vaihtoehto kuin tietojen poistaminen, sillä aineiston tulkitseminen ja ymmärtäminen ilman taustatietoja olisi vaikeaa.

Haastatteluista tai kirjoitusaineistoista voidaan joissain tapauksissa karkeistaa myös esimerkiksi henkilönimiä. Tämä on järkevää silloin, kun henkilö esiintyy aineistossa korkeintaan pari kertaa eikä ole keskeinen aineiston sisällön kannalta. Esimerkiksi sivulauseessa mainitun Marjatta-naapurin voi hyvin muuttaa pelkäksi naapuriksi.

Useimmiten kategorisointia vaativat myös kaikki kirjoituksissa tai haastatteluissa esiintyvät yksilöivät ammattinimikkeet, toimipaikat, oppilaitokset ja paikkakunnat. Näiden luokittelemisessa kannattaa käyttää apuna Tilastokeskuksen valmiita luokituksia.

Joissain tapauksissa paras vaihtoehto on vaihtaa tekstissä esiintyvä yksilöivä tunnistetieto toiseksi. Aineiston ymmärtämisen kannalta voi esimerkiksi olla olennaista kertoa, että henkilö on syntynyt jouluaattona. Jotta tarkka syntymäaika ei paljastuisi, henkilön syntymävuotta on tällaisessa tapauksessa mahdollista muuttaa pari vuotta myöhemmäksi tai aikaisemmaksi.

Käytännössä anonymisointi voi sujua vaikka näin

Emilia Lehto konkretisoi laadullisen aineiston anonymisoimista seminaarissa kahden aineistoesimerkin avulla. Toinen esimerkkiaineistoista oli Tietoarkistoon tallennettu Erityislapsiperheiden tukiverkostot -kysely.

Tietoarkiston tutkimusapulainen, laadullisia aineistoja työkseen anonymisoiva, Emilia Lehto, kertoi anonymisoimisesta konkreettisten aineistoesimerkkien kautta. (Kuva: Kaisa Järvelä).

Aineistossa vastaajilta oli kysytty taustatiedoiksi heidän rooliansa (esim. äiti), ikäänsä, ammattiansa, siviilisäätyänsä, perheen lasten lukumäärää ja lasten ikiä sekä sitä, kuka lapsista on erityislapsi (esimerkiksi poika, 1. lapsi). Taustatiedoista kategorisoitiin vastaajan ikä ja ammatti. Jos siis haastateltavana olevan äidin ammatti oli esimerkiksi kätilö, ammatti karkeistettiin Tilastokeskuksen luokituksen mukaan [terveydenhuollon ammattilaiseksi]. Ikä luokiteltiin viiden vuoden tarkkuudella.

Tutkittavat käyttivät haastatteluissa paljon erityislastensa ja näiden sisarusten nimiä. Nämä korvattiin aineistossa pseudonyymeillä. Paikkakuntien nimet kategorisoitiin niin, että esimerkiksi Nokia muuttui [kaupunkimaiseksi kunnaksi Pirkanmaalla]. Yksityisen päiväkodin nimi poistettiin aineistosta kokonaan ja siihen viitattiin vain termillä päiväkoti. Jos esimerkiksi päiväkoteja esiintyi samassa haastattelussa useampia, ne erotettiin toisistaan kirjaimin, esimerkiksi näin: [päiväkoti A nimi poistettu].

Epäsuorien tunnisteiden kohdalla huomioitiin myös se, voiko tutkittavan henkilöllisyys paljastua, jos tunnisteen yhdistää muualta saatavilla oleviin tietoihin. Eräs äiti esimerkiksi puhui haastattelussa perheensä matkasta Kroatiaan. Tarkka matkakohde karkeistettiin lomamatkaksi [Eurooppaan], koska äiti oli saattanut julkaista tiedon perheen Kroatian-matkasta sosiaalisessa mediassa. Lehto vinkkasi, että jos hän itse ei ole varma, voiko jokin tunniste johdattaa muualta saatavaan tietoon yhdistettynä henkilön jäljille vai ei, hän tekee kokeeksi muutaman yksinkertaisen google-haun.

Kvalitatiiviset aineistot ovat usein huomattavasti työläämpiä anonymisoitavia kuin kvantitatiiviset aineistot. Tietoarkistossa kuitenkin toivomme, että myös kvalitatiiviset aineistot toimitetaan arkistoitavaksi mahdollisimman pitkälle anonymisoituina.

Lopullisen vastuun aineiston anonymiteetista otamme silti me. Tarkistamme kaikki aineistot ja käsittelemme niitä vielä niin, että ne ovat Ailaan päätyessään varmasti täysin anonyymeja.

Lisätietoja
» Seminaarin sivulta löydät esitysdiat ja myöhemmin myös videot
» Aineistonhallinnan käsikirja: Tunnisteellisuus ja anonymisointi

Vastaavan tekstin kvantitatiivisten aineistojen anonymisoinnista voi lukea myös Tietoarkistoblogista.

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Näin anonymisoit kvalitatiivisen tutkimusaineistosi

Kvalitatiivisissa tutkimusaineistoissa, esimerkiksi haastattelu- ja kirjoitusaineistoissa, tutkittavat kertovat usein itsestään ja läheisistään avoimesti yksityiskohtaisia tietoja. Lain mukaan henkilötiedot eivät saa vuotaa ulkopuolisille, joten aineistot täytyy anonymisoida huolellisesti ennen kuin ne voi arkistoida jatkokäyttöä varten.

Lähes kaikki suomalaiset yliopistot ja monet tutkimusrahoittajat suosittelevat tai vaativat, että tutkijat avaavat aineistonsa, joten anonymisointiosaaminen alkaa kuulua kvalitatiivisia aineistoja keräävän tutkijan perustaitoihin.

Tietoarkisto ja Avoin tiede ja tutkimus -hanke järjestivät 5. huhtikuuta Tutkimusaineistojen anonymisointi -seminaarin jossa käsiteltiin sekä kvantitatiivisten että kvalitatiivisten aineistojen anonymisointikeinoja.

Seminaarin esityksiin voi tutustua tapahtuman sivulla julkaistujen diojen ja esitysvideoiden avulla. Täsmällisempiä anonymisointivinkkejä kaipaavan kannattaa tutustua myös Aineistonhallinnan käsikirjaan.

Tässä blogikirjoituksessa käyn Tietoarkiston tieteenala-asiantuntijan Katja Fältin ja Tietoarkiston tutkimusapulaisen Emilia Lehdon seminaariesitysten perusteella läpi kvalitatiivisen aineiston tavallisimpia anonymisointikäytäntöjä.

Kaikki elävään ihmiseen liittyvät tiedot voivat olla henkilötietoja

Aivan ensimmäiseksi on olennaista ymmärtää, milloin aineisto vaatii anonymisoimista, eli mitkä kaikki tiedot aineistossa ovat lain mukaan henkilötietoja.

Henkilötietolaissa määritelmä on varsin laaja: henkilötietoja ovat kaikki elävää ihmistä, hänen ominaisuuksiaan tai elinolosuhteitaan kuvaavat merkinnät, joista henkilö, hänen perheensä tai hänen kanssaan yhteisessä taloudessa elävät ihmiset voidaan tunnistaa. Toisin sanoen lähes kaikki elävään ihmiseen liittyvät tiedot voivat olla henkilötietoja.

Käytännössä tiedot lasketaan henkilötiedoiksi kuitenkin vain silloin, kun niiden perusteella voidaan tunnistaa aineistosta yksittäinen henkilö. Tunnistamisen mahdollistavat tiedot, eli tunnisteet on jaettu suoriin ja epäsuoriin tunnisteisiin. Epäsuorat tunnisteet on lisäksi jaoteltu vahvoihin epäsuoriin tunnisteisiin ja epäsuoriin tunnisteisiin.

Suorat tunnisteet riittävät yksin tutkittavan tunnistamiseen, eli niiden lisäksi ei tarvita mitään muita tietoja. Suoria tunnisteita ovat esimerkiksi koko nimi, henkilönimen mukainen sähköpostiosoite ja biometriset tunnisteet kuten sormenjälki tai ääni.

Vahvat epäsuorat tunnisteet ovat tietoja, jotka eivät suoraan kerro kuka henkilö on, mutta henkilöllisyyden selvittäminen niiden perusteella on hyvin helppoa. Tällaisia ovat esimerkiksi osoite, auton rekisterinumero, harvinainen ammattinimike tai harvinainen sairaus.

Epäsuoriksi tunnisteiksi voidaan laskea monenlaiset henkilöstä kertovat tiedot, kuten sukupuoli, ikä, asuinkunta ja ammattinimike. Epäsuorat tunnisteet eivät yleensä yksin riitä tutkittavan tunnistamiseen, mutta useammat epäsuorat tunnisteet saattavat yhdessä mahdollistaa tutkittavan tunnistamisen.

Tietoarkiston humanististen tieteiden tieteenala-asiantuntija Katja Fält kertoi seminaarissa kvalitatiivisten aineistojen anonymisoimisesta teoreettisella tasolla. (Kuva: Kaisa Järvelä).

Poista aineistosta kaikki tarpeettomat tunnisteet

Aineisto on anonyymi silloin, kun yksittäisiä henkilöitä ei voida tunnistaa siitä kohtuullisesti toteutettavissa olevilla toimenpiteillä. Haastateltavien omien tietojen lisäksi on tärkeää muistaa poistaa aineistosta myös kolmansia henkilöitä koskevat tunnisteet. Laadullisissa aineistoissa näitä voi olla paljonkin, jos esimerkiksi tutkittava mainitsee haastattelussa perheenjäseniään, naapureitaan tai työkavereitaan.

Yleisenä ohjeena anonymisoinnissa voi pitää sitä, että aineistosta täytyy poistaa kaikki tarpeettomat tunnisteet. Tunnisteellisten tietojen käsitteleminen ja aineiston anonymisoiminen täytyy kuitenkin suunnitella aina aineistokohtaisesti. Jokainen tutkimusaineisto on yksilöllinen, ja joissain aineistoissa tunnistetietoja on esimerkiksi selvästi enemmän kuin toisissa.

Ennen anonymisoinnin aloittamista aineistolle onkin hyvä laatia konkreettinen anonymisointisuunnitelma. Suunnitelmaan kannattaa kirjata ainakin, mitä anonymisointitoimenpiteitä aineistolle aikoo tehdä. Lisäksi suunnitelmassa kannattaa kuvailla esimerkiksi se, miten tutkittavia on informoitu ja millä tavalla aineistoa on mahdollisesti aiemmin muokattu.

Anonymisoinnin yleinen periaate on, että suorat tunnisteet ja vahvat epäsuorat tunnisteet poistetaan aineistoista aina kokonaan. Tämän lisäksi myös epäsuorat tunnisteet vaativat yleensä vähintään jonkin verran käsittelemistä.

Joissain poikkeustapauksissa voi kuitenkin olla mahdollista jättää arkistoitavaan aineistoon jopa haastateltavan koko nimi. Näin on esimerkiksi silloin, jos haastateltava on ammattipoliitikko, haastattelu koskee politiikkaa ja haastateltava on antanut luvan nimensä julkaisemiseen.

Epäsuorien tunnisteiden kohdalla on tärkeää ottaa huomioon aina myös se, mitä tietoja tutkittavasta voi saada aineiston ulkopuolelta, esimerkiksi sosiaalisesta mediasta tai muualta internetistä.

Yksinkertaisimmillaan anonymisointi on tietojen poistamista

Tyypillisimmät laadullisen aineiston anonymisointikeinot ovat tietojen poistaminen, pseudonymisointi, kategorisointi ja tunnistetietojen vaihtaminen. Tavallisesti yksittäisen aineiston anonymisointiin joudutaan käyttämään useaa mainituista keinoista.

Yksinkertaisimmillaan tietojen poistaminen tarkoittaa suorien ja vahvojen epäsuorien tunnisteiden poistamista sekä taustamuuttujista että haastattelulitteraatioista tai esimerkiksi kilpakirjoitusteksteistä.

Haastatteluista on mahdollista poistaa yksittäisten tunnisteiden lisäksi myös pidempiä pätkiä, jos haastateltava harhautuu kertomaan itsestään yksilöiviä arkaluonteisia tietoja. Tämä on perusteltua etenkin silloin, kun tiedot eivät ole tutkimuksen varsinaisena kohteena.

Poistettavia, eli kokonaan hävitettäviä tietoja ovat myös kaikki aineistoon liittyvät, tunnisteita sisältävät taustamateriaalit. Tiedostoista on syytä tarkistaa, onko niissä piilotettuja teknisiä tietoja, esimerkiksi kuvatiedostojen tekijä- tai paikkatietoja.

Voisiko tiedon pseudonymisoida, karkeistaa tai vaihtaa?

Haastatteluissa ja kirjoitusaineistoissa henkilönimien pseudonymisointi on usein aineiston ymmärrettävyyden kannalta parempi vaihtoehto kuin se, että nimet poistettaisiin kokonaan.

Pseudonymisointi tarkoittaa sitä, että henkilönimet vaihdetaan peitenimiksi eli pseudonyymeiksi. Haastateltavana olleesta Matista voi siis tehdä esimerkiksi Pekan ja hänen Anna-vaimostaan Liisan. Pseudonymisointi täytyy suunnitella johdonmukaisesti niin, että sama henkilö esiintyy aineistossa alusta loppuun asti samalla peitenimellä.

Kategorisointia eli tietojen karkeistamista tehdään paljon esimerkiksi aineiston taustatiedoille. Taustatietojen kohdalla kategorisoiminen on yleensä parempi vaihtoehto kuin tietojen poistaminen, sillä aineiston tulkitseminen ja ymmärtäminen ilman taustatietoja olisi vaikeaa.

Haastatteluista tai kirjoitusaineistoista voidaan joissain tapauksissa karkeistaa myös esimerkiksi henkilönimiä. Tämä on järkevää silloin, kun henkilö esiintyy aineistossa korkeintaan pari kertaa eikä ole keskeinen aineiston sisällön kannalta. Esimerkiksi sivulauseessa mainitun Marjatta-naapurin voi hyvin muuttaa pelkäksi naapuriksi.

Useimmiten kategorisointia vaativat myös kaikki kirjoituksissa tai haastatteluissa esiintyvät yksilöivät ammattinimikkeet, toimipaikat, oppilaitokset ja paikkakunnat. Näiden luokittelemisessa kannattaa käyttää apuna Tilastokeskuksen valmiita luokituksia.

Joissain tapauksissa paras vaihtoehto on vaihtaa tekstissä esiintyvä yksilöivä tunnistetieto toiseksi. Aineiston ymmärtämisen kannalta voi esimerkiksi olla olennaista kertoa, että henkilö on syntynyt jouluaattona. Jotta tarkka syntymäaika ei paljastuisi, henkilön syntymävuotta on tällaisessa tapauksessa mahdollista muuttaa pari vuotta myöhemmäksi tai aikaisemmaksi.

Käytännössä anonymisointi voi sujua vaikka näin

Emilia Lehto konkretisoi laadullisen aineiston anonymisoimista seminaarissa kahden aineistoesimerkin avulla. Toinen esimerkkiaineistoista oli Tietoarkistoon tallennettu Erityislapsiperheiden tukiverkostot -kysely.

Tietoarkiston tutkimusapulainen, laadullisia aineistoja työkseen anonymisoiva, Emilia Lehto, kertoi anonymisoimisesta konkreettisten aineistoesimerkkien kautta. (Kuva: Kaisa Järvelä).

Aineistossa vastaajilta oli kysytty taustatiedoiksi heidän rooliansa (esim. äiti), ikäänsä, ammattiansa, siviilisäätyänsä, perheen lasten lukumäärää ja lasten ikiä sekä sitä, kuka lapsista on erityislapsi (esimerkiksi poika, 1. lapsi). Taustatiedoista kategorisoitiin vastaajan ikä ja ammatti. Jos siis haastateltavana olevan äidin ammatti oli esimerkiksi kätilö, ammatti karkeistettiin Tilastokeskuksen luokituksen mukaan [terveydenhuollon ammattilaiseksi]. Ikä luokiteltiin viiden vuoden tarkkuudella.

Tutkittavat käyttivät haastatteluissa paljon erityislastensa ja näiden sisarusten nimiä. Nämä korvattiin aineistossa pseudonyymeillä. Paikkakuntien nimet kategorisoitiin niin, että esimerkiksi Nokia muuttui [kaupunkimaiseksi kunnaksi Pirkanmaalla]. Yksityisen päiväkodin nimi poistettiin aineistosta kokonaan ja siihen viitattiin vain termillä päiväkoti. Jos esimerkiksi päiväkoteja esiintyi samassa haastattelussa useampia, ne erotettiin toisistaan kirjaimin, esimerkiksi näin: [päiväkoti A nimi poistettu].

Epäsuorien tunnisteiden kohdalla huomioitiin myös se, voiko tutkittavan henkilöllisyys paljastua, jos tunnisteen yhdistää muualta saatavilla oleviin tietoihin. Eräs äiti esimerkiksi puhui haastattelussa perheensä matkasta Kroatiaan. Tarkka matkakohde karkeistettiin lomamatkaksi [Eurooppaan], koska äiti oli saattanut julkaista tiedon perheen Kroatian-matkasta sosiaalisessa mediassa. Lehto vinkkasi, että jos hän itse ei ole varma, voiko jokin tunniste johdattaa muualta saatavaan tietoon yhdistettynä henkilön jäljille vai ei, hän tekee kokeeksi muutaman yksinkertaisen google-haun.

Kvalitatiiviset aineistot ovat usein huomattavasti työläämpiä anonymisoitavia kuin kvantitatiiviset aineistot. Tietoarkistossa kuitenkin toivomme, että myös kvalitatiiviset aineistot toimitetaan arkistoitavaksi mahdollisimman pitkälle anonymisoituina.

Lopullisen vastuun aineiston anonymiteetista otamme silti me. Tarkistamme kaikki aineistot ja käsittelemme niitä vielä niin, että ne ovat Ailaan päätyessään varmasti täysin anonyymeja.

Lisätietoja
» Seminaarin sivulta löydät esitysdiat ja myöhemmin myös videot
» Aineistonhallinnan käsikirja: Tunnisteellisuus ja anonymisointi

Vastaavan tekstin kvantitatiivisten aineistojen anonymisoinnista voi lukea myös Tietoarkistoblogista.

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Data Service Portal Aila: accessibility and practicality for non-Finnish speakers

The Finnish Social Science Data Archive (FSD) is one of the most important national resources for the collection and storing of social research data. Among the many services they offer, they aim to make research data available to everyone, free of char…

Data Service Portal Aila: accessibility and practicality for non-Finnish speakers

The Finnish Social Science Data Archive (FSD) is one of the most important national resources for the collection and storing of social research data. Among the many services they offer, they aim to make research data available to everyone, free of char…

Miten aineistot arkistoituvat Tietoarkistoon?

Kun tutkija tai tutkijaryhmä on lähettänyt tutkimusaineistonsa Tietoarkistoon arkistoitavaksi, varsinainen aineiston käsittelyprosessi vasta alkaa. Arkistoitavaksi toimitettu aineisto kulkee aina aineistonkäsittelijän sormien läpi ennen kuin se julkaistaan palveluportaali Ailassa jatkokäyttöä varten.

Erilaiset tietokoneohjelmat helpottavat, nopeuttavat ja virtaviivaistavat aineiston käsittelyä, mutta loppujen lopuksi aineiston käsittelyyn liittyvän työn tekevät ihmiset eivätkä koneet. Näin pystymme varmistamaan, että mitä moninaisimmat aineistot ovat tulevaisuudessakin tutkimusmaailman käytettävissä yhdenmukaiseksi suunniteltujen ohjeidemme mukaisesti.

Aineistonkäsittelijäntyö on Tietoarkiston ydintyötä, jota ilman Ailassa ei olisi jatkokäyttökelpoisia aineistoja. Tietoarkiston pitkäaikaiset tutkimusapulaiset Eliisa Haanpää (kvantitatiivisten aineistojen käsittely) ja Annika Sallinen (kvalitatiivisten aineistojen käsittely) kertovat, minkälaista aineistonkäsittelijän työ on, ja minkälaisen prosessin aineistot käyvät läpi ennen kuin ne ilmestyvät Ailaan.

Kyselytutkimukset arkistoituvat muuttuja muuttujalta

Eliisa

Aloitan kvantitatiivisen aineiston käsittelyn aina tutustumalla aineistoon, siihen sisältyviin muuttujiin sekä aineistoon liittyvään tutkimusraporttiin ja lisämateriaaliin. Avattuani datatiedoston, tarkastan ensimmäisenä kaikki muuttujat ja varmistan, että käsiteltävä data vastaa kyselylomaketta. Nimeän muuttujat kyselylomakkeen mukaisesti, mihin perustuen määrittelen myös muuttujien selitteet.

Tämän jälkeen arvioin aineiston tunnisteellisuutta ja arkaluontoisuutta, jonka jälkeen teen tarvittavat toimet vastaajien anonymiteetin säilyttämiseksi. Tässä vaiheessa apunani ovat usein Tilastokeskuksen erilaiset alue-, toimiala- ja tieteenalaluokitukset. Lopuksi vielä varsinaista dataa käsitellessäni tarkistan muuttujien frekvenssit suhteessa tutkimusraporttiin.

Käsittelen dataa SPSS:n syntaksin avulla. Numeroista ja loogisesta päättelystä pitävänä ihmisenä syntaksin työstäminen on mielestäni palkitsevaa puuhaa. Syntaksin tekemiseen sisältyy monia yksin ja yhdessä kollegojen kanssa pohdittavia haasteita, useita onnistumisen kokemuksia, kun komennot toimivat toivomallani tavalla ja tietysti työni kannalta tärkein tuotos, jatkokäyttöön valmistuva datatiedosto.

Varsinaisen datan valmistuttua siirryn aineiston kuvailuun, johon kuuluu muuttujien kuvailu sekä aineiston sisällöllinen kuvailu. Tietopankkina sisällöllistä kuvailua tehdessäni käytän tutkimusraporttia ja sieltä löytyviä aineistonkeruuseen liittyviä tietoja. Aineiston (eli datan sekä aineiston kuvailun) käsittelyn valmistuttua kirjaan tietokantaamme ”data valmis”-komennon, jonka jälkeen aineisto julkaistaan palveluportaali Ailassa.

Aineistoja käsitellessäni olen oppinut paljon paitsi tilastollisista menetelmistä ja kyselytutkimuksista, myös eri tieteenalojen tutkimusteemoista. Olen tähän mennessä käsitellyt aineistoja liittyen muun muassa lasten ja nuorten mediakäyttäytymiseen, lasten uhrikokemuksiin, suomalaisten hyvinvointiin, eduskuntavaaleihin, asumiseen ja kaupunkikuvaan, opiskeluun sekä vapaaehtoistoimintaan.

Aineiston käsittelyn eri vaiheissa olen yhteydessä yhteen tai useampaan tutkijaan, mikäli tarvitsen aineistosta lisätietoja. Yhteistyö sekä tutkijoiden suuntaan että kollegoiden kanssa on erittäin merkittävässä osassa työskentelyssäni aineistojen parissa.

Kvalitatiivisessa aineistossa tallentuu aina pala aikaa

Annika

Kvalitatiivisten aineistojen arkistointi poikkeaa kvantitatiivisten aineistojen arkistoinnista sikäli, ettei siinä tarvitse pohtia syntaksin komentoja, mutta lukulihaksia työ vaatii senkin edestä. Luemme tänne toimitetuista haastatteluista ja kirjoituksista jokaisen sivun. Tämä täytyy tehdä huolellisesti, että ihmisten tunnistetietoja ei jää luovutettavaan aineistoon. Tekstimassaa saattaa olla yhdessä aineistossa jopa lähes tuhat sivua.

Kvalitatiivisten aineistojen tarkastaminen on siis välillä uppoutumista lukemiseen, mutta työ sisältää myös järjestelmällistä tiedon poimimista sekä järjestelyä ja tietokoneohjelmien kanssa kikkailua – mikä on aina oma taiteenlajinsa.

Dokumentit nimetään järjestelmällisesti. Aineistojen taustatiedot järjestetään yhdenmukaisiksi ja niistä tehdään taustatietohakemisto jatkokäyttäjälle. Työssä käytetään lukuisia ohjelmia, joista tekninen palvelu keskustelee mm. termeillä DDI, HTML ja Python – minä keskityn opettelemaan konkreettisen käytön.

Koko arkistointiprosessin ajan teen muistiinpanoja eteen tulleista ongelmakohdista, niiden ratkaisuista ja vielä tehtävistä vaiheista. Listalla voi olla selvitettävänä, mitä tutkijan kryptinen merkintä muistiinpanoissa tarkoittaa, mihin teollisuusalaan karkeistetaan Suomussalmen Hallan lihajalostamo, sisältävätkö dokumentit piilodataa ja saisiko 400 erillisen tiedoston nimet muutettua automaattisesti toiseen muotoon, jotta kaikkea ei tarvitsisi tehdä käsin.

Kaikkeen löytyy yleensä vastaus, joko kollegoilta, tutkijoilta tai yhdeltä tärkeältä työkaverilta – internetistä. Netti on ollut oiva apu esimerkiksi tilanteessa, jossa oman pään kapasiteetti keksiä suomalaista naisten nimiä on tullut tiensä päätökseen.

Minun mielestäni kvalitatiivisten aineistojen arkistointi on erittäin mielenkiintoista, sillä tutkimusaineistoon perehtyminen on aina oma matkansa jonkin tieteenalan ja alueen tutkimuksen pariin. Aineistoja läpi kahlatessa oppii uusia käsitteitä ja ymmärtää taas elämää eri näkökulmista ehkä hitusen paremmin. Tutkittavat kertovat tutkijalle elämästään asioita, joita eivät muille välttämättä kerro. Työ sisältää myös varjopuolia. Koska kaikki työvaiheet vaativat tarkkuutta ja keskittymistä, silmien ja lukuhermojen ajoittaiselta väsymisiltä ei voi välttyä.

Arkistoinnin loppusuoralla kirjoitetaan vielä nettisivuille tuleva kuvaus aineistosta ja hiotaan aineiston yksityiskohtia. Esimerkiksi taustatietoihin tulee helposti virheitä. Minun tulee myös tarkastaa, että aineistoon on liitetty mukaan tutkimuskutsut, haastattelukysymykset ja muut tarvittavat dokumentit. Lisäksi haastattelukysymykset tulee tallentaa Aila-hakuun. Julkaisun jälkeen menen vielä nettisivuille katsomaan, että aineisto näyttää siellä siltä, miltä sen pitääkin!

Lisätietoa:
» Palveluportaali Aila

Annika Sallinen, tutkimusapulainen, etunimi.sukunimi [at] uta.fi
Eliisa Haanpää, tutkimusapulainen, etunimi.sukunimi [at] uta.fi

Miten aineistot arkistoituvat Tietoarkistoon?

Kun tutkija tai tutkijaryhmä on lähettänyt tutkimusaineistonsa Tietoarkistoon arkistoitavaksi, varsinainen aineiston käsittelyprosessi vasta alkaa. Arkistoitavaksi toimitettu aineisto kulkee aina aineistonkäsittelijän sormien läpi ennen kuin se julkaistaan palveluportaali Ailassa jatkokäyttöä varten.

Erilaiset tietokoneohjelmat helpottavat, nopeuttavat ja virtaviivaistavat aineiston käsittelyä, mutta loppujen lopuksi aineiston käsittelyyn liittyvän työn tekevät ihmiset eivätkä koneet. Näin pystymme varmistamaan, että mitä moninaisimmat aineistot ovat tulevaisuudessakin tutkimusmaailman käytettävissä yhdenmukaiseksi suunniteltujen ohjeidemme mukaisesti.

Aineistonkäsittelijäntyö on Tietoarkiston ydintyötä, jota ilman Ailassa ei olisi jatkokäyttökelpoisia aineistoja. Tietoarkiston pitkäaikaiset tutkimusapulaiset Eliisa Haanpää (kvantitatiivisten aineistojen käsittely) ja Annika Sallinen (kvalitatiivisten aineistojen käsittely) kertovat, minkälaista aineistonkäsittelijän työ on, ja minkälaisen prosessin aineistot käyvät läpi ennen kuin ne ilmestyvät Ailaan.

Kyselytutkimukset arkistoituvat muuttuja muuttujalta

Eliisa

Aloitan kvantitatiivisen aineiston käsittelyn aina tutustumalla aineistoon, siihen sisältyviin muuttujiin sekä aineistoon liittyvään tutkimusraporttiin ja lisämateriaaliin. Avattuani datatiedoston, tarkastan ensimmäisenä kaikki muuttujat ja varmistan, että käsiteltävä data vastaa kyselylomaketta. Nimeän muuttujat kyselylomakkeen mukaisesti, mihin perustuen määrittelen myös muuttujien selitteet.

Tämän jälkeen arvioin aineiston tunnisteellisuutta ja arkaluontoisuutta, jonka jälkeen teen tarvittavat toimet vastaajien anonymiteetin säilyttämiseksi. Tässä vaiheessa apunani ovat usein Tilastokeskuksen erilaiset alue-, toimiala- ja tieteenalaluokitukset. Lopuksi vielä varsinaista dataa käsitellessäni tarkistan muuttujien frekvenssit suhteessa tutkimusraporttiin.

Käsittelen dataa SPSS:n syntaksin avulla. Numeroista ja loogisesta päättelystä pitävänä ihmisenä syntaksin työstäminen on mielestäni palkitsevaa puuhaa. Syntaksin tekemiseen sisältyy monia yksin ja yhdessä kollegojen kanssa pohdittavia haasteita, useita onnistumisen kokemuksia, kun komennot toimivat toivomallani tavalla ja tietysti työni kannalta tärkein tuotos, jatkokäyttöön valmistuva datatiedosto.

Varsinaisen datan valmistuttua siirryn aineiston kuvailuun, johon kuuluu muuttujien kuvailu sekä aineiston sisällöllinen kuvailu. Tietopankkina sisällöllistä kuvailua tehdessäni käytän tutkimusraporttia ja sieltä löytyviä aineistonkeruuseen liittyviä tietoja. Aineiston (eli datan sekä aineiston kuvailun) käsittelyn valmistuttua kirjaan tietokantaamme ”data valmis”-komennon, jonka jälkeen aineisto julkaistaan palveluportaali Ailassa.

Aineistoja käsitellessäni olen oppinut paljon paitsi tilastollisista menetelmistä ja kyselytutkimuksista, myös eri tieteenalojen tutkimusteemoista. Olen tähän mennessä käsitellyt aineistoja liittyen muun muassa lasten ja nuorten mediakäyttäytymiseen, lasten uhrikokemuksiin, suomalaisten hyvinvointiin, eduskuntavaaleihin, asumiseen ja kaupunkikuvaan, opiskeluun sekä vapaaehtoistoimintaan.

Aineiston käsittelyn eri vaiheissa olen yhteydessä yhteen tai useampaan tutkijaan, mikäli tarvitsen aineistosta lisätietoja. Yhteistyö sekä tutkijoiden suuntaan että kollegoiden kanssa on erittäin merkittävässä osassa työskentelyssäni aineistojen parissa.

Kvalitatiivisessa aineistossa tallentuu aina pala aikaa

Annika

Kvalitatiivisten aineistojen arkistointi poikkeaa kvantitatiivisten aineistojen arkistoinnista sikäli, ettei siinä tarvitse pohtia syntaksin komentoja, mutta lukulihaksia työ vaatii senkin edestä. Luemme tänne toimitetuista haastatteluista ja kirjoituksista jokaisen sivun. Tämä täytyy tehdä huolellisesti, että ihmisten tunnistetietoja ei jää luovutettavaan aineistoon. Tekstimassaa saattaa olla yhdessä aineistossa jopa lähes tuhat sivua.

Kvalitatiivisten aineistojen tarkastaminen on siis välillä uppoutumista lukemiseen, mutta työ sisältää myös järjestelmällistä tiedon poimimista sekä järjestelyä ja tietokoneohjelmien kanssa kikkailua – mikä on aina oma taiteenlajinsa.

Dokumentit nimetään järjestelmällisesti. Aineistojen taustatiedot järjestetään yhdenmukaisiksi ja niistä tehdään taustatietohakemisto jatkokäyttäjälle. Työssä käytetään lukuisia ohjelmia, joista tekninen palvelu keskustelee mm. termeillä DDI, HTML ja Python – minä keskityn opettelemaan konkreettisen käytön.

Koko arkistointiprosessin ajan teen muistiinpanoja eteen tulleista ongelmakohdista, niiden ratkaisuista ja vielä tehtävistä vaiheista. Listalla voi olla selvitettävänä, mitä tutkijan kryptinen merkintä muistiinpanoissa tarkoittaa, mihin teollisuusalaan karkeistetaan Suomussalmen Hallan lihajalostamo, sisältävätkö dokumentit piilodataa ja saisiko 400 erillisen tiedoston nimet muutettua automaattisesti toiseen muotoon, jotta kaikkea ei tarvitsisi tehdä käsin.

Kaikkeen löytyy yleensä vastaus, joko kollegoilta, tutkijoilta tai yhdeltä tärkeältä työkaverilta – internetistä. Netti on ollut oiva apu esimerkiksi tilanteessa, jossa oman pään kapasiteetti keksiä suomalaista naisten nimiä on tullut tiensä päätökseen.

Minun mielestäni kvalitatiivisten aineistojen arkistointi on erittäin mielenkiintoista, sillä tutkimusaineistoon perehtyminen on aina oma matkansa jonkin tieteenalan ja alueen tutkimuksen pariin. Aineistoja läpi kahlatessa oppii uusia käsitteitä ja ymmärtää taas elämää eri näkökulmista ehkä hitusen paremmin. Tutkittavat kertovat tutkijalle elämästään asioita, joita eivät muille välttämättä kerro. Työ sisältää myös varjopuolia. Koska kaikki työvaiheet vaativat tarkkuutta ja keskittymistä, silmien ja lukuhermojen ajoittaiselta väsymisiltä ei voi välttyä.

Arkistoinnin loppusuoralla kirjoitetaan vielä nettisivuille tuleva kuvaus aineistosta ja hiotaan aineiston yksityiskohtia. Esimerkiksi taustatietoihin tulee helposti virheitä. Minun tulee myös tarkastaa, että aineistoon on liitetty mukaan tutkimuskutsut, haastattelukysymykset ja muut tarvittavat dokumentit. Lisäksi haastattelukysymykset tulee tallentaa Aila-hakuun. Julkaisun jälkeen menen vielä nettisivuille katsomaan, että aineisto näyttää siellä siltä, miltä sen pitääkin!

Lisätietoa:
» Palveluportaali Aila

Annika Sallinen, tutkimusapulainen, etunimi.sukunimi [at] uta.fi
Eliisa Haanpää, tutkimusapulainen, etunimi.sukunimi [at] uta.fi

ICPSR:n kesäkurssit arkistoijan opinahjona

Michiganin yliopiston yhteydessä Ann Arborissa toimiva data-arkisto ICPSR (Inter-university Consortium for Political and Social Research) järjestää vuosittain lukuisia erilaisia kesäkursseja, joiden kohderyhmänä ovat tutkijat ja arkistoalan työntekijät ympäri maailmaa. Silloin tällöin myös Yhteiskuntatieteellinen tietoarkisto lähettää työntekijöitänsä Ann Arboriin hankkimaan koulutusta ja uusia ideoita tutkimusaineistojen arkistointiin. Samalla tarjoutuu hyvä mahdollisuus vaihtaa kokemuksia muualta maailmasta tulleiden arkistoalan työntekijöiden kanssa. Tänä vuonna matka-arpa osui omalle kohdalleni.

ICPSR:n kesäkurssien pääpaino on ollut perinteisesti vahvasti kvantitatiivisten tutkimusaineistojen puolella, mutta heinä-elokuun vaihteessa järjestetty viisipäiväinen Curating and Managing Research Data for Re-Use tarjosi kiinnostavia näkökulmia myös kvalitatiivisten aineistojen käsittelyyn ja arkistointiin.

Kurssille osallistui 26 eri tavoin tutkimusaineistojen arkistoinnin parissa työskentelevää henkilöä. Suurin osa osallistujista tuli Yhdysvalloista, mutta joukossa oli kauempaa tulleita arkistotyöntekijöitä myös Kanadasta, Etelä-Afrikasta ja Ruotsista. Kurssin opettajina toimivat Jared Lyle ja Mary Vardigan ICPSR:stä sekä Ron Nakao Stanford Universitystä ja Jake Carlson Purdue Universitystä.

Kunkin päivän ohjelma oli rakennettu oman teeman ympärille. Päivittäisiä teemoja olivat tutkimusaineistojen elinkaari, arkistointipolitiikat, aineiston käsittely, aineistojen tietoturvallinen säilytys sekä jatkokäyttö. Kunkin päivän pääpuhuja oli kyseiseen teemaan erikoistunut asiantuntija. Luentojen lisäksi kurssi sisälsi paljon ryhmätöinä tehtyjä harjoituksia. Virallisen ohjelman ulkopuolella kurssin sisältöön kuului vierailu läheisessä Clarkin kirjastossa, jossa meille esiteltiin esimerkiksi kartta-aineistojen digitointia.

Kurssilla tutustuimme muun muassa erilaisiin teknisiin työkaluihin, jotka auttavat tutkimusaineistojen kuvailujen laatimisessa ja metadatan tallentamisessa. Opimme myös kuinka toimii pitkälle automatisoitu aineistojen talletusjärjestelmä, jossa tutkija voi luovuttaa tutkimusaineistonsa arkistoon suoraan verkossa. Tulevaisuudessa, kun rahoittajat uudistavat data-politiikkaansa ja arkistointivelvoitteet lisääntyvät myös Suomessa, vastaavaan järjestelmään siirtyminen on mitä todennäköisimmin edessä myös Yhteiskuntatieteellisessä tietoarkistossa.

Kokonaisuudessaan osallistuminen ICPSR:n kesäkurssille oli kaikin puolin hieno ja opettavainen kokemus. Opimme paljon ICPSR:n omista arkistointikäytännöistä ja aineistonkäsittelyntavoista. Lisäksi tutustuimme laajalti muihin mahdollisuuksiin käsitellä arkistoitavia tutkimusaineistoja ja saattaa niitä jatkokäyttäjien ulottuville. Uskallankin suositella nyt toista kertaa järjestettyä kurssia kaikille, jotka työskentelevät tutkimusaineistojen arkistoinnin parissa.

Lisätietoja: ICPSR:n kesäkurssien verkkosivusto.

Jarkko Päivärinta
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi

ICPSR:n kesäkurssit arkistoijan opinahjona

Michiganin yliopiston yhteydessä Ann Arborissa toimiva data-arkisto ICPSR (Inter-university Consortium for Political and Social Research) järjestää vuosittain lukuisia erilaisia kesäkursseja, joiden kohderyhmänä ovat tutkijat ja arkistoalan työntekijät ympäri maailmaa. Silloin tällöin myös Yhteiskuntatieteellinen tietoarkisto lähettää työntekijöitänsä Ann Arboriin hankkimaan koulutusta ja uusia ideoita tutkimusaineistojen arkistointiin. Samalla tarjoutuu hyvä mahdollisuus vaihtaa kokemuksia muualta maailmasta tulleiden arkistoalan työntekijöiden kanssa. Tänä vuonna matka-arpa osui omalle kohdalleni.

ICPSR:n kesäkurssien pääpaino on ollut perinteisesti vahvasti kvantitatiivisten tutkimusaineistojen puolella, mutta heinä-elokuun vaihteessa järjestetty viisipäiväinen Curating and Managing Research Data for Re-Use tarjosi kiinnostavia näkökulmia myös kvalitatiivisten aineistojen käsittelyyn ja arkistointiin.

Kurssille osallistui 26 eri tavoin tutkimusaineistojen arkistoinnin parissa työskentelevää henkilöä. Suurin osa osallistujista tuli Yhdysvalloista, mutta joukossa oli kauempaa tulleita arkistotyöntekijöitä myös Kanadasta, Etelä-Afrikasta ja Ruotsista. Kurssin opettajina toimivat Jared Lyle ja Mary Vardigan ICPSR:stä sekä Ron Nakao Stanford Universitystä ja Jake Carlson Purdue Universitystä.

Kunkin päivän ohjelma oli rakennettu oman teeman ympärille. Päivittäisiä teemoja olivat tutkimusaineistojen elinkaari, arkistointipolitiikat, aineiston käsittely, aineistojen tietoturvallinen säilytys sekä jatkokäyttö. Kunkin päivän pääpuhuja oli kyseiseen teemaan erikoistunut asiantuntija. Luentojen lisäksi kurssi sisälsi paljon ryhmätöinä tehtyjä harjoituksia. Virallisen ohjelman ulkopuolella kurssin sisältöön kuului vierailu läheisessä Clarkin kirjastossa, jossa meille esiteltiin esimerkiksi kartta-aineistojen digitointia.

Kurssilla tutustuimme muun muassa erilaisiin teknisiin työkaluihin, jotka auttavat tutkimusaineistojen kuvailujen laatimisessa ja metadatan tallentamisessa. Opimme myös kuinka toimii pitkälle automatisoitu aineistojen talletusjärjestelmä, jossa tutkija voi luovuttaa tutkimusaineistonsa arkistoon suoraan verkossa. Tulevaisuudessa, kun rahoittajat uudistavat data-politiikkaansa ja arkistointivelvoitteet lisääntyvät myös Suomessa, vastaavaan järjestelmään siirtyminen on mitä todennäköisimmin edessä myös Yhteiskuntatieteellisessä tietoarkistossa.

Kokonaisuudessaan osallistuminen ICPSR:n kesäkurssille oli kaikin puolin hieno ja opettavainen kokemus. Opimme paljon ICPSR:n omista arkistointikäytännöistä ja aineistonkäsittelyntavoista. Lisäksi tutustuimme laajalti muihin mahdollisuuksiin käsitellä arkistoitavia tutkimusaineistoja ja saattaa niitä jatkokäyttäjien ulottuville. Uskallankin suositella nyt toista kertaa järjestettyä kurssia kaikille, jotka työskentelevät tutkimusaineistojen arkistoinnin parissa.

Lisätietoja: ICPSR:n kesäkurssien verkkosivusto.

Jarkko Päivärinta
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi

Epäiletkö aineistosi arvoa?

Viime keväänä annoin erään tutkijakoulun kurssilla tehtäväksi pohtia pienryhmissä, ovatko osallistujien omat empiiriset väitösaineistot arkistoitavissa jatkokäyttöön. Pyysin miettimään perusteita yhtä lailla sekä arkistointiin että sen mahdottomuuteen. Kaikki osallistujat olivat keränneet laadullisia haastatteluja omaan tutkimukseensa.

Ryhmätyön palautetilaisuudessa kävi ilmi, että kukaan ei katsonut voivansa arkistoida omaa aineistoaan tiedeyhteisön jatkokäytettäväksi. Tavallisimpana syynä olen tottunut kuulemaan perusteluja, joissa eettiset kysymykset ja tutkittaville annetut lupaukset estävät arkistoinnin. Yllätyksekseni tällä kertaa keskeisimmäksi arkistoinnin esteeksi miellettiin oman aineiston vähäinen merkitys ja arvo.

Yllättävä tulos palautti mieleeni vuosientakaisen keskustelun Ison-Britannian sisararkiston kollegan Libby Bishopin kanssa. Kävimme keskustelun, kun olin pitänyt oman esitykseni tutkittavien suhtautumisesta aineistojen arkistointiin ja jatkokäyttöön. Kysyttäessä tutkittavilta jälkikäteen lupaa heidän haastattelujensa arkistointiin valtaosa kannattaa sitä lämpimästi – vaikka tutkija olisi alun alkaen luvannut, ettei aineistoa näe kukaan muu. Olennaisinta tutkittavien suhtautumisessa on ajatus, että he ovat halunneet osallistua aihetta koskevan tutkimuksen edistämiseen ja arkistointi vain vahvistaa alkuperäistä toivetta. Tutkittavat eivät pidä laadullista haastattelutilannetta niin yksityisenä ja salassa pidettävänä, etteivätkö muut heille tuntemattomat tutkijat voisi haastattelua analysoida.

Kuultuaan suomalaisista kokemuksista Libby Bishop innostui kertomaan kokemuksiaan Isosta-Britanniasta. Bishopin mukaan heillä tutkijat usein vähättelevät laadullisen aineistonsa arvoa täsmentäen sen johtuvan siitä, ettei aineistossa ole mitään erityisen tunteikasta tai suuria henkilökohtaisia paljastuksia. Bishopin mukaan tutkijat kertovat asian peläten, että juuri heidän aineistonsa ei ehkä ole lainkaan hyvä laadullinen aineisto arkistoitavaksi. Isossa-Britanniassa tutkimuksen rahoittajat vaativat, että aineiston arkistointi tulee aina suunnitella ja neuvotella käytännön toteutuksesta paikallisen tietoarkiston kanssa. Siksi jokainen tutkija joutuu tarjoamaan aineistoaan arkistoitavaksi.

Harmillisesti laadullisten aineistojen eroa suhteessa kvantitatiivisiin aineistoihin usein korostetaan painottamalla muun ohessa laadullisen aineiston ainutlaatuisuutta, autenttisuutta ja sensitiivisyyttä. Valtaosa haastatteluvuorovaikutuksessa ja yllättävästi myös tutkittavien kirjoittamalla tuotetusta aineistosta on kuitenkin varsin arkista puhetta ja kerrontaa. Epäilen että tutkijoiden ja gradutekijöiden lisäksi haastattelulitteraattien läpilukemiseen ei välttämättä muilla riittäisi motivaatiota.

Lattealta, arkiselta ja jopa tylsältä tuntuva aineisto voi olla kuitenkin kiinnostava ja tärkeä analyysin kohde myös muille alkuperäisen tutkimuksen valmistuttua. Laadullisia arkistoaineistoja käytetään hyvin monenlaisiin tarkoituksiin ja aina eri tavalla kuin alkuperäisessä tutkimuksessa. Tietoarkistosta on haluttu etsiä esimerkiksi haastatteluja, joissa on läsnä yhtä aikaa kaksi eri-ikäistä haastateltavaa. Arkistoaineistot ovatkin hyvä lähde tutkimusvuorovaikutuksen analyysiin: analyysin kohteeksi voi valita useista haastatteluaineistoista ne yksittäiset haastattelut, jotka täyttävät tutkimusasetelmalle asetetut kriteerit. Aineistoja käytetään myös rinnan oman tuoreen aineiston kanssa, uuden tutkimuksen ideointiin ja menetelmäopetuksen analyysiharjoituksiin.

Laadullisen aineiston arvo ei määrity sen perusteella, sisältyykö siihen tutkittavien suuria tunteita ja erityisen arkaluonteisia paljastuksia. Arkistoinnin arvoisia ovat aineistot, joiden keruuta ja sisältöä koskevat tiedot ovat selkeät ja riittävät jatkokäytön näkökulmasta. Suuria tunteita ja paljastuksia sisältävä aineistokin voi olla käytännössä arvoton, jos on epäselvää, koska ja mihin tarkoitukseen aineisto on luotu ja tiedostojen tai litteraattien perustiedot puuttuvat. Kun haluaa turvata aineistonsa käytettävyyden, kannattaa perehtyä aineistonhallinnan käsikirjan ohjeisiin. Niiden avulla jokainen voi lisätä aineistonsa arvoa ja varmistaa sille loppumattoman elinkaaren.

Arja Kuula
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi

Epäiletkö aineistosi arvoa?

Viime keväänä annoin erään tutkijakoulun kurssilla tehtäväksi pohtia pienryhmissä, ovatko osallistujien omat empiiriset väitösaineistot arkistoitavissa jatkokäyttöön. Pyysin miettimään perusteita yhtä lailla sekä arkistointiin että sen mahdottomuuteen. Kaikki osallistujat olivat keränneet laadullisia haastatteluja omaan tutkimukseensa.

Ryhmätyön palautetilaisuudessa kävi ilmi, että kukaan ei katsonut voivansa arkistoida omaa aineistoaan tiedeyhteisön jatkokäytettäväksi. Tavallisimpana syynä olen tottunut kuulemaan perusteluja, joissa eettiset kysymykset ja tutkittaville annetut lupaukset estävät arkistoinnin. Yllätyksekseni tällä kertaa keskeisimmäksi arkistoinnin esteeksi miellettiin oman aineiston vähäinen merkitys ja arvo.

Yllättävä tulos palautti mieleeni vuosientakaisen keskustelun Ison-Britannian sisararkiston kollegan Libby Bishopin kanssa. Kävimme keskustelun, kun olin pitänyt oman esitykseni tutkittavien suhtautumisesta aineistojen arkistointiin ja jatkokäyttöön. Kysyttäessä tutkittavilta jälkikäteen lupaa heidän haastattelujensa arkistointiin valtaosa kannattaa sitä lämpimästi – vaikka tutkija olisi alun alkaen luvannut, ettei aineistoa näe kukaan muu. Olennaisinta tutkittavien suhtautumisessa on ajatus, että he ovat halunneet osallistua aihetta koskevan tutkimuksen edistämiseen ja arkistointi vain vahvistaa alkuperäistä toivetta. Tutkittavat eivät pidä laadullista haastattelutilannetta niin yksityisenä ja salassa pidettävänä, etteivätkö muut heille tuntemattomat tutkijat voisi haastattelua analysoida.

Kuultuaan suomalaisista kokemuksista Libby Bishop innostui kertomaan kokemuksiaan Isosta-Britanniasta. Bishopin mukaan heillä tutkijat usein vähättelevät laadullisen aineistonsa arvoa täsmentäen sen johtuvan siitä, ettei aineistossa ole mitään erityisen tunteikasta tai suuria henkilökohtaisia paljastuksia. Bishopin mukaan tutkijat kertovat asian peläten, että juuri heidän aineistonsa ei ehkä ole lainkaan hyvä laadullinen aineisto arkistoitavaksi. Isossa-Britanniassa tutkimuksen rahoittajat vaativat, että aineiston arkistointi tulee aina suunnitella ja neuvotella käytännön toteutuksesta paikallisen tietoarkiston kanssa. Siksi jokainen tutkija joutuu tarjoamaan aineistoaan arkistoitavaksi.

Harmillisesti laadullisten aineistojen eroa suhteessa kvantitatiivisiin aineistoihin usein korostetaan painottamalla muun ohessa laadullisen aineiston ainutlaatuisuutta, autenttisuutta ja sensitiivisyyttä. Valtaosa haastatteluvuorovaikutuksessa ja yllättävästi myös tutkittavien kirjoittamalla tuotetusta aineistosta on kuitenkin varsin arkista puhetta ja kerrontaa. Epäilen että tutkijoiden ja gradutekijöiden lisäksi haastattelulitteraattien läpilukemiseen ei välttämättä muilla riittäisi motivaatiota.

Lattealta, arkiselta ja jopa tylsältä tuntuva aineisto voi olla kuitenkin kiinnostava ja tärkeä analyysin kohde myös muille alkuperäisen tutkimuksen valmistuttua. Laadullisia arkistoaineistoja käytetään hyvin monenlaisiin tarkoituksiin ja aina eri tavalla kuin alkuperäisessä tutkimuksessa. Tietoarkistosta on haluttu etsiä esimerkiksi haastatteluja, joissa on läsnä yhtä aikaa kaksi eri-ikäistä haastateltavaa. Arkistoaineistot ovatkin hyvä lähde tutkimusvuorovaikutuksen analyysiin: analyysin kohteeksi voi valita useista haastatteluaineistoista ne yksittäiset haastattelut, jotka täyttävät tutkimusasetelmalle asetetut kriteerit. Aineistoja käytetään myös rinnan oman tuoreen aineiston kanssa, uuden tutkimuksen ideointiin ja menetelmäopetuksen analyysiharjoituksiin.

Laadullisen aineiston arvo ei määrity sen perusteella, sisältyykö siihen tutkittavien suuria tunteita ja erityisen arkaluonteisia paljastuksia. Arkistoinnin arvoisia ovat aineistot, joiden keruuta ja sisältöä koskevat tiedot ovat selkeät ja riittävät jatkokäytön näkökulmasta. Suuria tunteita ja paljastuksia sisältävä aineistokin voi olla käytännössä arvoton, jos on epäselvää, koska ja mihin tarkoitukseen aineisto on luotu ja tiedostojen tai litteraattien perustiedot puuttuvat. Kun haluaa turvata aineistonsa käytettävyyden, kannattaa perehtyä aineistonhallinnan käsikirjan ohjeisiin. Niiden avulla jokainen voi lisätä aineistonsa arvoa ja varmistaa sille loppumattoman elinkaaren.

Arja Kuula
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi