Tag Archives: luokittelu

Näin anonymisoit kvalitatiivisen tutkimusaineistosi

Kvalitatiivisissa tutkimusaineistoissa, esimerkiksi haastattelu- ja kirjoitusaineistoissa, tutkittavat kertovat usein itsestään ja läheisistään avoimesti yksityiskohtaisia tietoja. Lain mukaan henkilötiedot eivät saa vuotaa ulkopuolisille, joten aineistot täytyy anonymisoida huolellisesti ennen kuin ne voi arkistoida jatkokäyttöä varten.

Lähes kaikki suomalaiset yliopistot ja monet tutkimusrahoittajat suosittelevat tai vaativat, että tutkijat avaavat aineistonsa, joten anonymisointiosaaminen alkaa kuulua kvalitatiivisia aineistoja keräävän tutkijan perustaitoihin.

Tietoarkisto ja Avoin tiede ja tutkimus -hanke järjestivät 5. huhtikuuta Tutkimusaineistojen anonymisointi -seminaarin jossa käsiteltiin sekä kvantitatiivisten että kvalitatiivisten aineistojen anonymisointikeinoja.

Seminaarin esityksiin voi tutustua tapahtuman sivulla julkaistujen diojen ja esitysvideoiden avulla. Täsmällisempiä anonymisointivinkkejä kaipaavan kannattaa tutustua myös Aineistonhallinnan käsikirjaan.

Tässä blogikirjoituksessa käyn Tietoarkiston tieteenala-asiantuntijan Katja Fältin ja Tietoarkiston tutkimusapulaisen Emilia Lehdon seminaariesitysten perusteella läpi kvalitatiivisen aineiston tavallisimpia anonymisointikäytäntöjä.

Kaikki elävään ihmiseen liittyvät tiedot voivat olla henkilötietoja

Aivan ensimmäiseksi on olennaista ymmärtää, milloin aineisto vaatii anonymisoimista, eli mitkä kaikki tiedot aineistossa ovat lain mukaan henkilötietoja.

Henkilötietolaissa määritelmä on varsin laaja: henkilötietoja ovat kaikki elävää ihmistä, hänen ominaisuuksiaan tai elinolosuhteitaan kuvaavat merkinnät, joista henkilö, hänen perheensä tai hänen kanssaan yhteisessä taloudessa elävät ihmiset voidaan tunnistaa. Toisin sanoen lähes kaikki elävään ihmiseen liittyvät tiedot voivat olla henkilötietoja.

Käytännössä tiedot lasketaan henkilötiedoiksi kuitenkin vain silloin, kun niiden perusteella voidaan tunnistaa aineistosta yksittäinen henkilö. Tunnistamisen mahdollistavat tiedot, eli tunnisteet on jaettu suoriin ja epäsuoriin tunnisteisiin. Epäsuorat tunnisteet on lisäksi jaoteltu vahvoihin epäsuoriin tunnisteisiin ja epäsuoriin tunnisteisiin.

Suorat tunnisteet riittävät yksin tutkittavan tunnistamiseen, eli niiden lisäksi ei tarvita mitään muita tietoja. Suoria tunnisteita ovat esimerkiksi koko nimi, henkilönimen mukainen sähköpostiosoite ja biometriset tunnisteet kuten sormenjälki tai ääni.

Vahvat epäsuorat tunnisteet ovat tietoja, jotka eivät suoraan kerro kuka henkilö on, mutta henkilöllisyyden selvittäminen niiden perusteella on hyvin helppoa. Tällaisia ovat esimerkiksi osoite, auton rekisterinumero, harvinainen ammattinimike tai harvinainen sairaus.

Epäsuoriksi tunnisteiksi voidaan laskea monenlaiset henkilöstä kertovat tiedot, kuten sukupuoli, ikä, asuinkunta ja ammattinimike. Epäsuorat tunnisteet eivät yleensä yksin riitä tutkittavan tunnistamiseen, mutta useammat epäsuorat tunnisteet saattavat yhdessä mahdollistaa tutkittavan tunnistamisen.

Tietoarkiston humanististen tieteiden tieteenala-asiantuntija Katja Fält kertoi seminaarissa kvalitatiivisten aineistojen anonymisoimisesta teoreettisella tasolla. (Kuva: Kaisa Järvelä).

Poista aineistosta kaikki tarpeettomat tunnisteet

Aineisto on anonyymi silloin, kun yksittäisiä henkilöitä ei voida tunnistaa siitä kohtuullisesti toteutettavissa olevilla toimenpiteillä. Haastateltavien omien tietojen lisäksi on tärkeää muistaa poistaa aineistosta myös kolmansia henkilöitä koskevat tunnisteet. Laadullisissa aineistoissa näitä voi olla paljonkin, jos esimerkiksi tutkittava mainitsee haastattelussa perheenjäseniään, naapureitaan tai työkavereitaan.

Yleisenä ohjeena anonymisoinnissa voi pitää sitä, että aineistosta täytyy poistaa kaikki tarpeettomat tunnisteet. Tunnisteellisten tietojen käsitteleminen ja aineiston anonymisoiminen täytyy kuitenkin suunnitella aina aineistokohtaisesti. Jokainen tutkimusaineisto on yksilöllinen, ja joissain aineistoissa tunnistetietoja on esimerkiksi selvästi enemmän kuin toisissa.

Ennen anonymisoinnin aloittamista aineistolle onkin hyvä laatia konkreettinen anonymisointisuunnitelma. Suunnitelmaan kannattaa kirjata ainakin, mitä anonymisointitoimenpiteitä aineistolle aikoo tehdä. Lisäksi suunnitelmassa kannattaa kuvailla esimerkiksi se, miten tutkittavia on informoitu ja millä tavalla aineistoa on mahdollisesti aiemmin muokattu.

Anonymisoinnin yleinen periaate on, että suorat tunnisteet ja vahvat epäsuorat tunnisteet poistetaan aineistoista aina kokonaan. Tämän lisäksi myös epäsuorat tunnisteet vaativat yleensä vähintään jonkin verran käsittelemistä.

Joissain poikkeustapauksissa voi kuitenkin olla mahdollista jättää arkistoitavaan aineistoon jopa haastateltavan koko nimi. Näin on esimerkiksi silloin, jos haastateltava on ammattipoliitikko, haastattelu koskee politiikkaa ja haastateltava on antanut luvan nimensä julkaisemiseen.

Epäsuorien tunnisteiden kohdalla on tärkeää ottaa huomioon aina myös se, mitä tietoja tutkittavasta voi saada aineiston ulkopuolelta, esimerkiksi sosiaalisesta mediasta tai muualta internetistä.

Yksinkertaisimmillaan anonymisointi on tietojen poistamista

Tyypillisimmät laadullisen aineiston anonymisointikeinot ovat tietojen poistaminen, pseudonymisointi, kategorisointi ja tunnistetietojen vaihtaminen. Tavallisesti yksittäisen aineiston anonymisointiin joudutaan käyttämään useaa mainituista keinoista.

Yksinkertaisimmillaan tietojen poistaminen tarkoittaa suorien ja vahvojen epäsuorien tunnisteiden poistamista sekä taustamuuttujista että haastattelulitteraatioista tai esimerkiksi kilpakirjoitusteksteistä.

Haastatteluista on mahdollista poistaa yksittäisten tunnisteiden lisäksi myös pidempiä pätkiä, jos haastateltava harhautuu kertomaan itsestään yksilöiviä arkaluonteisia tietoja. Tämä on perusteltua etenkin silloin, kun tiedot eivät ole tutkimuksen varsinaisena kohteena.

Poistettavia, eli kokonaan hävitettäviä tietoja ovat myös kaikki aineistoon liittyvät, tunnisteita sisältävät taustamateriaalit. Tiedostoista on syytä tarkistaa, onko niissä piilotettuja teknisiä tietoja, esimerkiksi kuvatiedostojen tekijä- tai paikkatietoja.

Voisiko tiedon pseudonymisoida, karkeistaa tai vaihtaa?

Haastatteluissa ja kirjoitusaineistoissa henkilönimien pseudonymisointi on usein aineiston ymmärrettävyyden kannalta parempi vaihtoehto kuin se, että nimet poistettaisiin kokonaan.

Pseudonymisointi tarkoittaa sitä, että henkilönimet vaihdetaan peitenimiksi eli pseudonyymeiksi. Haastateltavana olleesta Matista voi siis tehdä esimerkiksi Pekan ja hänen Anna-vaimostaan Liisan. Pseudonymisointi täytyy suunnitella johdonmukaisesti niin, että sama henkilö esiintyy aineistossa alusta loppuun asti samalla peitenimellä.

Kategorisointia eli tietojen karkeistamista tehdään paljon esimerkiksi aineiston taustatiedoille. Taustatietojen kohdalla kategorisoiminen on yleensä parempi vaihtoehto kuin tietojen poistaminen, sillä aineiston tulkitseminen ja ymmärtäminen ilman taustatietoja olisi vaikeaa.

Haastatteluista tai kirjoitusaineistoista voidaan joissain tapauksissa karkeistaa myös esimerkiksi henkilönimiä. Tämä on järkevää silloin, kun henkilö esiintyy aineistossa korkeintaan pari kertaa eikä ole keskeinen aineiston sisällön kannalta. Esimerkiksi sivulauseessa mainitun Marjatta-naapurin voi hyvin muuttaa pelkäksi naapuriksi.

Useimmiten kategorisointia vaativat myös kaikki kirjoituksissa tai haastatteluissa esiintyvät yksilöivät ammattinimikkeet, toimipaikat, oppilaitokset ja paikkakunnat. Näiden luokittelemisessa kannattaa käyttää apuna Tilastokeskuksen valmiita luokituksia.

Joissain tapauksissa paras vaihtoehto on vaihtaa tekstissä esiintyvä yksilöivä tunnistetieto toiseksi. Aineiston ymmärtämisen kannalta voi esimerkiksi olla olennaista kertoa, että henkilö on syntynyt jouluaattona. Jotta tarkka syntymäaika ei paljastuisi, henkilön syntymävuotta on tällaisessa tapauksessa mahdollista muuttaa pari vuotta myöhemmäksi tai aikaisemmaksi.

Käytännössä anonymisointi voi sujua vaikka näin

Emilia Lehto konkretisoi laadullisen aineiston anonymisoimista seminaarissa kahden aineistoesimerkin avulla. Toinen esimerkkiaineistoista oli Tietoarkistoon tallennettu Erityislapsiperheiden tukiverkostot -kysely.

Tietoarkiston tutkimusapulainen, laadullisia aineistoja työkseen anonymisoiva, Emilia Lehto, kertoi anonymisoimisesta konkreettisten aineistoesimerkkien kautta. (Kuva: Kaisa Järvelä).

Aineistossa vastaajilta oli kysytty taustatiedoiksi heidän rooliansa (esim. äiti), ikäänsä, ammattiansa, siviilisäätyänsä, perheen lasten lukumäärää ja lasten ikiä sekä sitä, kuka lapsista on erityislapsi (esimerkiksi poika, 1. lapsi). Taustatiedoista kategorisoitiin vastaajan ikä ja ammatti. Jos siis haastateltavana olevan äidin ammatti oli esimerkiksi kätilö, ammatti karkeistettiin Tilastokeskuksen luokituksen mukaan [terveydenhuollon ammattilaiseksi]. Ikä luokiteltiin viiden vuoden tarkkuudella.

Tutkittavat käyttivät haastatteluissa paljon erityislastensa ja näiden sisarusten nimiä. Nämä korvattiin aineistossa pseudonyymeillä. Paikkakuntien nimet kategorisoitiin niin, että esimerkiksi Nokia muuttui [kaupunkimaiseksi kunnaksi Pirkanmaalla]. Yksityisen päiväkodin nimi poistettiin aineistosta kokonaan ja siihen viitattiin vain termillä päiväkoti. Jos esimerkiksi päiväkoteja esiintyi samassa haastattelussa useampia, ne erotettiin toisistaan kirjaimin, esimerkiksi näin: [päiväkoti A nimi poistettu].

Epäsuorien tunnisteiden kohdalla huomioitiin myös se, voiko tutkittavan henkilöllisyys paljastua, jos tunnisteen yhdistää muualta saatavilla oleviin tietoihin. Eräs äiti esimerkiksi puhui haastattelussa perheensä matkasta Kroatiaan. Tarkka matkakohde karkeistettiin lomamatkaksi [Eurooppaan], koska äiti oli saattanut julkaista tiedon perheen Kroatian-matkasta sosiaalisessa mediassa. Lehto vinkkasi, että jos hän itse ei ole varma, voiko jokin tunniste johdattaa muualta saatavaan tietoon yhdistettynä henkilön jäljille vai ei, hän tekee kokeeksi muutaman yksinkertaisen google-haun.

Kvalitatiiviset aineistot ovat usein huomattavasti työläämpiä anonymisoitavia kuin kvantitatiiviset aineistot. Tietoarkistossa kuitenkin toivomme, että myös kvalitatiiviset aineistot toimitetaan arkistoitavaksi mahdollisimman pitkälle anonymisoituina.

Lopullisen vastuun aineiston anonymiteetista otamme silti me. Tarkistamme kaikki aineistot ja käsittelemme niitä vielä niin, että ne ovat Ailaan päätyessään varmasti täysin anonyymeja.

Lisätietoja
» Seminaarin sivulta löydät esitysdiat ja myöhemmin myös videot
» Aineistonhallinnan käsikirja: Tunnisteellisuus ja anonymisointi

Vastaavan tekstin kvantitatiivisten aineistojen anonymisoinnista voi lukea myös Tietoarkistoblogista.

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Näin anonymisoit kvalitatiivisen tutkimusaineistosi

Kvalitatiivisissa tutkimusaineistoissa, esimerkiksi haastattelu- ja kirjoitusaineistoissa, tutkittavat kertovat usein itsestään ja läheisistään avoimesti yksityiskohtaisia tietoja. Lain mukaan henkilötiedot eivät saa vuotaa ulkopuolisille, joten aineistot täytyy anonymisoida huolellisesti ennen kuin ne voi arkistoida jatkokäyttöä varten.

Lähes kaikki suomalaiset yliopistot ja monet tutkimusrahoittajat suosittelevat tai vaativat, että tutkijat avaavat aineistonsa, joten anonymisointiosaaminen alkaa kuulua kvalitatiivisia aineistoja keräävän tutkijan perustaitoihin.

Tietoarkisto ja Avoin tiede ja tutkimus -hanke järjestivät 5. huhtikuuta Tutkimusaineistojen anonymisointi -seminaarin jossa käsiteltiin sekä kvantitatiivisten että kvalitatiivisten aineistojen anonymisointikeinoja.

Seminaarin esityksiin voi tutustua tapahtuman sivulla julkaistujen diojen ja esitysvideoiden avulla. Täsmällisempiä anonymisointivinkkejä kaipaavan kannattaa tutustua myös Aineistonhallinnan käsikirjaan.

Tässä blogikirjoituksessa käyn Tietoarkiston tieteenala-asiantuntijan Katja Fältin ja Tietoarkiston tutkimusapulaisen Emilia Lehdon seminaariesitysten perusteella läpi kvalitatiivisen aineiston tavallisimpia anonymisointikäytäntöjä.

Kaikki elävään ihmiseen liittyvät tiedot voivat olla henkilötietoja

Aivan ensimmäiseksi on olennaista ymmärtää, milloin aineisto vaatii anonymisoimista, eli mitkä kaikki tiedot aineistossa ovat lain mukaan henkilötietoja.

Henkilötietolaissa määritelmä on varsin laaja: henkilötietoja ovat kaikki elävää ihmistä, hänen ominaisuuksiaan tai elinolosuhteitaan kuvaavat merkinnät, joista henkilö, hänen perheensä tai hänen kanssaan yhteisessä taloudessa elävät ihmiset voidaan tunnistaa. Toisin sanoen lähes kaikki elävään ihmiseen liittyvät tiedot voivat olla henkilötietoja.

Käytännössä tiedot lasketaan henkilötiedoiksi kuitenkin vain silloin, kun niiden perusteella voidaan tunnistaa aineistosta yksittäinen henkilö. Tunnistamisen mahdollistavat tiedot, eli tunnisteet on jaettu suoriin ja epäsuoriin tunnisteisiin. Epäsuorat tunnisteet on lisäksi jaoteltu vahvoihin epäsuoriin tunnisteisiin ja epäsuoriin tunnisteisiin.

Suorat tunnisteet riittävät yksin tutkittavan tunnistamiseen, eli niiden lisäksi ei tarvita mitään muita tietoja. Suoria tunnisteita ovat esimerkiksi koko nimi, henkilönimen mukainen sähköpostiosoite ja biometriset tunnisteet kuten sormenjälki tai ääni.

Vahvat epäsuorat tunnisteet ovat tietoja, jotka eivät suoraan kerro kuka henkilö on, mutta henkilöllisyyden selvittäminen niiden perusteella on hyvin helppoa. Tällaisia ovat esimerkiksi osoite, auton rekisterinumero, harvinainen ammattinimike tai harvinainen sairaus.

Epäsuoriksi tunnisteiksi voidaan laskea monenlaiset henkilöstä kertovat tiedot, kuten sukupuoli, ikä, asuinkunta ja ammattinimike. Epäsuorat tunnisteet eivät yleensä yksin riitä tutkittavan tunnistamiseen, mutta useammat epäsuorat tunnisteet saattavat yhdessä mahdollistaa tutkittavan tunnistamisen.

Tietoarkiston humanististen tieteiden tieteenala-asiantuntija Katja Fält kertoi seminaarissa kvalitatiivisten aineistojen anonymisoimisesta teoreettisella tasolla. (Kuva: Kaisa Järvelä).

Poista aineistosta kaikki tarpeettomat tunnisteet

Aineisto on anonyymi silloin, kun yksittäisiä henkilöitä ei voida tunnistaa siitä kohtuullisesti toteutettavissa olevilla toimenpiteillä. Haastateltavien omien tietojen lisäksi on tärkeää muistaa poistaa aineistosta myös kolmansia henkilöitä koskevat tunnisteet. Laadullisissa aineistoissa näitä voi olla paljonkin, jos esimerkiksi tutkittava mainitsee haastattelussa perheenjäseniään, naapureitaan tai työkavereitaan.

Yleisenä ohjeena anonymisoinnissa voi pitää sitä, että aineistosta täytyy poistaa kaikki tarpeettomat tunnisteet. Tunnisteellisten tietojen käsitteleminen ja aineiston anonymisoiminen täytyy kuitenkin suunnitella aina aineistokohtaisesti. Jokainen tutkimusaineisto on yksilöllinen, ja joissain aineistoissa tunnistetietoja on esimerkiksi selvästi enemmän kuin toisissa.

Ennen anonymisoinnin aloittamista aineistolle onkin hyvä laatia konkreettinen anonymisointisuunnitelma. Suunnitelmaan kannattaa kirjata ainakin, mitä anonymisointitoimenpiteitä aineistolle aikoo tehdä. Lisäksi suunnitelmassa kannattaa kuvailla esimerkiksi se, miten tutkittavia on informoitu ja millä tavalla aineistoa on mahdollisesti aiemmin muokattu.

Anonymisoinnin yleinen periaate on, että suorat tunnisteet ja vahvat epäsuorat tunnisteet poistetaan aineistoista aina kokonaan. Tämän lisäksi myös epäsuorat tunnisteet vaativat yleensä vähintään jonkin verran käsittelemistä.

Joissain poikkeustapauksissa voi kuitenkin olla mahdollista jättää arkistoitavaan aineistoon jopa haastateltavan koko nimi. Näin on esimerkiksi silloin, jos haastateltava on ammattipoliitikko, haastattelu koskee politiikkaa ja haastateltava on antanut luvan nimensä julkaisemiseen.

Epäsuorien tunnisteiden kohdalla on tärkeää ottaa huomioon aina myös se, mitä tietoja tutkittavasta voi saada aineiston ulkopuolelta, esimerkiksi sosiaalisesta mediasta tai muualta internetistä.

Yksinkertaisimmillaan anonymisointi on tietojen poistamista

Tyypillisimmät laadullisen aineiston anonymisointikeinot ovat tietojen poistaminen, pseudonymisointi, kategorisointi ja tunnistetietojen vaihtaminen. Tavallisesti yksittäisen aineiston anonymisointiin joudutaan käyttämään useaa mainituista keinoista.

Yksinkertaisimmillaan tietojen poistaminen tarkoittaa suorien ja vahvojen epäsuorien tunnisteiden poistamista sekä taustamuuttujista että haastattelulitteraatioista tai esimerkiksi kilpakirjoitusteksteistä.

Haastatteluista on mahdollista poistaa yksittäisten tunnisteiden lisäksi myös pidempiä pätkiä, jos haastateltava harhautuu kertomaan itsestään yksilöiviä arkaluonteisia tietoja. Tämä on perusteltua etenkin silloin, kun tiedot eivät ole tutkimuksen varsinaisena kohteena.

Poistettavia, eli kokonaan hävitettäviä tietoja ovat myös kaikki aineistoon liittyvät, tunnisteita sisältävät taustamateriaalit. Tiedostoista on syytä tarkistaa, onko niissä piilotettuja teknisiä tietoja, esimerkiksi kuvatiedostojen tekijä- tai paikkatietoja.

Voisiko tiedon pseudonymisoida, karkeistaa tai vaihtaa?

Haastatteluissa ja kirjoitusaineistoissa henkilönimien pseudonymisointi on usein aineiston ymmärrettävyyden kannalta parempi vaihtoehto kuin se, että nimet poistettaisiin kokonaan.

Pseudonymisointi tarkoittaa sitä, että henkilönimet vaihdetaan peitenimiksi eli pseudonyymeiksi. Haastateltavana olleesta Matista voi siis tehdä esimerkiksi Pekan ja hänen Anna-vaimostaan Liisan. Pseudonymisointi täytyy suunnitella johdonmukaisesti niin, että sama henkilö esiintyy aineistossa alusta loppuun asti samalla peitenimellä.

Kategorisointia eli tietojen karkeistamista tehdään paljon esimerkiksi aineiston taustatiedoille. Taustatietojen kohdalla kategorisoiminen on yleensä parempi vaihtoehto kuin tietojen poistaminen, sillä aineiston tulkitseminen ja ymmärtäminen ilman taustatietoja olisi vaikeaa.

Haastatteluista tai kirjoitusaineistoista voidaan joissain tapauksissa karkeistaa myös esimerkiksi henkilönimiä. Tämä on järkevää silloin, kun henkilö esiintyy aineistossa korkeintaan pari kertaa eikä ole keskeinen aineiston sisällön kannalta. Esimerkiksi sivulauseessa mainitun Marjatta-naapurin voi hyvin muuttaa pelkäksi naapuriksi.

Useimmiten kategorisointia vaativat myös kaikki kirjoituksissa tai haastatteluissa esiintyvät yksilöivät ammattinimikkeet, toimipaikat, oppilaitokset ja paikkakunnat. Näiden luokittelemisessa kannattaa käyttää apuna Tilastokeskuksen valmiita luokituksia.

Joissain tapauksissa paras vaihtoehto on vaihtaa tekstissä esiintyvä yksilöivä tunnistetieto toiseksi. Aineiston ymmärtämisen kannalta voi esimerkiksi olla olennaista kertoa, että henkilö on syntynyt jouluaattona. Jotta tarkka syntymäaika ei paljastuisi, henkilön syntymävuotta on tällaisessa tapauksessa mahdollista muuttaa pari vuotta myöhemmäksi tai aikaisemmaksi.

Käytännössä anonymisointi voi sujua vaikka näin

Emilia Lehto konkretisoi laadullisen aineiston anonymisoimista seminaarissa kahden aineistoesimerkin avulla. Toinen esimerkkiaineistoista oli Tietoarkistoon tallennettu Erityislapsiperheiden tukiverkostot -kysely.

Tietoarkiston tutkimusapulainen, laadullisia aineistoja työkseen anonymisoiva, Emilia Lehto, kertoi anonymisoimisesta konkreettisten aineistoesimerkkien kautta. (Kuva: Kaisa Järvelä).

Aineistossa vastaajilta oli kysytty taustatiedoiksi heidän rooliansa (esim. äiti), ikäänsä, ammattiansa, siviilisäätyänsä, perheen lasten lukumäärää ja lasten ikiä sekä sitä, kuka lapsista on erityislapsi (esimerkiksi poika, 1. lapsi). Taustatiedoista kategorisoitiin vastaajan ikä ja ammatti. Jos siis haastateltavana olevan äidin ammatti oli esimerkiksi kätilö, ammatti karkeistettiin Tilastokeskuksen luokituksen mukaan [terveydenhuollon ammattilaiseksi]. Ikä luokiteltiin viiden vuoden tarkkuudella.

Tutkittavat käyttivät haastatteluissa paljon erityislastensa ja näiden sisarusten nimiä. Nämä korvattiin aineistossa pseudonyymeillä. Paikkakuntien nimet kategorisoitiin niin, että esimerkiksi Nokia muuttui [kaupunkimaiseksi kunnaksi Pirkanmaalla]. Yksityisen päiväkodin nimi poistettiin aineistosta kokonaan ja siihen viitattiin vain termillä päiväkoti. Jos esimerkiksi päiväkoteja esiintyi samassa haastattelussa useampia, ne erotettiin toisistaan kirjaimin, esimerkiksi näin: [päiväkoti A nimi poistettu].

Epäsuorien tunnisteiden kohdalla huomioitiin myös se, voiko tutkittavan henkilöllisyys paljastua, jos tunnisteen yhdistää muualta saatavilla oleviin tietoihin. Eräs äiti esimerkiksi puhui haastattelussa perheensä matkasta Kroatiaan. Tarkka matkakohde karkeistettiin lomamatkaksi [Eurooppaan], koska äiti oli saattanut julkaista tiedon perheen Kroatian-matkasta sosiaalisessa mediassa. Lehto vinkkasi, että jos hän itse ei ole varma, voiko jokin tunniste johdattaa muualta saatavaan tietoon yhdistettynä henkilön jäljille vai ei, hän tekee kokeeksi muutaman yksinkertaisen google-haun.

Kvalitatiiviset aineistot ovat usein huomattavasti työläämpiä anonymisoitavia kuin kvantitatiiviset aineistot. Tietoarkistossa kuitenkin toivomme, että myös kvalitatiiviset aineistot toimitetaan arkistoitavaksi mahdollisimman pitkälle anonymisoituina.

Lopullisen vastuun aineiston anonymiteetista otamme silti me. Tarkistamme kaikki aineistot ja käsittelemme niitä vielä niin, että ne ovat Ailaan päätyessään varmasti täysin anonyymeja.

Lisätietoja
» Seminaarin sivulta löydät esitysdiat ja myöhemmin myös videot
» Aineistonhallinnan käsikirja: Tunnisteellisuus ja anonymisointi

Vastaavan tekstin kvantitatiivisten aineistojen anonymisoinnista voi lukea myös Tietoarkistoblogista.

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Näin anonymisoit kvantitatiiviset aineistosi

Ihmistieteiden tutkimusaineistot sisältävät aina enemmän tai vähemmän henkilötietoja. Henkilötietolain mukaan tunnisteellista aineistoa voi käyttää tutkimukseen, jos se on välttämätöntä, tarkoituksenmukaista, suunniteltua ja asiallisesti perusteltua. Tutkittavia koskevat tiedot eivät kuitenkaan missään tapauksessa saa vuotaa ulkopuolisille.

Viimeistään aineiston arkistointivaiheessa tunnisteet täytyy hävittää, jos tunnisteellisen aineiston arkistoimiseen ei ole erillistä Kansallisarkistolta anottua lupaa. Useimmat suomalaiset yliopistot ja tutkimusrahoittajat kannustavat aineistojen arkistoimiseen ja avaamiseen, eli anonymisointiosaaminen alkaa kuulua jokaisen tutkijan perustaitoihin.

Anonymisointikoulutukselle onkin Suomessa selvästi tarvetta, sillä Tietoarkiston ja ATT-hankkeen huhtikuussa Tampereella järjestämään Tutkimusaineistojen anonymisointi -seminaariin ilmoittautui lähes 350 osallistujaa ympäri maata.

Seminaarin esitysdioihin voi tutustua verkossa tapahtuman sivuilla, ja myös esityksistä kuvatut videot ovat tulossa julki samalle sivulle.

Tässä blogikirjoituksessa käyn seminaariesitysten perusteella läpi määrällisen aineiston anonymisointikäytäntöjä. Kun oman aineiston anonymisointi tulee ajankohtaiseksi, yksityiskohtaisempia ohjeita kannattaa käydä lukemassa vielä Tietoarkiston Aineistonhallinnan käsikirjasta.

Tietoarkistossa toivomme, että meille toimitettavat aineistot ovat valmiiksi anonymisoituja. Tarkastamme kuitenkin kaikki aineistot, ja käsittelemme niitä usein vielä jonkin verran niin, että Ailassa julkaistavat aineistot ovat varmasti täysin anonyymeja.

Kaikki elävää ihmistä koskevat tiedot ovat henkilötietoja

Aivan ensimmäiseksi tunnisteellista aineistoa anonymisoivan tutkijan täytyy ymmärtää, mitkä tiedot ovat henkilötietoja. Tätä aihetta avasi seminaarissa Tietoarkiston kehittämispäällikkö Arja Kuula-Luumi.

Tiivistetysti voi sanoa, että henkilötiedoiksi lasketaan kaikki elävää ihmistä koskevat tiedot. Sellainen voi olla esimerkiksi tutkittavan tai tämän läheisen ominaisuus, tutkittavan elinolosuhteita koskeva maininta tai vaikkapa tutkittavan mielipide.

Tämä ei onneksi kuitenkaan tarkoita, että esimerkiksi kaikki tutkittavan esittämät mielipiteet pitäisi poistaa aineistosta ennen kuin sen voi arkistoida. Tutkittavia koskevat tiedot lasketaan henkilötiedoksi vain silloin, kun yksilö on tunnistettavissa aineistosta. Aineiston anonymisoiminen tarkoittaakin sitä, että aineistosta poistetaan, luokitellaan tai muutetaan sellaiset tiedot, joiden avulla yksilön voi tunnistaa ja esimerkiksi aineistossa esitetyt mielipiteet yhdistää tietyn yksilön mielipiteiksi.

EU:n uuden tietosuoja-asetuksen mukaan henkilö on tunnistettavissa silloin, kun hänet voidaan tunnistaa suoraan tai epäsuorasti tunnistetietojen perusteella. Käytännössä suorat tunnistetiedot tarkoittavat tietoja, jotka riittävät yksin henkilön tunnistamiseen, vaikka hänestä ei kerrottaisi mitään muuta. Suoria tunnisteita ovat siis esimerkiksi koko nimi ja henkilötunnus.

Epäsuorat tunnisteet on jaoteltu vahvoihin epäsuoriin tunnisteisiin ja epäsuoriin tunnisteisiin. Vahvat epäsuorat tunnisteet eivät viittaa suoraan henkilöön, mutta niiden avulla voi helposti selvittää, kenestä henkilöstä on kyse. Vahva epäsuora tunniste voisi siis olla esimerkiksi auton rekisterinumero, jonka avulla on mahdollista suoraan selvittää auton omistaja.

Epäsuorat tunnisteet eivät yksin paljasta henkilöllisyyttä, mutta saattavat muihin tietoihin yhdistettynä mahdollistaa henkilön tunnistamisen. Tällaisia ovat esimerkiksi ikä, sukupuoli ja asuinpaikka sekä lukuisat muut fyysiset, psyykkiset, taloudelliset ja sosiaaliset tekijät.

Tunnistettavuutta miettiessä on olennaista ottaa huomioon myös se, mitä tietoja henkilöstä on saatavilla muualta kuin omasta aineistosta. Moni paljastaa itsestään paljon sosiaalisessa mediassa. Lisäksi esimerkiksi julkiset asiakirjat ja järjestöjen verkkosivut voivat tarjota monenlaisia tietoja.

Tietoarkiston kehittämispäällikkö Arja Kuula-Luumi piti seminaarissa esityksen aiheesta Tietosuoja tutkimuksessa. (Kuva: Kaisa Järvelä).

Anonymisointi on aina peruuttamaton

Yksi olennainen asia on ymmärtää, että aineiston pseudonymisointi ja anonymisointi ovat eri asioita. Jos tutkijat analysoivat aineistoa ilman tunnisteita, mutta säilyttävät tunnistetiedot ja koodiavaimen itsellään, aineisto ei ole anonyymi vaan pseudonyymi, eikä sitä voi esimerkiksi arkistoida sellaisenaan jatkokäyttöä varten.

Lain mukaan aineisto on anonyymi vasta silloin, kun siitä ei voi tunnistaa yksittäisiä tutkittavia millään kohtuullisesti toteutettavissa olevalla keinolla. Tietosuoja-asetuksen mukaan kohtuullisuutta tulee arvioida tunnistamisesta aiheutuvien kulujen, tunnistamiseen tarvittavan ajan ja käytettävissä olevan teknologian näkökulmista.

EU:n tietosuojatyöryhmä neuvoo arvioimaan aineiston tunnisteellisuutta kolmesta näkökulmasta:

  1. Onko yksilö edelleen mahdollista erottaa joukosta?
  2. Onko tietojen yhdistäminen yksilöön mahdollista?
    ja
  3. Voidaanko yksilöä koskevat tiedot päätellä?

Tietoarkiston tutkimusamanuenssi Eliisa Haanpää konkretisoi kysymyksiä vielä kolmella esimerkillä:

  1. Pystyykö yksittäisen henkilön tunnistamaan vastauksista, kun on tiedossa, että hän on vastannut kyselyyn?
  2. Pystyykö vastaukset yhdistämään henkilöön, vaikka ei tiedä, onko hän vastannut kyselyyn?
  3. Paljastaako esimerkiksi tietyn paikallisradion kuuntelemisen kaltainen yksityiskohta, että henkilö asuu tietyssä kunnassa?

Anonyymin aineiston määritelmän kannalta on olennaista myös se, että anonymisointitoimien täytyy olla peruuttamattomia. Kertaalleen anonymisoitu aineisto ei siis saa olla palautettavissa tunnisteelliseen muotoon.

Tietoarkiston tutkimusamanuenssi Eliisa Haanpää kertoi kvantitatiivisten aineistojen anonymisoinnista sekä teoreettisella tasolla että konkreettisten aineistoesimerkkien avulla. (Kuva: Kaisa Järvelä).

Anonymisointi alkaa tarkasta suunnittelusta

Eliisa Haanpäällä on vuosien kokemus erilaisten kvantitatiivisten aineistojen anonymisoimisesta. Hän korostikin seminaariesityksessään, että kaikkiin aineistoihin suoraan sovellettavaa anonymisointimallia ei ole olemassa, vaan yksittäiset toimet täytyy viime kädessä suunnitella kunkin aineiston ehdoilla. Tutkijan on siis punnittava aina erikseen, mitkä käytännöt toimivat parhaiten juuri oman aineiston kohdalla. Oman aineiston anonymisointia suunnitellessa kannatta pohtia esimerkiksi, kuinka arkaluontoinen aineisto on, ja mitä aihetta se käsittelee, eli mitkä tiedot on olennaista säilyttää, jotta aineisto pysyy ymmärrettävänä.

Jotta anonymisoiminen sujuisi alusta loppuun asti loogisesti, Haanpää neuvoi laatimaan kirjallisen anonymisointisuunnitelman, jonka mukaisesti johdonmukainen anonymisointi on helppo toteuttaa. Hyvä perusmalli on anonymisoida ensin taustamuuttujat, seuraavaksi mahdolliset avokysymykset ja lopuksi vielä muita tunnisteita sisältävät muuttujat sekä mahdolliset muut aineistoon liittyvät lisämateriaalit.

Kolme yleisintä tapaa anonymisoida kvantitatiivista aineistoa

Määrällisen aineiston kohdalla kolme yleisintä anonymisointikeinoa ovat muuttujan poistaminen, arvojen luokittelu ja tunnisteiden poistaminen avokysymysten vastauksista.

Muuttuja on järkevää poistaa aineistosta kokonaan silloin, kun siinä on paljon tunnisteita. Käytännössä muuttujan käsittelemiseen vaikuttaa se, millaisia tunnisteita se sisältää. Suorat tunnisteet ja vahvat epäsuorat tunnisteet, siis esimerkiksi nimet, henkilötunnukset tai auton rekisterinumerot tulee poistaa kokonaan. Epäsuorien tunnisteiden, kuten vastaajan iän, asuinkunnan ja sukupuolen kohdalla on arvioitava tapauskohtaisesti kannattaako ne poistaa tai luokitella vai onko ne turvallista jättää aineistoon.

Arvojen luokittelemiseen on olemassa kaksi keskenään hieman erilaista mallia. Ensimmäisessä, perusluokittelumallissa vastaukset yhdistetään järjestäen luokiksi. Yleinen käytäntö on yhdistää esimerkiksi vastaajien iät viiden ikävuoden luokiksi tai työt ammattiryhmiksi.

Toinen yleinen luokittelumalli on arvojen harkinnanvarainen luokittelu. Se tarkoittaa, että vastauksista poistetaan tai karkeistetaan harvinaisia ääriarvoja. Jos esimerkiksi kyselyssä on mukana vain vähän iäkkäitä vastaajia, heidät voidaan yhdistää yhdeksi yli 50-vuotiaiden luokaksi.

Luokkia ei kannata yrittää keksiä itse, vaan apuna on hyvä käyttää Tilastokeskuksen vakiintuneita luokittelumalleja. Tilastokeskuksen luokitukset on suunniteltu huolella sellaisiksi, että ne ovat mahdollisimman yleisiä, mutta kuitenkin informatiivisia.

Kolmas yleinen anonymisointikeino on tunnisteiden poistaminen avokysymysten vastauksista. Tämä on tarpeen, jos tutkittavat ovat antaneet esimerkiksi harrastuksia koskeviin avokysymyksiin niin yksityiskohtaisia vastauksia, että heidät voi niiden perusteella tunnistaa.

Avokysymysten vastauksia ei yleensä tarvitse poistaa kokonaan, vaan niistä voi poimia yksittäisiä tunnisteellisia pätkiä, ja muuttaa ne anonyymimpään muotoon. Jos vastaaja esimerkiksi mainitsee asuvansa Humppilassa, vaikka vastaajan kotikunta ei saisi selvitä aineistosta, kunnan nimen voi muuttaa Tilastokeskuksen luokituksiin perustuen muotoon [maaseutumainen kunta Kanta-Hämeessä].

Aineistosta on pystyttävä erottamaan, mitkä kohdat avovastauksista on anonymisoitu, eli tekstiin tehdyt muutokset kannattaa merkitä selkeästi ja järjestelmällisesti. Hyvä ratkaisu on esimerkiksi hakasulkeiden käyttäminen.

Tarkempia esimerkkejä siitä, miten Haanpää on käytännössä anonymisoinut erilaisia aineistoja voi käydä katsomassa seminaarin tapahtumasivulta löytyvistä esitysmateriaaleista. Vastaava kvalitatiivisten aineistojen anonymisointia käsittelevä blogikirjoitus julkaistaan Tietoarkistoblogissa myöhemmin tämän kuun aikana.

Lisätietoja
» Seminaarin sivulta löydät esitysdiat ja myöhemmin myös videot
» Aineistonhallinnan käsikirja: Tunnisteellisuus ja anonymisointi

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Näin anonymisoit kvantitatiiviset aineistosi

Ihmistieteiden tutkimusaineistot sisältävät aina enemmän tai vähemmän henkilötietoja. Henkilötietolain mukaan tunnisteellista aineistoa voi käyttää tutkimukseen, jos se on välttämätöntä, tarkoituksenmukaista, suunniteltua ja asiallisesti perusteltua. Tutkittavia koskevat tiedot eivät kuitenkaan missään tapauksessa saa vuotaa ulkopuolisille.

Viimeistään aineiston arkistointivaiheessa tunnisteet täytyy hävittää, jos tunnisteellisen aineiston arkistoimiseen ei ole erillistä Kansallisarkistolta anottua lupaa. Useimmat suomalaiset yliopistot ja tutkimusrahoittajat kannustavat aineistojen arkistoimiseen ja avaamiseen, eli anonymisointiosaaminen alkaa kuulua jokaisen tutkijan perustaitoihin.

Anonymisointikoulutukselle onkin Suomessa selvästi tarvetta, sillä Tietoarkiston ja ATT-hankkeen huhtikuussa Tampereella järjestämään Tutkimusaineistojen anonymisointi -seminaariin ilmoittautui lähes 350 osallistujaa ympäri maata.

Seminaarin esitysdioihin voi tutustua verkossa tapahtuman sivuilla, ja myös esityksistä kuvatut videot ovat tulossa julki samalle sivulle.

Tässä blogikirjoituksessa käyn seminaariesitysten perusteella läpi määrällisen aineiston anonymisointikäytäntöjä. Kun oman aineiston anonymisointi tulee ajankohtaiseksi, yksityiskohtaisempia ohjeita kannattaa käydä lukemassa vielä Tietoarkiston Aineistonhallinnan käsikirjasta.

Tietoarkistossa toivomme, että meille toimitettavat aineistot ovat valmiiksi anonymisoituja. Tarkastamme kuitenkin kaikki aineistot, ja käsittelemme niitä usein vielä jonkin verran niin, että Ailassa julkaistavat aineistot ovat varmasti täysin anonyymeja.

Kaikki elävää ihmistä koskevat tiedot ovat henkilötietoja

Aivan ensimmäiseksi tunnisteellista aineistoa anonymisoivan tutkijan täytyy ymmärtää, mitkä tiedot ovat henkilötietoja. Tätä aihetta avasi seminaarissa Tietoarkiston kehittämispäällikkö Arja Kuula-Luumi.

Tiivistetysti voi sanoa, että henkilötiedoiksi lasketaan kaikki elävää ihmistä koskevat tiedot. Sellainen voi olla esimerkiksi tutkittavan tai tämän läheisen ominaisuus, tutkittavan elinolosuhteita koskeva maininta tai vaikkapa tutkittavan mielipide.

Tämä ei onneksi kuitenkaan tarkoita, että esimerkiksi kaikki tutkittavan esittämät mielipiteet pitäisi poistaa aineistosta ennen kuin sen voi arkistoida. Tutkittavia koskevat tiedot lasketaan henkilötiedoksi vain silloin, kun yksilö on tunnistettavissa aineistosta. Aineiston anonymisoiminen tarkoittaakin sitä, että aineistosta poistetaan, luokitellaan tai muutetaan sellaiset tiedot, joiden avulla yksilön voi tunnistaa ja esimerkiksi aineistossa esitetyt mielipiteet yhdistää tietyn yksilön mielipiteiksi.

EU:n uuden tietosuoja-asetuksen mukaan henkilö on tunnistettavissa silloin, kun hänet voidaan tunnistaa suoraan tai epäsuorasti tunnistetietojen perusteella. Käytännössä suorat tunnistetiedot tarkoittavat tietoja, jotka riittävät yksin henkilön tunnistamiseen, vaikka hänestä ei kerrottaisi mitään muuta. Suoria tunnisteita ovat siis esimerkiksi koko nimi ja henkilötunnus.

Epäsuorat tunnisteet on jaoteltu vahvoihin epäsuoriin tunnisteisiin ja epäsuoriin tunnisteisiin. Vahvat epäsuorat tunnisteet eivät viittaa suoraan henkilöön, mutta niiden avulla voi helposti selvittää, kenestä henkilöstä on kyse. Vahva epäsuora tunniste voisi siis olla esimerkiksi auton rekisterinumero, jonka avulla on mahdollista suoraan selvittää auton omistaja.

Epäsuorat tunnisteet eivät yksin paljasta henkilöllisyyttä, mutta saattavat muihin tietoihin yhdistettynä mahdollistaa henkilön tunnistamisen. Tällaisia ovat esimerkiksi ikä, sukupuoli ja asuinpaikka sekä lukuisat muut fyysiset, psyykkiset, taloudelliset ja sosiaaliset tekijät.

Tunnistettavuutta miettiessä on olennaista ottaa huomioon myös se, mitä tietoja henkilöstä on saatavilla muualta kuin omasta aineistosta. Moni paljastaa itsestään paljon sosiaalisessa mediassa. Lisäksi esimerkiksi julkiset asiakirjat ja järjestöjen verkkosivut voivat tarjota monenlaisia tietoja.

Tietoarkiston kehittämispäällikkö Arja Kuula-Luumi piti seminaarissa esityksen aiheesta Tietosuoja tutkimuksessa. (Kuva: Kaisa Järvelä).

Anonymisointi on aina peruuttamaton

Yksi olennainen asia on ymmärtää, että aineiston pseudonymisointi ja anonymisointi ovat eri asioita. Jos tutkijat analysoivat aineistoa ilman tunnisteita, mutta säilyttävät tunnistetiedot ja koodiavaimen itsellään, aineisto ei ole anonyymi vaan pseudonyymi, eikä sitä voi esimerkiksi arkistoida sellaisenaan jatkokäyttöä varten.

Lain mukaan aineisto on anonyymi vasta silloin, kun siitä ei voi tunnistaa yksittäisiä tutkittavia millään kohtuullisesti toteutettavissa olevalla keinolla. Tietosuoja-asetuksen mukaan kohtuullisuutta tulee arvioida tunnistamisesta aiheutuvien kulujen, tunnistamiseen tarvittavan ajan ja käytettävissä olevan teknologian näkökulmista.

EU:n tietosuojatyöryhmä neuvoo arvioimaan aineiston tunnisteellisuutta kolmesta näkökulmasta:

  1. Onko yksilö edelleen mahdollista erottaa joukosta?
  2. Onko tietojen yhdistäminen yksilöön mahdollista?
    ja
  3. Voidaanko yksilöä koskevat tiedot päätellä?

Tietoarkiston tutkimusamanuenssi Eliisa Haanpää konkretisoi kysymyksiä vielä kolmella esimerkillä:

  1. Pystyykö yksittäisen henkilön tunnistamaan vastauksista, kun on tiedossa, että hän on vastannut kyselyyn?
  2. Pystyykö vastaukset yhdistämään henkilöön, vaikka ei tiedä, onko hän vastannut kyselyyn?
  3. Paljastaako esimerkiksi tietyn paikallisradion kuuntelemisen kaltainen yksityiskohta, että henkilö asuu tietyssä kunnassa?

Anonyymin aineiston määritelmän kannalta on olennaista myös se, että anonymisointitoimien täytyy olla peruuttamattomia. Kertaalleen anonymisoitu aineisto ei siis saa olla palautettavissa tunnisteelliseen muotoon.

Tietoarkiston tutkimusamanuenssi Eliisa Haanpää kertoi kvantitatiivisten aineistojen anonymisoinnista sekä teoreettisella tasolla että konkreettisten aineistoesimerkkien avulla. (Kuva: Kaisa Järvelä).

Anonymisointi alkaa tarkasta suunnittelusta

Eliisa Haanpäällä on vuosien kokemus erilaisten kvantitatiivisten aineistojen anonymisoimisesta. Hän korostikin seminaariesityksessään, että kaikkiin aineistoihin suoraan sovellettavaa anonymisointimallia ei ole olemassa, vaan yksittäiset toimet täytyy viime kädessä suunnitella kunkin aineiston ehdoilla. Tutkijan on siis punnittava aina erikseen, mitkä käytännöt toimivat parhaiten juuri oman aineiston kohdalla. Oman aineiston anonymisointia suunnitellessa kannatta pohtia esimerkiksi, kuinka arkaluontoinen aineisto on, ja mitä aihetta se käsittelee, eli mitkä tiedot on olennaista säilyttää, jotta aineisto pysyy ymmärrettävänä.

Jotta anonymisoiminen sujuisi alusta loppuun asti loogisesti, Haanpää neuvoi laatimaan kirjallisen anonymisointisuunnitelman, jonka mukaisesti johdonmukainen anonymisointi on helppo toteuttaa. Hyvä perusmalli on anonymisoida ensin taustamuuttujat, seuraavaksi mahdolliset avokysymykset ja lopuksi vielä muita tunnisteita sisältävät muuttujat sekä mahdolliset muut aineistoon liittyvät lisämateriaalit.

Kolme yleisintä tapaa anonymisoida kvantitatiivista aineistoa

Määrällisen aineiston kohdalla kolme yleisintä anonymisointikeinoa ovat muuttujan poistaminen, arvojen luokittelu ja tunnisteiden poistaminen avokysymysten vastauksista.

Muuttuja on järkevää poistaa aineistosta kokonaan silloin, kun siinä on paljon tunnisteita. Käytännössä muuttujan käsittelemiseen vaikuttaa se, millaisia tunnisteita se sisältää. Suorat tunnisteet ja vahvat epäsuorat tunnisteet, siis esimerkiksi nimet, henkilötunnukset tai auton rekisterinumerot tulee poistaa kokonaan. Epäsuorien tunnisteiden, kuten vastaajan iän, asuinkunnan ja sukupuolen kohdalla on arvioitava tapauskohtaisesti kannattaako ne poistaa tai luokitella vai onko ne turvallista jättää aineistoon.

Arvojen luokittelemiseen on olemassa kaksi keskenään hieman erilaista mallia. Ensimmäisessä, perusluokittelumallissa vastaukset yhdistetään järjestäen luokiksi. Yleinen käytäntö on yhdistää esimerkiksi vastaajien iät viiden ikävuoden luokiksi tai työt ammattiryhmiksi.

Toinen yleinen luokittelumalli on arvojen harkinnanvarainen luokittelu. Se tarkoittaa, että vastauksista poistetaan tai karkeistetaan harvinaisia ääriarvoja. Jos esimerkiksi kyselyssä on mukana vain vähän iäkkäitä vastaajia, heidät voidaan yhdistää yhdeksi yli 50-vuotiaiden luokaksi.

Luokkia ei kannata yrittää keksiä itse, vaan apuna on hyvä käyttää Tilastokeskuksen vakiintuneita luokittelumalleja. Tilastokeskuksen luokitukset on suunniteltu huolella sellaisiksi, että ne ovat mahdollisimman yleisiä, mutta kuitenkin informatiivisia.

Kolmas yleinen anonymisointikeino on tunnisteiden poistaminen avokysymysten vastauksista. Tämä on tarpeen, jos tutkittavat ovat antaneet esimerkiksi harrastuksia koskeviin avokysymyksiin niin yksityiskohtaisia vastauksia, että heidät voi niiden perusteella tunnistaa.

Avokysymysten vastauksia ei yleensä tarvitse poistaa kokonaan, vaan niistä voi poimia yksittäisiä tunnisteellisia pätkiä, ja muuttaa ne anonyymimpään muotoon. Jos vastaaja esimerkiksi mainitsee asuvansa Humppilassa, vaikka vastaajan kotikunta ei saisi selvitä aineistosta, kunnan nimen voi muuttaa Tilastokeskuksen luokituksiin perustuen muotoon [maaseutumainen kunta Kanta-Hämeessä].

Aineistosta on pystyttävä erottamaan, mitkä kohdat avovastauksista on anonymisoitu, eli tekstiin tehdyt muutokset kannattaa merkitä selkeästi ja järjestelmällisesti. Hyvä ratkaisu on esimerkiksi hakasulkeiden käyttäminen.

Tarkempia esimerkkejä siitä, miten Haanpää on käytännössä anonymisoinut erilaisia aineistoja voi käydä katsomassa seminaarin tapahtumasivulta löytyvistä esitysmateriaaleista. Vastaava kvalitatiivisten aineistojen anonymisointia käsittelevä blogikirjoitus julkaistaan Tietoarkistoblogissa myöhemmin tämän kuun aikana.

Lisätietoja
» Seminaarin sivulta löydät esitysdiat ja myöhemmin myös videot
» Aineistonhallinnan käsikirja: Tunnisteellisuus ja anonymisointi

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Miten aineistot arkistoituvat Tietoarkistoon?

Kun tutkija tai tutkijaryhmä on lähettänyt tutkimusaineistonsa Tietoarkistoon arkistoitavaksi, varsinainen aineiston käsittelyprosessi vasta alkaa. Arkistoitavaksi toimitettu aineisto kulkee aina aineistonkäsittelijän sormien läpi ennen kuin se julkaistaan palveluportaali Ailassa jatkokäyttöä varten.

Erilaiset tietokoneohjelmat helpottavat, nopeuttavat ja virtaviivaistavat aineiston käsittelyä, mutta loppujen lopuksi aineiston käsittelyyn liittyvän työn tekevät ihmiset eivätkä koneet. Näin pystymme varmistamaan, että mitä moninaisimmat aineistot ovat tulevaisuudessakin tutkimusmaailman käytettävissä yhdenmukaiseksi suunniteltujen ohjeidemme mukaisesti.

Aineistonkäsittelijäntyö on Tietoarkiston ydintyötä, jota ilman Ailassa ei olisi jatkokäyttökelpoisia aineistoja. Tietoarkiston pitkäaikaiset tutkimusapulaiset Eliisa Haanpää (kvantitatiivisten aineistojen käsittely) ja Annika Sallinen (kvalitatiivisten aineistojen käsittely) kertovat, minkälaista aineistonkäsittelijän työ on, ja minkälaisen prosessin aineistot käyvät läpi ennen kuin ne ilmestyvät Ailaan.

Kyselytutkimukset arkistoituvat muuttuja muuttujalta

Eliisa

Aloitan kvantitatiivisen aineiston käsittelyn aina tutustumalla aineistoon, siihen sisältyviin muuttujiin sekä aineistoon liittyvään tutkimusraporttiin ja lisämateriaaliin. Avattuani datatiedoston, tarkastan ensimmäisenä kaikki muuttujat ja varmistan, että käsiteltävä data vastaa kyselylomaketta. Nimeän muuttujat kyselylomakkeen mukaisesti, mihin perustuen määrittelen myös muuttujien selitteet.

Tämän jälkeen arvioin aineiston tunnisteellisuutta ja arkaluontoisuutta, jonka jälkeen teen tarvittavat toimet vastaajien anonymiteetin säilyttämiseksi. Tässä vaiheessa apunani ovat usein Tilastokeskuksen erilaiset alue-, toimiala- ja tieteenalaluokitukset. Lopuksi vielä varsinaista dataa käsitellessäni tarkistan muuttujien frekvenssit suhteessa tutkimusraporttiin.

Käsittelen dataa SPSS:n syntaksin avulla. Numeroista ja loogisesta päättelystä pitävänä ihmisenä syntaksin työstäminen on mielestäni palkitsevaa puuhaa. Syntaksin tekemiseen sisältyy monia yksin ja yhdessä kollegojen kanssa pohdittavia haasteita, useita onnistumisen kokemuksia, kun komennot toimivat toivomallani tavalla ja tietysti työni kannalta tärkein tuotos, jatkokäyttöön valmistuva datatiedosto.

Varsinaisen datan valmistuttua siirryn aineiston kuvailuun, johon kuuluu muuttujien kuvailu sekä aineiston sisällöllinen kuvailu. Tietopankkina sisällöllistä kuvailua tehdessäni käytän tutkimusraporttia ja sieltä löytyviä aineistonkeruuseen liittyviä tietoja. Aineiston (eli datan sekä aineiston kuvailun) käsittelyn valmistuttua kirjaan tietokantaamme ”data valmis”-komennon, jonka jälkeen aineisto julkaistaan palveluportaali Ailassa.

Aineistoja käsitellessäni olen oppinut paljon paitsi tilastollisista menetelmistä ja kyselytutkimuksista, myös eri tieteenalojen tutkimusteemoista. Olen tähän mennessä käsitellyt aineistoja liittyen muun muassa lasten ja nuorten mediakäyttäytymiseen, lasten uhrikokemuksiin, suomalaisten hyvinvointiin, eduskuntavaaleihin, asumiseen ja kaupunkikuvaan, opiskeluun sekä vapaaehtoistoimintaan.

Aineiston käsittelyn eri vaiheissa olen yhteydessä yhteen tai useampaan tutkijaan, mikäli tarvitsen aineistosta lisätietoja. Yhteistyö sekä tutkijoiden suuntaan että kollegoiden kanssa on erittäin merkittävässä osassa työskentelyssäni aineistojen parissa.

Kvalitatiivisessa aineistossa tallentuu aina pala aikaa

Annika

Kvalitatiivisten aineistojen arkistointi poikkeaa kvantitatiivisten aineistojen arkistoinnista sikäli, ettei siinä tarvitse pohtia syntaksin komentoja, mutta lukulihaksia työ vaatii senkin edestä. Luemme tänne toimitetuista haastatteluista ja kirjoituksista jokaisen sivun. Tämä täytyy tehdä huolellisesti, että ihmisten tunnistetietoja ei jää luovutettavaan aineistoon. Tekstimassaa saattaa olla yhdessä aineistossa jopa lähes tuhat sivua.

Kvalitatiivisten aineistojen tarkastaminen on siis välillä uppoutumista lukemiseen, mutta työ sisältää myös järjestelmällistä tiedon poimimista sekä järjestelyä ja tietokoneohjelmien kanssa kikkailua – mikä on aina oma taiteenlajinsa.

Dokumentit nimetään järjestelmällisesti. Aineistojen taustatiedot järjestetään yhdenmukaisiksi ja niistä tehdään taustatietohakemisto jatkokäyttäjälle. Työssä käytetään lukuisia ohjelmia, joista tekninen palvelu keskustelee mm. termeillä DDI, HTML ja Python – minä keskityn opettelemaan konkreettisen käytön.

Koko arkistointiprosessin ajan teen muistiinpanoja eteen tulleista ongelmakohdista, niiden ratkaisuista ja vielä tehtävistä vaiheista. Listalla voi olla selvitettävänä, mitä tutkijan kryptinen merkintä muistiinpanoissa tarkoittaa, mihin teollisuusalaan karkeistetaan Suomussalmen Hallan lihajalostamo, sisältävätkö dokumentit piilodataa ja saisiko 400 erillisen tiedoston nimet muutettua automaattisesti toiseen muotoon, jotta kaikkea ei tarvitsisi tehdä käsin.

Kaikkeen löytyy yleensä vastaus, joko kollegoilta, tutkijoilta tai yhdeltä tärkeältä työkaverilta – internetistä. Netti on ollut oiva apu esimerkiksi tilanteessa, jossa oman pään kapasiteetti keksiä suomalaista naisten nimiä on tullut tiensä päätökseen.

Minun mielestäni kvalitatiivisten aineistojen arkistointi on erittäin mielenkiintoista, sillä tutkimusaineistoon perehtyminen on aina oma matkansa jonkin tieteenalan ja alueen tutkimuksen pariin. Aineistoja läpi kahlatessa oppii uusia käsitteitä ja ymmärtää taas elämää eri näkökulmista ehkä hitusen paremmin. Tutkittavat kertovat tutkijalle elämästään asioita, joita eivät muille välttämättä kerro. Työ sisältää myös varjopuolia. Koska kaikki työvaiheet vaativat tarkkuutta ja keskittymistä, silmien ja lukuhermojen ajoittaiselta väsymisiltä ei voi välttyä.

Arkistoinnin loppusuoralla kirjoitetaan vielä nettisivuille tuleva kuvaus aineistosta ja hiotaan aineiston yksityiskohtia. Esimerkiksi taustatietoihin tulee helposti virheitä. Minun tulee myös tarkastaa, että aineistoon on liitetty mukaan tutkimuskutsut, haastattelukysymykset ja muut tarvittavat dokumentit. Lisäksi haastattelukysymykset tulee tallentaa Aila-hakuun. Julkaisun jälkeen menen vielä nettisivuille katsomaan, että aineisto näyttää siellä siltä, miltä sen pitääkin!

Lisätietoa:
» Palveluportaali Aila

Annika Sallinen, tutkimusapulainen, etunimi.sukunimi [at] uta.fi
Eliisa Haanpää, tutkimusapulainen, etunimi.sukunimi [at] uta.fi

Miten aineistot arkistoituvat Tietoarkistoon?

Kun tutkija tai tutkijaryhmä on lähettänyt tutkimusaineistonsa Tietoarkistoon arkistoitavaksi, varsinainen aineiston käsittelyprosessi vasta alkaa. Arkistoitavaksi toimitettu aineisto kulkee aina aineistonkäsittelijän sormien läpi ennen kuin se julkaistaan palveluportaali Ailassa jatkokäyttöä varten.

Erilaiset tietokoneohjelmat helpottavat, nopeuttavat ja virtaviivaistavat aineiston käsittelyä, mutta loppujen lopuksi aineiston käsittelyyn liittyvän työn tekevät ihmiset eivätkä koneet. Näin pystymme varmistamaan, että mitä moninaisimmat aineistot ovat tulevaisuudessakin tutkimusmaailman käytettävissä yhdenmukaiseksi suunniteltujen ohjeidemme mukaisesti.

Aineistonkäsittelijäntyö on Tietoarkiston ydintyötä, jota ilman Ailassa ei olisi jatkokäyttökelpoisia aineistoja. Tietoarkiston pitkäaikaiset tutkimusapulaiset Eliisa Haanpää (kvantitatiivisten aineistojen käsittely) ja Annika Sallinen (kvalitatiivisten aineistojen käsittely) kertovat, minkälaista aineistonkäsittelijän työ on, ja minkälaisen prosessin aineistot käyvät läpi ennen kuin ne ilmestyvät Ailaan.

Kyselytutkimukset arkistoituvat muuttuja muuttujalta

Eliisa

Aloitan kvantitatiivisen aineiston käsittelyn aina tutustumalla aineistoon, siihen sisältyviin muuttujiin sekä aineistoon liittyvään tutkimusraporttiin ja lisämateriaaliin. Avattuani datatiedoston, tarkastan ensimmäisenä kaikki muuttujat ja varmistan, että käsiteltävä data vastaa kyselylomaketta. Nimeän muuttujat kyselylomakkeen mukaisesti, mihin perustuen määrittelen myös muuttujien selitteet.

Tämän jälkeen arvioin aineiston tunnisteellisuutta ja arkaluontoisuutta, jonka jälkeen teen tarvittavat toimet vastaajien anonymiteetin säilyttämiseksi. Tässä vaiheessa apunani ovat usein Tilastokeskuksen erilaiset alue-, toimiala- ja tieteenalaluokitukset. Lopuksi vielä varsinaista dataa käsitellessäni tarkistan muuttujien frekvenssit suhteessa tutkimusraporttiin.

Käsittelen dataa SPSS:n syntaksin avulla. Numeroista ja loogisesta päättelystä pitävänä ihmisenä syntaksin työstäminen on mielestäni palkitsevaa puuhaa. Syntaksin tekemiseen sisältyy monia yksin ja yhdessä kollegojen kanssa pohdittavia haasteita, useita onnistumisen kokemuksia, kun komennot toimivat toivomallani tavalla ja tietysti työni kannalta tärkein tuotos, jatkokäyttöön valmistuva datatiedosto.

Varsinaisen datan valmistuttua siirryn aineiston kuvailuun, johon kuuluu muuttujien kuvailu sekä aineiston sisällöllinen kuvailu. Tietopankkina sisällöllistä kuvailua tehdessäni käytän tutkimusraporttia ja sieltä löytyviä aineistonkeruuseen liittyviä tietoja. Aineiston (eli datan sekä aineiston kuvailun) käsittelyn valmistuttua kirjaan tietokantaamme ”data valmis”-komennon, jonka jälkeen aineisto julkaistaan palveluportaali Ailassa.

Aineistoja käsitellessäni olen oppinut paljon paitsi tilastollisista menetelmistä ja kyselytutkimuksista, myös eri tieteenalojen tutkimusteemoista. Olen tähän mennessä käsitellyt aineistoja liittyen muun muassa lasten ja nuorten mediakäyttäytymiseen, lasten uhrikokemuksiin, suomalaisten hyvinvointiin, eduskuntavaaleihin, asumiseen ja kaupunkikuvaan, opiskeluun sekä vapaaehtoistoimintaan.

Aineiston käsittelyn eri vaiheissa olen yhteydessä yhteen tai useampaan tutkijaan, mikäli tarvitsen aineistosta lisätietoja. Yhteistyö sekä tutkijoiden suuntaan että kollegoiden kanssa on erittäin merkittävässä osassa työskentelyssäni aineistojen parissa.

Kvalitatiivisessa aineistossa tallentuu aina pala aikaa

Annika

Kvalitatiivisten aineistojen arkistointi poikkeaa kvantitatiivisten aineistojen arkistoinnista sikäli, ettei siinä tarvitse pohtia syntaksin komentoja, mutta lukulihaksia työ vaatii senkin edestä. Luemme tänne toimitetuista haastatteluista ja kirjoituksista jokaisen sivun. Tämä täytyy tehdä huolellisesti, että ihmisten tunnistetietoja ei jää luovutettavaan aineistoon. Tekstimassaa saattaa olla yhdessä aineistossa jopa lähes tuhat sivua.

Kvalitatiivisten aineistojen tarkastaminen on siis välillä uppoutumista lukemiseen, mutta työ sisältää myös järjestelmällistä tiedon poimimista sekä järjestelyä ja tietokoneohjelmien kanssa kikkailua – mikä on aina oma taiteenlajinsa.

Dokumentit nimetään järjestelmällisesti. Aineistojen taustatiedot järjestetään yhdenmukaisiksi ja niistä tehdään taustatietohakemisto jatkokäyttäjälle. Työssä käytetään lukuisia ohjelmia, joista tekninen palvelu keskustelee mm. termeillä DDI, HTML ja Python – minä keskityn opettelemaan konkreettisen käytön.

Koko arkistointiprosessin ajan teen muistiinpanoja eteen tulleista ongelmakohdista, niiden ratkaisuista ja vielä tehtävistä vaiheista. Listalla voi olla selvitettävänä, mitä tutkijan kryptinen merkintä muistiinpanoissa tarkoittaa, mihin teollisuusalaan karkeistetaan Suomussalmen Hallan lihajalostamo, sisältävätkö dokumentit piilodataa ja saisiko 400 erillisen tiedoston nimet muutettua automaattisesti toiseen muotoon, jotta kaikkea ei tarvitsisi tehdä käsin.

Kaikkeen löytyy yleensä vastaus, joko kollegoilta, tutkijoilta tai yhdeltä tärkeältä työkaverilta – internetistä. Netti on ollut oiva apu esimerkiksi tilanteessa, jossa oman pään kapasiteetti keksiä suomalaista naisten nimiä on tullut tiensä päätökseen.

Minun mielestäni kvalitatiivisten aineistojen arkistointi on erittäin mielenkiintoista, sillä tutkimusaineistoon perehtyminen on aina oma matkansa jonkin tieteenalan ja alueen tutkimuksen pariin. Aineistoja läpi kahlatessa oppii uusia käsitteitä ja ymmärtää taas elämää eri näkökulmista ehkä hitusen paremmin. Tutkittavat kertovat tutkijalle elämästään asioita, joita eivät muille välttämättä kerro. Työ sisältää myös varjopuolia. Koska kaikki työvaiheet vaativat tarkkuutta ja keskittymistä, silmien ja lukuhermojen ajoittaiselta väsymisiltä ei voi välttyä.

Arkistoinnin loppusuoralla kirjoitetaan vielä nettisivuille tuleva kuvaus aineistosta ja hiotaan aineiston yksityiskohtia. Esimerkiksi taustatietoihin tulee helposti virheitä. Minun tulee myös tarkastaa, että aineistoon on liitetty mukaan tutkimuskutsut, haastattelukysymykset ja muut tarvittavat dokumentit. Lisäksi haastattelukysymykset tulee tallentaa Aila-hakuun. Julkaisun jälkeen menen vielä nettisivuille katsomaan, että aineisto näyttää siellä siltä, miltä sen pitääkin!

Lisätietoa:
» Palveluportaali Aila

Annika Sallinen, tutkimusapulainen, etunimi.sukunimi [at] uta.fi
Eliisa Haanpää, tutkimusapulainen, etunimi.sukunimi [at] uta.fi

Teekkarin näkemys aineistojen luokittelusta

Teksti käsittelee kvalitatiivisen ja kvantitatiivisen datan rajanvetoa teknis-luonnontieteelliseltä alalta tietoarkistoon siirtyneen henkilön näkökulmasta. Kirjoittaja Jani Hautamäki on toiminut aiemmin paikannus- ja navigointitekniikoiden tutkimusryhmässä.

Kvalitatiivista ja kvantitatiivista dataa

Yhteiskuntatieteissä aineistoja luokitellaan kvalitatiivisiksi ja kvantitatiivisiksi. Määrälliset aineistot, kuten surveyt, luokitellaan kvantiksi. Vastaavasti laadulliset aineistot, kuten haastattelut, luokitellaan kvaliksi. Luokittelu vaikuttaa selkeältä ja dikotomiselta, mutta onnistuuko sen soveltaminen aina yhtä helposti?

Fysikaaliset mittaukset ovat yksi aineistotyyppi, johon yhteiskuntatieteissä ei törmää, mutta joka on teknisillä aloilla arkipäiväistä. Tällaista dataa syntyy, kun mitataan fysikaalista suuretta, esimerkiksi kulmanopeutta tai lämpötilaa. Vaikka fysikaalinen mittausdata ei ole yhteiskuntatieteille kovin tuttua, onnistuu sen luokittelu vaivatta. Fysikaaliset mittaukset ovat epäilyksettä kvantitatiivista dataa.

Joidenkin aineistojen luokittelu suoralta kädeltä yhteen kategoriaan ei ole yhtä helppoa. Esimerkiksi runsaasti avokysymyksiä sisältävän surveydatan luokittelisi mieluusti molemmiksi, sekä kvanti- että kvalidataksi. Toinen hankalasti luokiteltava aineistotyyppi on kartat. Mikä tekee kartoista niin hankalia luokittelun kannalta?

Varhaiset kartat tehtiin käsityönä. Ne esittivät pääasiassa kartantekijän subjektiivista kokemusta, näkemystä ja uskomusta ympäröivästä maailmasta. Subjektiivisuutensa takia varhaiset kartat voidaan helposti luokitella kvalitatiiviseksi dataksi. Nykyaikaisten karttojen luonti sen sijaan perustuu mittaamiselle (toinen merkitys survey-sanalle).

Suosittu digitaalisen paikkatiedon tallennusformaatti muodostaa karttakuvan käyttäen yksittäisiä pisteitä, murtoviivoja ja monikulmioita. Murtoviivat ja monikulmiot rakennetaan yhdistämällä yksittäisiä pisteitä suorilla viivoilla. Murtoviivoilla voidaan esittää vaikka jokia ja teitä, ja monikulmioilla voidaan esittää esimerkiksi järviä, peltoja ja taloja.

Nykyaikaisen karttadatan luokittelussa ongelmaksi muodostuu, että data näyttää koostuvan osaksi fysikaalisesta mittausdatasta (yksittäiset pisteet), ja osaksi ihmisten subjektiivisesti päättämistä piirteistä kuten mitkä pisteet yhteen liitettyinä muodostavat järven, tien tai talon. Onko kyseessä kvali vai kvanti? Vai olisiko tällainen karttadata jotenkin sama asia kuin runsaasti avokysymyksiä sisältävä surveydata eli sekä–että?

Mihin ”datalla” viitataan?

Kun puhumme, että data on kvalitatiivista tai kvantitatiivista, mitä oikein tarkoitamme datalla? Mihin tarkalleen ottaen viittaamme?

Yhteiskuntatieteellinen tietoarkisto on muistiorganisaatio, joka arkistoi pelkästään digitaalista aineistoa. Tämä tarkoittaa käytännössä sitä, että mitä ikinä aineisto onkaan alun perin sisältänyt, suodattuu tietoarkistoon alkuperäisestä aineistosta vain bitteinä tallennettavissa oleva osa. Esimerkiksi tyypilistä kvaliaineistoa edustava avoin haastattelu arkistoidaan tavallisesti äänitallenteena tai sen pohjalta tehtynä litteraationa.

Aineiston jatkokäyttäjän ja toisaalta myös tietoarkiston näkökulmasta haastattelu on lähes yhtä kuin siitä luotu digitaalinen tallenne eli teksti-ja äänitiedosto. Nämä kaksi, itse haastattelu ja siitä syntynyt digitaalinen muistijälki, eivät tietenkään ole samoja asioita. Niiden välinen ero olisikin hyvä palauttaa mieleen aina silloin tällöin, kun digitaalisia aineistoja käsittelee. Helppoa se ei välttämättä ole, ainakaan aloittelijalle.

Tekniseltä alalta tulleena on saanut henkilökohtaisesti kokea, kuinka sujuvasti ja huomaamattomasti mieli käsittelee näitä kahta lähtökohtaisesti enemmän tai vähemmän samoina, toisiinsa kietoutuneina ja sekoittuneina asioina. Niiden erottaminen toisistaan on vaatinut eron oivaltamista ja aktiivista poisoppimista entisistä ajattelutavoista.

Mihin datalla oikein viitataan? Yllä eroteltiin toisistaan itse tapahtuma ja siitä syntynyt digitaalinen muistijälki. Erottelun seurauksena tarjolla on nyt ainakin kaksi selvää vaihtoehtoa sille, mihin datalla viitataan. Oma suosikkini vaihtoehdoista on, että datalla viitataan digitaaliseen muistijälkeen eli tiedostoihin ja bitteihin. Se on vaihtoehdoista konkreettisempi. Luultavasti samasta syystä se myös tuntuu luonnollisemmalta vaihtoehdolta.

Kvalitatiivinen data = fysikaalinen mittausdata

Tehty valinta johtaa radikaalilta tuntuvaan väittämään, että tyypillinen kvalidata eli digitaaliset ääni- ja kuvatallenteet ovat oikeastaan luonnontieteiden fysikaalista mittausdataa. Kuinka tähän väittämään on päädytty?

Tarkastellaan dataa suurennuslasilla ja selvitetään, mistä datan yksittäiset tavut ja tavujen bitit tulevat. Digitaalisen tallenteen bitit syntyvät karkeasti ottaen kaksivaiheisen prosessin tuloksena. Ensimmäisessä vaiheessa on fysikaalista suuretta aistiva anturi, joka muuttaa mittauksen sähköjännitteeksi tai -virraksi. Toisessa vaiheessa on muunnin, joka likimääräistää jännitteen tai virran digitaaliseksi arvoksi, esimerkiksi kokonaisluvuksi välille 0–65535.

Kaikki digitaaliset tallenteet eivät suinkaan ole fysikaalista mittausdataa. Esimerkiksi sävellysohjelmalla luodut musiikkikappaleet tai suunnitteluohjelmalla piirretyt kuvat ovat digitaalisena syntyneitä. Siitä huolimatta suurin osa laadullisista aineistoista on digitaalisia ääni-, kuva- ja videotallenteita eli fysikaalista mittausdataa. Vaikka data olisikin synteettistä ja digitaalisena syntynyttä, sillä on usein mielekäs fysikaalinen tulkinta, jota käytetään datan esittämiseen esimerkiksi äänenä tai kuvana. Tämä hämärtää kvali- ja kvantidatan rajanvetoa, ja aiheuttaa ihmettelyä, kuinka data tulisi luokitella.

Laadullisten aineistojen digitaaliset tallenteet vaikuttavat todella olevan fysikaalista mittausdataa. Voisiko tekniikan ja luonnontieteiden käyttämillä aineistoilla olla muutakin samaa yhteiskuntatieteiden laadullisten aineistojen kanssa kuin pelkkä aineistotyyppi? Vastaus on kyllä. Valmistautukaa kohtaamaan tuttu data uudesta, vieraasta ja ehkä yllättävästäkin näkökulmasta!

Sekä teknis-luonnontieteellisillä että yhteiskuntatieteellisillä aloilla käytetään samankaltaista, ellei peräti täysin samaa dataa. Digitoitua ääntä, kuvaa ja videokuvaa erilaisista asioista, ilmiöistä, tilanteista, ihmisistä ja paikoista. Seuraavat esimerkit näyttävät, kuinka samaa kvalidataa voidaan käyttää teknis-luonnontieteellisillä aloilla tarkoituksiin, joita ei ole ehkä aikaisemmin tullut ajatelleeksi.

Esimerkiksi turvakameran videokuva soveltuu yhtä hyvin käytettäväksi niin teknis-luonnontieteelliseen kuin yhteiskuntatieteelliseen tutkimukseen.

Samoin on erään tosi-tv-ohjelman laita.

Luultavasti sisätiloissa otetut valokuvatkin kelpaavat dataksi tieteenalaan katsomatta.

Tekniikan alalla kuvien ja äänen tarkastelu fysikaalisena mittausdatana ja kvantitatiivinen käsittely on arkipäivää. Asiaa opiskellaan tavallisesti signaalinkäsittelyn kursseilla. Jos teknis-luonnontieteellisen alan ihmiseltä kysyttäisiin, luokittelisiko hän käyttämänsä ääni- ja kuvadatan laadullisiksi, veikkaisin vastauksen olevan kielteinen. Laadullisia aineistotyyppejä edustavat ääni, kuva ja videokuva koetaan teknisillä aloilla kvantitatiivisena datana. Uskon, että datan kvantitatiivinen käsittely vahvistaa kokemusta myös itse datan kvantitatiivisuudesta. Miksei sama pätisi datalle kvalitatiivisenkin käsittelyn suhteen?

Tutkimusmenetelmä: datan ja informaation välinen prosessi

Näiden esimerkkien ja pohdintojen perusteella datassa itsessään ei vaikuta olevan mitään sellaisia sisäisiä ominaisuuksia, joihin nojautuen datan luokittelu joko kvantitatiiviseksi tai kvalitatiiviseksi kävisi mahdolliseksi. Luokittelu kvantiin ja kvaliin tapahtuu pikemminkin sen perusteella, mihin dataa aiotaan käyttää, mitä informaatiota siitä halutaan saada irti tai kuinka dataa kuvitellaan analysoitavan tulevaisuudessa. Se, että luokittelemme datan, kertoo oikeastaan enemmän itsestämme kuin datasta!

Datan sijasta luokitteluperiaatteen keskiöön näyttääkin nousevan datan ja siitä tuotetun informaation välinen prosessi, tutkimusmenetelmä.

Esimerkiksi surveydatasta hankitaan informaatiota käyttäen matemaattista koneistoa. Tilastomatematiikan menetelmät käsittelevät datamatriiseja siinä mielessä objektiivisesti, että prosessi koostuu ennalta määrätyistä askelista ja on toistettavissa. Samalla tavalla esimerkiksi kuvasta tapahtuva hahmontunnistus hyödyntää matemaattista koneistoa ja tuottaa samalla syötteellä aina saman lopputuloksen. Kummassakin tapauksessa data koetaan luultavasti enemmän kvantitatiivisena.

Jos ihminen tulkitsee dataa ja tuottaa siitä informaatiota, syntyy informaatio enemmän tai vähemmän subjektiivisella prosessilla. Tällöin data koetaan luultavasti mieluummin kvalitatiivisena. Ihmisen tuottama informaatio voi olla luonteeltaan sellaista, että se olisi voitu tuottaa myös matemaattisella koneistolla, esimerkiksi kasvojen tunnistaminen kuvasta. Vaikka ihminen tuottaa tällaista informaatiota, niin ihmisen keskeinen rooli prosessissa vaikuttaa siihen, että informaation luonteesta ja prosessin objektiivisuudesta huolimatta data koetaan mieluummin kvalitatiivsena.

Vaikuttaa siltä, että mitä subjektiivisempi matka datasta informaatioksi on, sitä kernaammin data luokitellaan kvalitatiiviseksi. Vastaavasti mitä objektiivisemmin informaatio voidaan tuottaa datasta, sitä helpommin data nähdään kvantitatiivisena. Vaikka luokittelu soveltuu tutkimusmenetelmiin paremmin kuin dataan, näyttää tutkimusmenetelmien luokittelu tarttuvan aiheettomasti itse dataan. Tartunta tapahtuu mahdollisten jatkokäyttäjien kustannuksella. Datan luokittelu yhteen kategoriaan saattaa rajata pois toisen kategorian menetelmiä hyödyntäviä jatkokäyttäjiä.

Koska datan luokittelu kertoo enemmän meistä ja menetelmistämme kuin itse datasta, ehkä siitä voidaan hiljalleen luopua. Lopulta meillä on kuitenkin vain yksi data, monta tulkintaa.

Jani Hautamäki,
järjestelmäsuunnittelija
etunimi.sukunimi [at] uta.fi

Teekkarin näkemys aineistojen luokittelusta

Teksti käsittelee kvalitatiivisen ja kvantitatiivisen datan rajanvetoa teknis-luonnontieteelliseltä alalta tietoarkistoon siirtyneen henkilön näkökulmasta. Kirjoittaja Jani Hautamäki on toiminut aiemmin paikannus- ja navigointitekniikoiden tutkimusryhmässä.

Kvalitatiivista ja kvantitatiivista dataa

Yhteiskuntatieteissä aineistoja luokitellaan kvalitatiivisiksi ja kvantitatiivisiksi. Määrälliset aineistot, kuten surveyt, luokitellaan kvantiksi. Vastaavasti laadulliset aineistot, kuten haastattelut, luokitellaan kvaliksi. Luokittelu vaikuttaa selkeältä ja dikotomiselta, mutta onnistuuko sen soveltaminen aina yhtä helposti?

Fysikaaliset mittaukset ovat yksi aineistotyyppi, johon yhteiskuntatieteissä ei törmää, mutta joka on teknisillä aloilla arkipäiväistä. Tällaista dataa syntyy, kun mitataan fysikaalista suuretta, esimerkiksi kulmanopeutta tai lämpötilaa. Vaikka fysikaalinen mittausdata ei ole yhteiskuntatieteille kovin tuttua, onnistuu sen luokittelu vaivatta. Fysikaaliset mittaukset ovat epäilyksettä kvantitatiivista dataa.

Joidenkin aineistojen luokittelu suoralta kädeltä yhteen kategoriaan ei ole yhtä helppoa. Esimerkiksi runsaasti avokysymyksiä sisältävän surveydatan luokittelisi mieluusti molemmiksi, sekä kvanti- että kvalidataksi. Toinen hankalasti luokiteltava aineistotyyppi on kartat. Mikä tekee kartoista niin hankalia luokittelun kannalta?

Varhaiset kartat tehtiin käsityönä. Ne esittivät pääasiassa kartantekijän subjektiivista kokemusta, näkemystä ja uskomusta ympäröivästä maailmasta. Subjektiivisuutensa takia varhaiset kartat voidaan helposti luokitella kvalitatiiviseksi dataksi. Nykyaikaisten karttojen luonti sen sijaan perustuu mittaamiselle (toinen merkitys survey-sanalle).

Suosittu digitaalisen paikkatiedon tallennusformaatti muodostaa karttakuvan käyttäen yksittäisiä pisteitä, murtoviivoja ja monikulmioita. Murtoviivat ja monikulmiot rakennetaan yhdistämällä yksittäisiä pisteitä suorilla viivoilla. Murtoviivoilla voidaan esittää vaikka jokia ja teitä, ja monikulmioilla voidaan esittää esimerkiksi järviä, peltoja ja taloja.

Nykyaikaisen karttadatan luokittelussa ongelmaksi muodostuu, että data näyttää koostuvan osaksi fysikaalisesta mittausdatasta (yksittäiset pisteet), ja osaksi ihmisten subjektiivisesti päättämistä piirteistä kuten mitkä pisteet yhteen liitettyinä muodostavat järven, tien tai talon. Onko kyseessä kvali vai kvanti? Vai olisiko tällainen karttadata jotenkin sama asia kuin runsaasti avokysymyksiä sisältävä surveydata eli sekä–että?

Mihin ”datalla” viitataan?

Kun puhumme, että data on kvalitatiivista tai kvantitatiivista, mitä oikein tarkoitamme datalla? Mihin tarkalleen ottaen viittaamme?

Yhteiskuntatieteellinen tietoarkisto on muistiorganisaatio, joka arkistoi pelkästään digitaalista aineistoa. Tämä tarkoittaa käytännössä sitä, että mitä ikinä aineisto onkaan alun perin sisältänyt, suodattuu tietoarkistoon alkuperäisestä aineistosta vain bitteinä tallennettavissa oleva osa. Esimerkiksi tyypilistä kvaliaineistoa edustava avoin haastattelu arkistoidaan tavallisesti äänitallenteena tai sen pohjalta tehtynä litteraationa.

Aineiston jatkokäyttäjän ja toisaalta myös tietoarkiston näkökulmasta haastattelu on lähes yhtä kuin siitä luotu digitaalinen tallenne eli teksti-ja äänitiedosto. Nämä kaksi, itse haastattelu ja siitä syntynyt digitaalinen muistijälki, eivät tietenkään ole samoja asioita. Niiden välinen ero olisikin hyvä palauttaa mieleen aina silloin tällöin, kun digitaalisia aineistoja käsittelee. Helppoa se ei välttämättä ole, ainakaan aloittelijalle.

Tekniseltä alalta tulleena on saanut henkilökohtaisesti kokea, kuinka sujuvasti ja huomaamattomasti mieli käsittelee näitä kahta lähtökohtaisesti enemmän tai vähemmän samoina, toisiinsa kietoutuneina ja sekoittuneina asioina. Niiden erottaminen toisistaan on vaatinut eron oivaltamista ja aktiivista poisoppimista entisistä ajattelutavoista.

Mihin datalla oikein viitataan? Yllä eroteltiin toisistaan itse tapahtuma ja siitä syntynyt digitaalinen muistijälki. Erottelun seurauksena tarjolla on nyt ainakin kaksi selvää vaihtoehtoa sille, mihin datalla viitataan. Oma suosikkini vaihtoehdoista on, että datalla viitataan digitaaliseen muistijälkeen eli tiedostoihin ja bitteihin. Se on vaihtoehdoista konkreettisempi. Luultavasti samasta syystä se myös tuntuu luonnollisemmalta vaihtoehdolta.

Kvalitatiivinen data = fysikaalinen mittausdata

Tehty valinta johtaa radikaalilta tuntuvaan väittämään, että tyypillinen kvalidata eli digitaaliset ääni- ja kuvatallenteet ovat oikeastaan luonnontieteiden fysikaalista mittausdataa. Kuinka tähän väittämään on päädytty?

Tarkastellaan dataa suurennuslasilla ja selvitetään, mistä datan yksittäiset tavut ja tavujen bitit tulevat. Digitaalisen tallenteen bitit syntyvät karkeasti ottaen kaksivaiheisen prosessin tuloksena. Ensimmäisessä vaiheessa on fysikaalista suuretta aistiva anturi, joka muuttaa mittauksen sähköjännitteeksi tai -virraksi. Toisessa vaiheessa on muunnin, joka likimääräistää jännitteen tai virran digitaaliseksi arvoksi, esimerkiksi kokonaisluvuksi välille 0–65535.

Kaikki digitaaliset tallenteet eivät suinkaan ole fysikaalista mittausdataa. Esimerkiksi sävellysohjelmalla luodut musiikkikappaleet tai suunnitteluohjelmalla piirretyt kuvat ovat digitaalisena syntyneitä. Siitä huolimatta suurin osa laadullisista aineistoista on digitaalisia ääni-, kuva- ja videotallenteita eli fysikaalista mittausdataa. Vaikka data olisikin synteettistä ja digitaalisena syntynyttä, sillä on usein mielekäs fysikaalinen tulkinta, jota käytetään datan esittämiseen esimerkiksi äänenä tai kuvana. Tämä hämärtää kvali- ja kvantidatan rajanvetoa, ja aiheuttaa ihmettelyä, kuinka data tulisi luokitella.

Laadullisten aineistojen digitaaliset tallenteet vaikuttavat todella olevan fysikaalista mittausdataa. Voisiko tekniikan ja luonnontieteiden käyttämillä aineistoilla olla muutakin samaa yhteiskuntatieteiden laadullisten aineistojen kanssa kuin pelkkä aineistotyyppi? Vastaus on kyllä. Valmistautukaa kohtaamaan tuttu data uudesta, vieraasta ja ehkä yllättävästäkin näkökulmasta!

Sekä teknis-luonnontieteellisillä että yhteiskuntatieteellisillä aloilla käytetään samankaltaista, ellei peräti täysin samaa dataa. Digitoitua ääntä, kuvaa ja videokuvaa erilaisista asioista, ilmiöistä, tilanteista, ihmisistä ja paikoista. Seuraavat esimerkit näyttävät, kuinka samaa kvalidataa voidaan käyttää teknis-luonnontieteellisillä aloilla tarkoituksiin, joita ei ole ehkä aikaisemmin tullut ajatelleeksi.

Esimerkiksi turvakameran videokuva soveltuu yhtä hyvin käytettäväksi niin teknis-luonnontieteelliseen kuin yhteiskuntatieteelliseen tutkimukseen.

Samoin on erään tosi-tv-ohjelman laita.

Luultavasti sisätiloissa otetut valokuvatkin kelpaavat dataksi tieteenalaan katsomatta.

Tekniikan alalla kuvien ja äänen tarkastelu fysikaalisena mittausdatana ja kvantitatiivinen käsittely on arkipäivää. Asiaa opiskellaan tavallisesti signaalinkäsittelyn kursseilla. Jos teknis-luonnontieteellisen alan ihmiseltä kysyttäisiin, luokittelisiko hän käyttämänsä ääni- ja kuvadatan laadullisiksi, veikkaisin vastauksen olevan kielteinen. Laadullisia aineistotyyppejä edustavat ääni, kuva ja videokuva koetaan teknisillä aloilla kvantitatiivisena datana. Uskon, että datan kvantitatiivinen käsittely vahvistaa kokemusta myös itse datan kvantitatiivisuudesta. Miksei sama pätisi datalle kvalitatiivisenkin käsittelyn suhteen?

Tutkimusmenetelmä: datan ja informaation välinen prosessi

Näiden esimerkkien ja pohdintojen perusteella datassa itsessään ei vaikuta olevan mitään sellaisia sisäisiä ominaisuuksia, joihin nojautuen datan luokittelu joko kvantitatiiviseksi tai kvalitatiiviseksi kävisi mahdolliseksi. Luokittelu kvantiin ja kvaliin tapahtuu pikemminkin sen perusteella, mihin dataa aiotaan käyttää, mitä informaatiota siitä halutaan saada irti tai kuinka dataa kuvitellaan analysoitavan tulevaisuudessa. Se, että luokittelemme datan, kertoo oikeastaan enemmän itsestämme kuin datasta!

Datan sijasta luokitteluperiaatteen keskiöön näyttääkin nousevan datan ja siitä tuotetun informaation välinen prosessi, tutkimusmenetelmä.

Esimerkiksi surveydatasta hankitaan informaatiota käyttäen matemaattista koneistoa. Tilastomatematiikan menetelmät käsittelevät datamatriiseja siinä mielessä objektiivisesti, että prosessi koostuu ennalta määrätyistä askelista ja on toistettavissa. Samalla tavalla esimerkiksi kuvasta tapahtuva hahmontunnistus hyödyntää matemaattista koneistoa ja tuottaa samalla syötteellä aina saman lopputuloksen. Kummassakin tapauksessa data koetaan luultavasti enemmän kvantitatiivisena.

Jos ihminen tulkitsee dataa ja tuottaa siitä informaatiota, syntyy informaatio enemmän tai vähemmän subjektiivisella prosessilla. Tällöin data koetaan luultavasti mieluummin kvalitatiivisena. Ihmisen tuottama informaatio voi olla luonteeltaan sellaista, että se olisi voitu tuottaa myös matemaattisella koneistolla, esimerkiksi kasvojen tunnistaminen kuvasta. Vaikka ihminen tuottaa tällaista informaatiota, niin ihmisen keskeinen rooli prosessissa vaikuttaa siihen, että informaation luonteesta ja prosessin objektiivisuudesta huolimatta data koetaan mieluummin kvalitatiivsena.

Vaikuttaa siltä, että mitä subjektiivisempi matka datasta informaatioksi on, sitä kernaammin data luokitellaan kvalitatiiviseksi. Vastaavasti mitä objektiivisemmin informaatio voidaan tuottaa datasta, sitä helpommin data nähdään kvantitatiivisena. Vaikka luokittelu soveltuu tutkimusmenetelmiin paremmin kuin dataan, näyttää tutkimusmenetelmien luokittelu tarttuvan aiheettomasti itse dataan. Tartunta tapahtuu mahdollisten jatkokäyttäjien kustannuksella. Datan luokittelu yhteen kategoriaan saattaa rajata pois toisen kategorian menetelmiä hyödyntäviä jatkokäyttäjiä.

Koska datan luokittelu kertoo enemmän meistä ja menetelmistämme kuin itse datasta, ehkä siitä voidaan hiljalleen luopua. Lopulta meillä on kuitenkin vain yksi data, monta tulkintaa.

Jani Hautamäki,
järjestelmäsuunnittelija
etunimi.sukunimi [at] uta.fi