Tag Archives: kvantitatiivinen

Translation and international use of research data

To promote open science, the Finnish Social Science Data Archive also provides services to researchers and students who do not speak Finnish. In practice, this means that foreign language speakers are provided the opportunity to access quantitative research data in FSD holdings in English. In addition, we describe all data in English to allow the international audience to find them.

Translating variables, that is, the questions and response alternatives presented in a study, differs quite a lot from translating other types of texts. Translators of literature often have a great deal of linguistic and artistic freedom. The challenge of translating fiction usually lies in carrying the ambiguities of the source language over to the target language. Translating technical and informative texts requires clearer, more univocal interpretation, although depending on the text type a translator may have some creative licence.

Striving for fidelity and clarity

When survey questions are being translated, there’s very little room for interpretation. In studying attitudes, how something is asked may have almost as big an effect on the frequency distributions as what is asked.1 The users of translated data have to be able to trust that the translated questions correspond to the original ones as closely as possible in terms of both content and form. Researchers may draw far-reaching conclusions based on the translated questions, which is why it’s essential that non-Finnish-speaking researchers gain an understanding of what the respondents were originally asked and how the questions were phrased.

One of the challenges of translating variables faithfully is posed by the errors and inconsistencies sometimes found in source texts. At its worst, an error in a Finnish question may affect how the respondents answer the question, and the non-Finnish user of the data will wonder what has caused the unexpected frequency distributions. When translators notice an error, they have to consider how significant it is and whether it has actually affected the responses. The translator also needs to decide how to communicate the error to data users. Replicating the error in the translation is rarely a good option because a user won’t know whether the error originated from the source text or the translator.

As translators at FSD, we’re lucky to have the possibility to provide further information on the translations to users through a separate file. These translation notes usually contain information on the word choices and translation strategies used.

Culture-specific expressions pose challenges

In general, a translator of research data should aim to create as neutral a translation as possible while avoiding interpreting variables too strictly from her or his own point of view. However, this does not mean that we translate data word for word; relaying the idea of the original text clearly and intelligibly is our priority.

Ultimately, the challenges of data translations are very similar to those encountered when translating other kinds of texts, such as how to express a concept that does not exist in another language and how to translate the nuances of the source language into the target language.

Questions presented in surveys often have elements or expressions that are specific to the Finnish culture and have no obvious counterparts in English. In these cases, the concepts need to be explained to foreign users. For example, in one dataset, the respondents were asked whether ”red cottages and potato fields” are part of the Finnish rural landscape. This expression is similar to the ”white picket fence” used in the United States referring to a sort of simple and idyllic life. However, because our users are from all over the world, domesticating the question for a culturally limited audience is not a good idea. For users who are not familiar with either the Finnish or the American culture, we would simply be replacing one culture-specific expression with another. In situations like this, the translation notes are of great help to us, as we are able to explain expressions that might otherwise be incomprehensible to some users.

The translation process at FSD usually takes a few weeks depending on the size of the data and the translators’ workload. After the translation is complete, the data are available on our Aila Data Service to all users who need it in English. This is why we always put a lot of care and effort in translating all of the data instead of specific, individual variables needed by one user.

”Haste makes waste” also applies to questionnaire design and translation

Some might say that a data translation is never close enough to the source text to make research on translated variables feasible. It’s been noted, for example, that some established measurements of well-being do in fact measure slightly different concepts in different languages.2 Full equivalence can perhaps never be achieved, but this is rarely the goal of translation. It’s good to remember that language is built on interpretations, and even speakers of the same language may understand the same question in different ways in attitudinal surveys.

Questionnaire design and translation do not always receive the attention they deserve, although well-formed questions are likely to lead to better validity. In international comparative surveys, it’s particularly important that all respondents are asked the same things in the same way. If you plan to use questionnaires in more than one language, having questionnaires translated by a professional translator is something to consider when planning data collection. Surveys conducted in a single language also benefit from proofreading by a professional to prevent potential errors or inconsistencies from endangering the objective of the study.

Survey question form and wording require some effort, but there is no need to reinvent the wheel; inspiration for questions can be found, for example, in the UKDS Variable and question bank, the upcoming CESSDA Euro Question Bank and of course our question and variable search on Aila Data Service.

Henri Ala-Lahti
Research Officer
firstname.lastname [at] uta.fi

Niko Koski
Research Assistant
firstname.lastname [at] uta.fi


1 Schuman, Howard & Stanley Presser (1996), Questions and Answers in Attitude Surveys: Experiments on Question Form, Wording, and Context. Thousand Oaks: SAGE
2 Lolle, Henrik Lauridsen & Jørgen Goul Andersen (2015), ”Measuring Happiness and Overall Life Satisfaction: A Danish Survey Experiment on the Impact of Language and Translation Problems”, Journal of Happiness Studies 17 (4): 1337-1350.

This blog entry is also available in Finnish:
Suomenkielisten tutkimusaineistojen kääntämisestä ja kansainvälisestä jatkokäytöstä.

Suomenkielisten tutkimusaineistojen kääntämisestä ja kansainvälisestä jatkokäytöstä

Tietoarkisto palvelee avoimen tieteen edistämiseksi myös tutkijoita ja opiskelijoita, jotka eivät puhu suomea. Käytännössä tämä tarkoittaa sitä, että Suomessa tai ulkomailla asuville vieraskielisille asiakkaille tarjotaan mahdollisuus saada käyttöönsä kvantitatiiviset tutkimusaineistot englanninkielisinä. Lisäksi tuotamme kaikista arkistoon toimitetuista aineistoista kuvailut englanniksi, jotta kansainvälinen yleisö löytäisi tarvitsemansa aineistot.

Aineiston muuttujien eli tutkimuksissa esitettyjen kysymysten ja niiden vastausvaihtoehtojen kääntäminen poikkeaa varsin paljon muiden tekstien kääntämisestä. Kaunokirjallisten tekstien kääntäjällä on suuri vapaus ilmaista asia toisella kielellä. Kaunokirjallisuuden kääntämisen haasteena on usein alkuperäisen tekstin moniselitteisyys ja tämän välittäminen kohdekielelle. Asiatekstikääntäminen taas vaatii yksiselitteisempää ilmaisutapaa, vaikka tekstilajista riippuen myös asiatekstikäännöksissä on paikoitellen ilmaisunvapautta.

Tasapainottelua vastaavuuden ja selkeyden välillä

Tutkimusaineistojen kysymysten kääntäminen sijoittuu ilmaisutavan puolesta asiatekstien tiukempaan päähän. Asenteita tutkittaessa muuttujien jakaumiin voivat vaikuttaa paitsi kysymysten ajatuksellinen sisältö myös niiden esitystapa.1 Käännettyjen tutkimusaineistojen käyttäjien on voitava luottaa siihen, että käännetyt kysymykset vastaavat sisällöltään ja esitystavaltaan mahdollisimman läheisesti tutkittaville esitettyjä. Tutkijat voivat tehdä pitkällekin meneviä johtopäätöksiä käännettyjen kysymysten perusteella. Siksi on tärkeää, että ulkomaalainen tutkija saa oikean käsityksen siitä, mitä vastaajilta on kysytty suomeksi.

Eräänä haasteena uskollisen muuttujakäännöksen tuottamiselle ovat alkuperäisissä teksteissä silloin tällöin esiintyvät virheet ja epäjohdonmukaisuudet. Pahimmillaan suomenkielisessä kysymyksessä esiintynyt virhe on voinut vaikuttaa siihen, miten tutkittavat ovat vastanneet kysymykseen, ja muun kielinen jatkokäyttäjä voi ihmetellä, mistä epäuskottavat frekvenssijakaumat mahtavat johtua. Kääntäjän onkin tällaisissa tilanteissa punnittava, kuinka merkittävä virhe on ja onko se saattanut vaikuttaa kysymyksen tulkintaan. Tämän lisäksi on mietittävä, kuinka tulkintaan mahdollisesti vaikuttanut virhe ilmaistaan tutkimusaineistoa käyttävälle asiakkaalle. Virheen toistaminen käännöksessä on harvoin hyvä vaihtoehto, sillä asiakas ei voi tietää, onko kyseessä kääntäjän vai alkuperäistekstin virhe.

Me Tietoarkiston kääntäjät olemme siinä mielessä onnellisessa asemassa, että meillä on mahdollisuus liittää kääntämiemme aineistojen yhteyteen lisätietoja käännöksistä. Lisätiedot kootaan yleensä erilliseen tekstitiedostoon, johon kääntäjät voivat myös kommentoida terminologiavalintojaan ja käyttämiään käännösstrategioita.

Kulttuurisidonnaiset ilmaisut vaativat pohdintaa

Yleisesti ottaen kääntäjän on vältettävä tulkitsemasta muuttujia omasta näkökulmastaan ja pyrittävä mahdollisimman neutraaliin käännökseen. Tämä ei kuitenkaan tarkoita, että tutkimusaineisto käännettäisiin suoraan sanasta sanaan, vaan etusijalla ovat aina tekstin ymmärrettävyys ja tekstin ajatuksen välittäminen kielestä ja kulttuurista toiseen. Tutkimusaineistojen kääntämisessä ollaan lopulta samankaltaisten haasteiden äärellä kuin muidenkin tekstien kääntämisessä, eli kuinka ilmaista toisesta kielestä tai kulttuurista kokonaan puuttuva käsite tai ilmaus ja kuinka siirtää lähtötekstin vivahteet toiselle kielelle.

Tutkimuksissa esitetyt kysymykset sisältävät usein kulttuurisidonnaisia elementtejä, joille ei ole olemassa termejä englanniksi. Tällöin termien käsitesisällöt täytyy selittää auki ulkomaalaiselle jatkokäyttäjälle. Esimerkiksi eräässä aineistossa vastaajilta kysyttiin sitä, kuuluvatko ”punaiset tuvat ja perunamaat” suomalaiseen maaseutumaisemaan. Ilmaus on hyvin kulttuurisidonnainen, ja vaikka sille löytyisikin vastineita joistakin kulttuureista, on otettava huomioon, että asiakkaamme voivat olla mistä päin maailmaa tahansa. Siksi kysymyksen niin sanottu kotouttaminen yhteen kulttuuriin tai maahan, vaikkapa yhdysvaltalaisille tutulla kielikuvalla, ei ole suositeltavaa. Myös tässä tapauksessa on suureksi avuksi, että voimme toimittaa asiakkaalle lisätietoja käännöksestä ja selittää esimerkiksi, että punainen tupa ja perunamaa ymmärretään Suomessa usein eräänlaisena maalaisidyllinä.

Tietoarkiston käännösprosessi vie aineiston koosta ja kääntäjien työmäärästä riippuen yleensä muutaman viikon, jonka jälkeen aineisto on muidenkin englanninkielistä aineistoa tarvitsevien käytössä Aila-palvelun kautta. Tämän vuoksi aineistot käännetään aina huolellisesti kokonaan.

Kyselylomakkeita ei kannata kääntää hätäillen

Joidenkin mielestä käännöksellä ei koskaan päästä niin lähelle alkuperäisen tekstin merkitystä, että erikielisten muuttujien vertailu tutkimuksessa olisi mielekästä. Eräät tutkijat ovat esimerkiksi huomauttaneet, että usein käytetyt hyvinvoinnin mittarit mittaavat itse asiassa eri asioita eri kielillä.2 Täydellistä kielten välistä vastaavuutta tuskin saavutetaan käännöksellä juuri koskaan, ja se on harvoin kääntämisen tavoite. On hyvä muistaa, että kieli rakentuu erilaisten tulkintojen varaan. Kyselytutkimuksissa mitataan yleensä vastaajien asenteita ja näkemyksiä, ja samaa kieltä puhuvatkin voivat ymmärtää saman kysymyksen eri tavoin.

Aina kyselylomakkeiden huolellista laatimista ja kääntämistä ei nähdä tutkimuksen kannalta oleellisena, vaikka oikein muotoilluilla kysymyksillä on merkitystä kyselyn tulosten validiteetin kannalta. Kansainvälisissä vertailuaineistoissa on erityisen tärkeää, että eri kielillä käytettävissä kyselylomakkeissa kysytään mahdollisimman tarkasti samoja asioita. Kyselylomakkeiden käännättäminen ammattikääntäjällä kannattaa ottaa huomioon jo aineistonkeruuta suunnitellessa, jos kyselylomakkeita aiotaan käyttää muulla kielellä kuin suomeksi. Suomeksikin kysymysten kieliasu kannattaa tarkistuttaa, jotta heikko tai epäjohdonmukainen kieli ei vaaranna tutkimuksen tavoitteita.

Kysymysten muotoilussa täytyy siis olla tarkka ja huolellinen niin suomeksi kuin englanniksikin. Pyörää ei tarvitse kuitenkaan keksiä uudelleen; suomeksi kysymyslomakkeita muotoillessa kannattaa käyttää hyväksi palveluportaali Ailan muuttujahakua ja etsiä esimerkkejä aiemmin käytetyistä kysymyksistä, ja englanniksi voi hyödyntää esimerkiksi UKDS:n kysymyspankkia sekä CESSDAn tulevaa Euro Question Bankia.

Henri Ala-Lahti
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi

Niko Koski
tutkimusapulainen
etunimi.sukunimi [at] uta.fi


1 Schuman, Howard & Stanley Presser (1996), Questions and Answers in Attitude Surveys: Experiments on Question Form, Wording, and Context. Thousand Oaks: SAGE
2 Lolle, Henrik Lauridsen & Jørgen Goul Andersen (2015), ”Measuring Happiness and Overall Life Satisfaction: A Danish Survey Experiment on the Impact of Language and Translation Problems”, Journal of Happiness Studies 17 (4): 1337-1350.

Tämä blogikirjoitus on luettavissa myös englanniksi:
Translation and international use of research data.

Näin anonymisoit kvantitatiiviset aineistosi

Ihmistieteiden tutkimusaineistot sisältävät aina enemmän tai vähemmän henkilötietoja. Henkilötietolain mukaan tunnisteellista aineistoa voi käyttää tutkimukseen, jos se on välttämätöntä, tarkoituksenmukaista, suunniteltua ja asiallisesti perusteltua. Tutkittavia koskevat tiedot eivät kuitenkaan missään tapauksessa saa vuotaa ulkopuolisille.

Viimeistään aineiston arkistointivaiheessa tunnisteet täytyy hävittää, jos tunnisteellisen aineiston arkistoimiseen ei ole erillistä Kansallisarkistolta anottua lupaa. Useimmat suomalaiset yliopistot ja tutkimusrahoittajat kannustavat aineistojen arkistoimiseen ja avaamiseen, eli anonymisointiosaaminen alkaa kuulua jokaisen tutkijan perustaitoihin.

Anonymisointikoulutukselle onkin Suomessa selvästi tarvetta, sillä Tietoarkiston ja ATT-hankkeen huhtikuussa Tampereella järjestämään Tutkimusaineistojen anonymisointi -seminaariin ilmoittautui lähes 350 osallistujaa ympäri maata.

Seminaarin esitysdioihin voi tutustua verkossa tapahtuman sivuilla, ja myös esityksistä kuvatut videot ovat tulossa julki samalle sivulle.

Tässä blogikirjoituksessa käyn seminaariesitysten perusteella läpi määrällisen aineiston anonymisointikäytäntöjä. Kun oman aineiston anonymisointi tulee ajankohtaiseksi, yksityiskohtaisempia ohjeita kannattaa käydä lukemassa vielä Tietoarkiston Aineistonhallinnan käsikirjasta.

Tietoarkistossa toivomme, että meille toimitettavat aineistot ovat valmiiksi anonymisoituja. Tarkastamme kuitenkin kaikki aineistot, ja käsittelemme niitä usein vielä jonkin verran niin, että Ailassa julkaistavat aineistot ovat varmasti täysin anonyymeja.

Kaikki elävää ihmistä koskevat tiedot ovat henkilötietoja

Aivan ensimmäiseksi tunnisteellista aineistoa anonymisoivan tutkijan täytyy ymmärtää, mitkä tiedot ovat henkilötietoja. Tätä aihetta avasi seminaarissa Tietoarkiston kehittämispäällikkö Arja Kuula-Luumi.

Tiivistetysti voi sanoa, että henkilötiedoiksi lasketaan kaikki elävää ihmistä koskevat tiedot. Sellainen voi olla esimerkiksi tutkittavan tai tämän läheisen ominaisuus, tutkittavan elinolosuhteita koskeva maininta tai vaikkapa tutkittavan mielipide.

Tämä ei onneksi kuitenkaan tarkoita, että esimerkiksi kaikki tutkittavan esittämät mielipiteet pitäisi poistaa aineistosta ennen kuin sen voi arkistoida. Tutkittavia koskevat tiedot lasketaan henkilötiedoksi vain silloin, kun yksilö on tunnistettavissa aineistosta. Aineiston anonymisoiminen tarkoittaakin sitä, että aineistosta poistetaan, luokitellaan tai muutetaan sellaiset tiedot, joiden avulla yksilön voi tunnistaa ja esimerkiksi aineistossa esitetyt mielipiteet yhdistää tietyn yksilön mielipiteiksi.

EU:n uuden tietosuoja-asetuksen mukaan henkilö on tunnistettavissa silloin, kun hänet voidaan tunnistaa suoraan tai epäsuorasti tunnistetietojen perusteella. Käytännössä suorat tunnistetiedot tarkoittavat tietoja, jotka riittävät yksin henkilön tunnistamiseen, vaikka hänestä ei kerrottaisi mitään muuta. Suoria tunnisteita ovat siis esimerkiksi koko nimi ja henkilötunnus.

Epäsuorat tunnisteet on jaoteltu vahvoihin epäsuoriin tunnisteisiin ja epäsuoriin tunnisteisiin. Vahvat epäsuorat tunnisteet eivät viittaa suoraan henkilöön, mutta niiden avulla voi helposti selvittää, kenestä henkilöstä on kyse. Vahva epäsuora tunniste voisi siis olla esimerkiksi auton rekisterinumero, jonka avulla on mahdollista suoraan selvittää auton omistaja.

Epäsuorat tunnisteet eivät yksin paljasta henkilöllisyyttä, mutta saattavat muihin tietoihin yhdistettynä mahdollistaa henkilön tunnistamisen. Tällaisia ovat esimerkiksi ikä, sukupuoli ja asuinpaikka sekä lukuisat muut fyysiset, psyykkiset, taloudelliset ja sosiaaliset tekijät.

Tunnistettavuutta miettiessä on olennaista ottaa huomioon myös se, mitä tietoja henkilöstä on saatavilla muualta kuin omasta aineistosta. Moni paljastaa itsestään paljon sosiaalisessa mediassa. Lisäksi esimerkiksi julkiset asiakirjat ja järjestöjen verkkosivut voivat tarjota monenlaisia tietoja.

Tietoarkiston kehittämispäällikkö Arja Kuula-Luumi piti seminaarissa esityksen aiheesta Tietosuoja tutkimuksessa. (Kuva: Kaisa Järvelä).

Anonymisointi on aina peruuttamaton

Yksi olennainen asia on ymmärtää, että aineiston pseudonymisointi ja anonymisointi ovat eri asioita. Jos tutkijat analysoivat aineistoa ilman tunnisteita, mutta säilyttävät tunnistetiedot ja koodiavaimen itsellään, aineisto ei ole anonyymi vaan pseudonyymi, eikä sitä voi esimerkiksi arkistoida sellaisenaan jatkokäyttöä varten.

Lain mukaan aineisto on anonyymi vasta silloin, kun siitä ei voi tunnistaa yksittäisiä tutkittavia millään kohtuullisesti toteutettavissa olevalla keinolla. Tietosuoja-asetuksen mukaan kohtuullisuutta tulee arvioida tunnistamisesta aiheutuvien kulujen, tunnistamiseen tarvittavan ajan ja käytettävissä olevan teknologian näkökulmista.

EU:n tietosuojatyöryhmä neuvoo arvioimaan aineiston tunnisteellisuutta kolmesta näkökulmasta:

  1. Onko yksilö edelleen mahdollista erottaa joukosta?
  2. Onko tietojen yhdistäminen yksilöön mahdollista?
    ja
  3. Voidaanko yksilöä koskevat tiedot päätellä?

Tietoarkiston tutkimusamanuenssi Eliisa Haanpää konkretisoi kysymyksiä vielä kolmella esimerkillä:

  1. Pystyykö yksittäisen henkilön tunnistamaan vastauksista, kun on tiedossa, että hän on vastannut kyselyyn?
  2. Pystyykö vastaukset yhdistämään henkilöön, vaikka ei tiedä, onko hän vastannut kyselyyn?
  3. Paljastaako esimerkiksi tietyn paikallisradion kuuntelemisen kaltainen yksityiskohta, että henkilö asuu tietyssä kunnassa?

Anonyymin aineiston määritelmän kannalta on olennaista myös se, että anonymisointitoimien täytyy olla peruuttamattomia. Kertaalleen anonymisoitu aineisto ei siis saa olla palautettavissa tunnisteelliseen muotoon.

Tietoarkiston tutkimusamanuenssi Eliisa Haanpää kertoi kvantitatiivisten aineistojen anonymisoinnista sekä teoreettisella tasolla että konkreettisten aineistoesimerkkien avulla. (Kuva: Kaisa Järvelä).

Anonymisointi alkaa tarkasta suunnittelusta

Eliisa Haanpäällä on vuosien kokemus erilaisten kvantitatiivisten aineistojen anonymisoimisesta. Hän korostikin seminaariesityksessään, että kaikkiin aineistoihin suoraan sovellettavaa anonymisointimallia ei ole olemassa, vaan yksittäiset toimet täytyy viime kädessä suunnitella kunkin aineiston ehdoilla. Tutkijan on siis punnittava aina erikseen, mitkä käytännöt toimivat parhaiten juuri oman aineiston kohdalla. Oman aineiston anonymisointia suunnitellessa kannatta pohtia esimerkiksi, kuinka arkaluontoinen aineisto on, ja mitä aihetta se käsittelee, eli mitkä tiedot on olennaista säilyttää, jotta aineisto pysyy ymmärrettävänä.

Jotta anonymisoiminen sujuisi alusta loppuun asti loogisesti, Haanpää neuvoi laatimaan kirjallisen anonymisointisuunnitelman, jonka mukaisesti johdonmukainen anonymisointi on helppo toteuttaa. Hyvä perusmalli on anonymisoida ensin taustamuuttujat, seuraavaksi mahdolliset avokysymykset ja lopuksi vielä muita tunnisteita sisältävät muuttujat sekä mahdolliset muut aineistoon liittyvät lisämateriaalit.

Kolme yleisintä tapaa anonymisoida kvantitatiivista aineistoa

Määrällisen aineiston kohdalla kolme yleisintä anonymisointikeinoa ovat muuttujan poistaminen, arvojen luokittelu ja tunnisteiden poistaminen avokysymysten vastauksista.

Muuttuja on järkevää poistaa aineistosta kokonaan silloin, kun siinä on paljon tunnisteita. Käytännössä muuttujan käsittelemiseen vaikuttaa se, millaisia tunnisteita se sisältää. Suorat tunnisteet ja vahvat epäsuorat tunnisteet, siis esimerkiksi nimet, henkilötunnukset tai auton rekisterinumerot tulee poistaa kokonaan. Epäsuorien tunnisteiden, kuten vastaajan iän, asuinkunnan ja sukupuolen kohdalla on arvioitava tapauskohtaisesti kannattaako ne poistaa tai luokitella vai onko ne turvallista jättää aineistoon.

Arvojen luokittelemiseen on olemassa kaksi keskenään hieman erilaista mallia. Ensimmäisessä, perusluokittelumallissa vastaukset yhdistetään järjestäen luokiksi. Yleinen käytäntö on yhdistää esimerkiksi vastaajien iät viiden ikävuoden luokiksi tai työt ammattiryhmiksi.

Toinen yleinen luokittelumalli on arvojen harkinnanvarainen luokittelu. Se tarkoittaa, että vastauksista poistetaan tai karkeistetaan harvinaisia ääriarvoja. Jos esimerkiksi kyselyssä on mukana vain vähän iäkkäitä vastaajia, heidät voidaan yhdistää yhdeksi yli 50-vuotiaiden luokaksi.

Luokkia ei kannata yrittää keksiä itse, vaan apuna on hyvä käyttää Tilastokeskuksen vakiintuneita luokittelumalleja. Tilastokeskuksen luokitukset on suunniteltu huolella sellaisiksi, että ne ovat mahdollisimman yleisiä, mutta kuitenkin informatiivisia.

Kolmas yleinen anonymisointikeino on tunnisteiden poistaminen avokysymysten vastauksista. Tämä on tarpeen, jos tutkittavat ovat antaneet esimerkiksi harrastuksia koskeviin avokysymyksiin niin yksityiskohtaisia vastauksia, että heidät voi niiden perusteella tunnistaa.

Avokysymysten vastauksia ei yleensä tarvitse poistaa kokonaan, vaan niistä voi poimia yksittäisiä tunnisteellisia pätkiä, ja muuttaa ne anonyymimpään muotoon. Jos vastaaja esimerkiksi mainitsee asuvansa Humppilassa, vaikka vastaajan kotikunta ei saisi selvitä aineistosta, kunnan nimen voi muuttaa Tilastokeskuksen luokituksiin perustuen muotoon [maaseutumainen kunta Kanta-Hämeessä].

Aineistosta on pystyttävä erottamaan, mitkä kohdat avovastauksista on anonymisoitu, eli tekstiin tehdyt muutokset kannattaa merkitä selkeästi ja järjestelmällisesti. Hyvä ratkaisu on esimerkiksi hakasulkeiden käyttäminen.

Tarkempia esimerkkejä siitä, miten Haanpää on käytännössä anonymisoinut erilaisia aineistoja voi käydä katsomassa seminaarin tapahtumasivulta löytyvistä esitysmateriaaleista. Vastaava kvalitatiivisten aineistojen anonymisointia käsittelevä blogikirjoitus julkaistaan Tietoarkistoblogissa myöhemmin tämän kuun aikana.

Lisätietoja
» Seminaarin sivulta löydät esitysdiat ja myöhemmin myös videot
» Aineistonhallinnan käsikirja: Tunnisteellisuus ja anonymisointi

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Näin anonymisoit kvantitatiiviset aineistosi

Ihmistieteiden tutkimusaineistot sisältävät aina enemmän tai vähemmän henkilötietoja. Henkilötietolain mukaan tunnisteellista aineistoa voi käyttää tutkimukseen, jos se on välttämätöntä, tarkoituksenmukaista, suunniteltua ja asiallisesti perusteltua. Tutkittavia koskevat tiedot eivät kuitenkaan missään tapauksessa saa vuotaa ulkopuolisille.

Viimeistään aineiston arkistointivaiheessa tunnisteet täytyy hävittää, jos tunnisteellisen aineiston arkistoimiseen ei ole erillistä Kansallisarkistolta anottua lupaa. Useimmat suomalaiset yliopistot ja tutkimusrahoittajat kannustavat aineistojen arkistoimiseen ja avaamiseen, eli anonymisointiosaaminen alkaa kuulua jokaisen tutkijan perustaitoihin.

Anonymisointikoulutukselle onkin Suomessa selvästi tarvetta, sillä Tietoarkiston ja ATT-hankkeen huhtikuussa Tampereella järjestämään Tutkimusaineistojen anonymisointi -seminaariin ilmoittautui lähes 350 osallistujaa ympäri maata.

Seminaarin esitysdioihin voi tutustua verkossa tapahtuman sivuilla, ja myös esityksistä kuvatut videot ovat tulossa julki samalle sivulle.

Tässä blogikirjoituksessa käyn seminaariesitysten perusteella läpi määrällisen aineiston anonymisointikäytäntöjä. Kun oman aineiston anonymisointi tulee ajankohtaiseksi, yksityiskohtaisempia ohjeita kannattaa käydä lukemassa vielä Tietoarkiston Aineistonhallinnan käsikirjasta.

Tietoarkistossa toivomme, että meille toimitettavat aineistot ovat valmiiksi anonymisoituja. Tarkastamme kuitenkin kaikki aineistot, ja käsittelemme niitä usein vielä jonkin verran niin, että Ailassa julkaistavat aineistot ovat varmasti täysin anonyymeja.

Kaikki elävää ihmistä koskevat tiedot ovat henkilötietoja

Aivan ensimmäiseksi tunnisteellista aineistoa anonymisoivan tutkijan täytyy ymmärtää, mitkä tiedot ovat henkilötietoja. Tätä aihetta avasi seminaarissa Tietoarkiston kehittämispäällikkö Arja Kuula-Luumi.

Tiivistetysti voi sanoa, että henkilötiedoiksi lasketaan kaikki elävää ihmistä koskevat tiedot. Sellainen voi olla esimerkiksi tutkittavan tai tämän läheisen ominaisuus, tutkittavan elinolosuhteita koskeva maininta tai vaikkapa tutkittavan mielipide.

Tämä ei onneksi kuitenkaan tarkoita, että esimerkiksi kaikki tutkittavan esittämät mielipiteet pitäisi poistaa aineistosta ennen kuin sen voi arkistoida. Tutkittavia koskevat tiedot lasketaan henkilötiedoksi vain silloin, kun yksilö on tunnistettavissa aineistosta. Aineiston anonymisoiminen tarkoittaakin sitä, että aineistosta poistetaan, luokitellaan tai muutetaan sellaiset tiedot, joiden avulla yksilön voi tunnistaa ja esimerkiksi aineistossa esitetyt mielipiteet yhdistää tietyn yksilön mielipiteiksi.

EU:n uuden tietosuoja-asetuksen mukaan henkilö on tunnistettavissa silloin, kun hänet voidaan tunnistaa suoraan tai epäsuorasti tunnistetietojen perusteella. Käytännössä suorat tunnistetiedot tarkoittavat tietoja, jotka riittävät yksin henkilön tunnistamiseen, vaikka hänestä ei kerrottaisi mitään muuta. Suoria tunnisteita ovat siis esimerkiksi koko nimi ja henkilötunnus.

Epäsuorat tunnisteet on jaoteltu vahvoihin epäsuoriin tunnisteisiin ja epäsuoriin tunnisteisiin. Vahvat epäsuorat tunnisteet eivät viittaa suoraan henkilöön, mutta niiden avulla voi helposti selvittää, kenestä henkilöstä on kyse. Vahva epäsuora tunniste voisi siis olla esimerkiksi auton rekisterinumero, jonka avulla on mahdollista suoraan selvittää auton omistaja.

Epäsuorat tunnisteet eivät yksin paljasta henkilöllisyyttä, mutta saattavat muihin tietoihin yhdistettynä mahdollistaa henkilön tunnistamisen. Tällaisia ovat esimerkiksi ikä, sukupuoli ja asuinpaikka sekä lukuisat muut fyysiset, psyykkiset, taloudelliset ja sosiaaliset tekijät.

Tunnistettavuutta miettiessä on olennaista ottaa huomioon myös se, mitä tietoja henkilöstä on saatavilla muualta kuin omasta aineistosta. Moni paljastaa itsestään paljon sosiaalisessa mediassa. Lisäksi esimerkiksi julkiset asiakirjat ja järjestöjen verkkosivut voivat tarjota monenlaisia tietoja.

Tietoarkiston kehittämispäällikkö Arja Kuula-Luumi piti seminaarissa esityksen aiheesta Tietosuoja tutkimuksessa. (Kuva: Kaisa Järvelä).

Anonymisointi on aina peruuttamaton

Yksi olennainen asia on ymmärtää, että aineiston pseudonymisointi ja anonymisointi ovat eri asioita. Jos tutkijat analysoivat aineistoa ilman tunnisteita, mutta säilyttävät tunnistetiedot ja koodiavaimen itsellään, aineisto ei ole anonyymi vaan pseudonyymi, eikä sitä voi esimerkiksi arkistoida sellaisenaan jatkokäyttöä varten.

Lain mukaan aineisto on anonyymi vasta silloin, kun siitä ei voi tunnistaa yksittäisiä tutkittavia millään kohtuullisesti toteutettavissa olevalla keinolla. Tietosuoja-asetuksen mukaan kohtuullisuutta tulee arvioida tunnistamisesta aiheutuvien kulujen, tunnistamiseen tarvittavan ajan ja käytettävissä olevan teknologian näkökulmista.

EU:n tietosuojatyöryhmä neuvoo arvioimaan aineiston tunnisteellisuutta kolmesta näkökulmasta:

  1. Onko yksilö edelleen mahdollista erottaa joukosta?
  2. Onko tietojen yhdistäminen yksilöön mahdollista?
    ja
  3. Voidaanko yksilöä koskevat tiedot päätellä?

Tietoarkiston tutkimusamanuenssi Eliisa Haanpää konkretisoi kysymyksiä vielä kolmella esimerkillä:

  1. Pystyykö yksittäisen henkilön tunnistamaan vastauksista, kun on tiedossa, että hän on vastannut kyselyyn?
  2. Pystyykö vastaukset yhdistämään henkilöön, vaikka ei tiedä, onko hän vastannut kyselyyn?
  3. Paljastaako esimerkiksi tietyn paikallisradion kuuntelemisen kaltainen yksityiskohta, että henkilö asuu tietyssä kunnassa?

Anonyymin aineiston määritelmän kannalta on olennaista myös se, että anonymisointitoimien täytyy olla peruuttamattomia. Kertaalleen anonymisoitu aineisto ei siis saa olla palautettavissa tunnisteelliseen muotoon.

Tietoarkiston tutkimusamanuenssi Eliisa Haanpää kertoi kvantitatiivisten aineistojen anonymisoinnista sekä teoreettisella tasolla että konkreettisten aineistoesimerkkien avulla. (Kuva: Kaisa Järvelä).

Anonymisointi alkaa tarkasta suunnittelusta

Eliisa Haanpäällä on vuosien kokemus erilaisten kvantitatiivisten aineistojen anonymisoimisesta. Hän korostikin seminaariesityksessään, että kaikkiin aineistoihin suoraan sovellettavaa anonymisointimallia ei ole olemassa, vaan yksittäiset toimet täytyy viime kädessä suunnitella kunkin aineiston ehdoilla. Tutkijan on siis punnittava aina erikseen, mitkä käytännöt toimivat parhaiten juuri oman aineiston kohdalla. Oman aineiston anonymisointia suunnitellessa kannatta pohtia esimerkiksi, kuinka arkaluontoinen aineisto on, ja mitä aihetta se käsittelee, eli mitkä tiedot on olennaista säilyttää, jotta aineisto pysyy ymmärrettävänä.

Jotta anonymisoiminen sujuisi alusta loppuun asti loogisesti, Haanpää neuvoi laatimaan kirjallisen anonymisointisuunnitelman, jonka mukaisesti johdonmukainen anonymisointi on helppo toteuttaa. Hyvä perusmalli on anonymisoida ensin taustamuuttujat, seuraavaksi mahdolliset avokysymykset ja lopuksi vielä muita tunnisteita sisältävät muuttujat sekä mahdolliset muut aineistoon liittyvät lisämateriaalit.

Kolme yleisintä tapaa anonymisoida kvantitatiivista aineistoa

Määrällisen aineiston kohdalla kolme yleisintä anonymisointikeinoa ovat muuttujan poistaminen, arvojen luokittelu ja tunnisteiden poistaminen avokysymysten vastauksista.

Muuttuja on järkevää poistaa aineistosta kokonaan silloin, kun siinä on paljon tunnisteita. Käytännössä muuttujan käsittelemiseen vaikuttaa se, millaisia tunnisteita se sisältää. Suorat tunnisteet ja vahvat epäsuorat tunnisteet, siis esimerkiksi nimet, henkilötunnukset tai auton rekisterinumerot tulee poistaa kokonaan. Epäsuorien tunnisteiden, kuten vastaajan iän, asuinkunnan ja sukupuolen kohdalla on arvioitava tapauskohtaisesti kannattaako ne poistaa tai luokitella vai onko ne turvallista jättää aineistoon.

Arvojen luokittelemiseen on olemassa kaksi keskenään hieman erilaista mallia. Ensimmäisessä, perusluokittelumallissa vastaukset yhdistetään järjestäen luokiksi. Yleinen käytäntö on yhdistää esimerkiksi vastaajien iät viiden ikävuoden luokiksi tai työt ammattiryhmiksi.

Toinen yleinen luokittelumalli on arvojen harkinnanvarainen luokittelu. Se tarkoittaa, että vastauksista poistetaan tai karkeistetaan harvinaisia ääriarvoja. Jos esimerkiksi kyselyssä on mukana vain vähän iäkkäitä vastaajia, heidät voidaan yhdistää yhdeksi yli 50-vuotiaiden luokaksi.

Luokkia ei kannata yrittää keksiä itse, vaan apuna on hyvä käyttää Tilastokeskuksen vakiintuneita luokittelumalleja. Tilastokeskuksen luokitukset on suunniteltu huolella sellaisiksi, että ne ovat mahdollisimman yleisiä, mutta kuitenkin informatiivisia.

Kolmas yleinen anonymisointikeino on tunnisteiden poistaminen avokysymysten vastauksista. Tämä on tarpeen, jos tutkittavat ovat antaneet esimerkiksi harrastuksia koskeviin avokysymyksiin niin yksityiskohtaisia vastauksia, että heidät voi niiden perusteella tunnistaa.

Avokysymysten vastauksia ei yleensä tarvitse poistaa kokonaan, vaan niistä voi poimia yksittäisiä tunnisteellisia pätkiä, ja muuttaa ne anonyymimpään muotoon. Jos vastaaja esimerkiksi mainitsee asuvansa Humppilassa, vaikka vastaajan kotikunta ei saisi selvitä aineistosta, kunnan nimen voi muuttaa Tilastokeskuksen luokituksiin perustuen muotoon [maaseutumainen kunta Kanta-Hämeessä].

Aineistosta on pystyttävä erottamaan, mitkä kohdat avovastauksista on anonymisoitu, eli tekstiin tehdyt muutokset kannattaa merkitä selkeästi ja järjestelmällisesti. Hyvä ratkaisu on esimerkiksi hakasulkeiden käyttäminen.

Tarkempia esimerkkejä siitä, miten Haanpää on käytännössä anonymisoinut erilaisia aineistoja voi käydä katsomassa seminaarin tapahtumasivulta löytyvistä esitysmateriaaleista. Vastaava kvalitatiivisten aineistojen anonymisointia käsittelevä blogikirjoitus julkaistaan Tietoarkistoblogissa myöhemmin tämän kuun aikana.

Lisätietoja
» Seminaarin sivulta löydät esitysdiat ja myöhemmin myös videot
» Aineistonhallinnan käsikirja: Tunnisteellisuus ja anonymisointi

Kaisa Järvelä
tiedottaja
etunimi.sukunimi [at] uta.fi

Data Service Portal Aila: accessibility and practicality for non-Finnish speakers

The Finnish Social Science Data Archive (FSD) is one of the most important national resources for the collection and storing of social research data. Among the many services they offer, they aim to make research data available to everyone, free of char…

Data Service Portal Aila: accessibility and practicality for non-Finnish speakers

The Finnish Social Science Data Archive (FSD) is one of the most important national resources for the collection and storing of social research data. Among the many services they offer, they aim to make research data available to everyone, free of char…

Miten aineistot arkistoituvat Tietoarkistoon?

Kun tutkija tai tutkijaryhmä on lähettänyt tutkimusaineistonsa Tietoarkistoon arkistoitavaksi, varsinainen aineiston käsittelyprosessi vasta alkaa. Arkistoitavaksi toimitettu aineisto kulkee aina aineistonkäsittelijän sormien läpi ennen kuin se julkaistaan palveluportaali Ailassa jatkokäyttöä varten.

Erilaiset tietokoneohjelmat helpottavat, nopeuttavat ja virtaviivaistavat aineiston käsittelyä, mutta loppujen lopuksi aineiston käsittelyyn liittyvän työn tekevät ihmiset eivätkä koneet. Näin pystymme varmistamaan, että mitä moninaisimmat aineistot ovat tulevaisuudessakin tutkimusmaailman käytettävissä yhdenmukaiseksi suunniteltujen ohjeidemme mukaisesti.

Aineistonkäsittelijäntyö on Tietoarkiston ydintyötä, jota ilman Ailassa ei olisi jatkokäyttökelpoisia aineistoja. Tietoarkiston pitkäaikaiset tutkimusapulaiset Eliisa Haanpää (kvantitatiivisten aineistojen käsittely) ja Annika Sallinen (kvalitatiivisten aineistojen käsittely) kertovat, minkälaista aineistonkäsittelijän työ on, ja minkälaisen prosessin aineistot käyvät läpi ennen kuin ne ilmestyvät Ailaan.

Kyselytutkimukset arkistoituvat muuttuja muuttujalta

Eliisa

Aloitan kvantitatiivisen aineiston käsittelyn aina tutustumalla aineistoon, siihen sisältyviin muuttujiin sekä aineistoon liittyvään tutkimusraporttiin ja lisämateriaaliin. Avattuani datatiedoston, tarkastan ensimmäisenä kaikki muuttujat ja varmistan, että käsiteltävä data vastaa kyselylomaketta. Nimeän muuttujat kyselylomakkeen mukaisesti, mihin perustuen määrittelen myös muuttujien selitteet.

Tämän jälkeen arvioin aineiston tunnisteellisuutta ja arkaluontoisuutta, jonka jälkeen teen tarvittavat toimet vastaajien anonymiteetin säilyttämiseksi. Tässä vaiheessa apunani ovat usein Tilastokeskuksen erilaiset alue-, toimiala- ja tieteenalaluokitukset. Lopuksi vielä varsinaista dataa käsitellessäni tarkistan muuttujien frekvenssit suhteessa tutkimusraporttiin.

Käsittelen dataa SPSS:n syntaksin avulla. Numeroista ja loogisesta päättelystä pitävänä ihmisenä syntaksin työstäminen on mielestäni palkitsevaa puuhaa. Syntaksin tekemiseen sisältyy monia yksin ja yhdessä kollegojen kanssa pohdittavia haasteita, useita onnistumisen kokemuksia, kun komennot toimivat toivomallani tavalla ja tietysti työni kannalta tärkein tuotos, jatkokäyttöön valmistuva datatiedosto.

Varsinaisen datan valmistuttua siirryn aineiston kuvailuun, johon kuuluu muuttujien kuvailu sekä aineiston sisällöllinen kuvailu. Tietopankkina sisällöllistä kuvailua tehdessäni käytän tutkimusraporttia ja sieltä löytyviä aineistonkeruuseen liittyviä tietoja. Aineiston (eli datan sekä aineiston kuvailun) käsittelyn valmistuttua kirjaan tietokantaamme ”data valmis”-komennon, jonka jälkeen aineisto julkaistaan palveluportaali Ailassa.

Aineistoja käsitellessäni olen oppinut paljon paitsi tilastollisista menetelmistä ja kyselytutkimuksista, myös eri tieteenalojen tutkimusteemoista. Olen tähän mennessä käsitellyt aineistoja liittyen muun muassa lasten ja nuorten mediakäyttäytymiseen, lasten uhrikokemuksiin, suomalaisten hyvinvointiin, eduskuntavaaleihin, asumiseen ja kaupunkikuvaan, opiskeluun sekä vapaaehtoistoimintaan.

Aineiston käsittelyn eri vaiheissa olen yhteydessä yhteen tai useampaan tutkijaan, mikäli tarvitsen aineistosta lisätietoja. Yhteistyö sekä tutkijoiden suuntaan että kollegoiden kanssa on erittäin merkittävässä osassa työskentelyssäni aineistojen parissa.

Kvalitatiivisessa aineistossa tallentuu aina pala aikaa

Annika

Kvalitatiivisten aineistojen arkistointi poikkeaa kvantitatiivisten aineistojen arkistoinnista sikäli, ettei siinä tarvitse pohtia syntaksin komentoja, mutta lukulihaksia työ vaatii senkin edestä. Luemme tänne toimitetuista haastatteluista ja kirjoituksista jokaisen sivun. Tämä täytyy tehdä huolellisesti, että ihmisten tunnistetietoja ei jää luovutettavaan aineistoon. Tekstimassaa saattaa olla yhdessä aineistossa jopa lähes tuhat sivua.

Kvalitatiivisten aineistojen tarkastaminen on siis välillä uppoutumista lukemiseen, mutta työ sisältää myös järjestelmällistä tiedon poimimista sekä järjestelyä ja tietokoneohjelmien kanssa kikkailua – mikä on aina oma taiteenlajinsa.

Dokumentit nimetään järjestelmällisesti. Aineistojen taustatiedot järjestetään yhdenmukaisiksi ja niistä tehdään taustatietohakemisto jatkokäyttäjälle. Työssä käytetään lukuisia ohjelmia, joista tekninen palvelu keskustelee mm. termeillä DDI, HTML ja Python – minä keskityn opettelemaan konkreettisen käytön.

Koko arkistointiprosessin ajan teen muistiinpanoja eteen tulleista ongelmakohdista, niiden ratkaisuista ja vielä tehtävistä vaiheista. Listalla voi olla selvitettävänä, mitä tutkijan kryptinen merkintä muistiinpanoissa tarkoittaa, mihin teollisuusalaan karkeistetaan Suomussalmen Hallan lihajalostamo, sisältävätkö dokumentit piilodataa ja saisiko 400 erillisen tiedoston nimet muutettua automaattisesti toiseen muotoon, jotta kaikkea ei tarvitsisi tehdä käsin.

Kaikkeen löytyy yleensä vastaus, joko kollegoilta, tutkijoilta tai yhdeltä tärkeältä työkaverilta – internetistä. Netti on ollut oiva apu esimerkiksi tilanteessa, jossa oman pään kapasiteetti keksiä suomalaista naisten nimiä on tullut tiensä päätökseen.

Minun mielestäni kvalitatiivisten aineistojen arkistointi on erittäin mielenkiintoista, sillä tutkimusaineistoon perehtyminen on aina oma matkansa jonkin tieteenalan ja alueen tutkimuksen pariin. Aineistoja läpi kahlatessa oppii uusia käsitteitä ja ymmärtää taas elämää eri näkökulmista ehkä hitusen paremmin. Tutkittavat kertovat tutkijalle elämästään asioita, joita eivät muille välttämättä kerro. Työ sisältää myös varjopuolia. Koska kaikki työvaiheet vaativat tarkkuutta ja keskittymistä, silmien ja lukuhermojen ajoittaiselta väsymisiltä ei voi välttyä.

Arkistoinnin loppusuoralla kirjoitetaan vielä nettisivuille tuleva kuvaus aineistosta ja hiotaan aineiston yksityiskohtia. Esimerkiksi taustatietoihin tulee helposti virheitä. Minun tulee myös tarkastaa, että aineistoon on liitetty mukaan tutkimuskutsut, haastattelukysymykset ja muut tarvittavat dokumentit. Lisäksi haastattelukysymykset tulee tallentaa Aila-hakuun. Julkaisun jälkeen menen vielä nettisivuille katsomaan, että aineisto näyttää siellä siltä, miltä sen pitääkin!

Lisätietoa:
» Palveluportaali Aila

Annika Sallinen, tutkimusapulainen, etunimi.sukunimi [at] uta.fi
Eliisa Haanpää, tutkimusapulainen, etunimi.sukunimi [at] uta.fi

Miten aineistot arkistoituvat Tietoarkistoon?

Kun tutkija tai tutkijaryhmä on lähettänyt tutkimusaineistonsa Tietoarkistoon arkistoitavaksi, varsinainen aineiston käsittelyprosessi vasta alkaa. Arkistoitavaksi toimitettu aineisto kulkee aina aineistonkäsittelijän sormien läpi ennen kuin se julkaistaan palveluportaali Ailassa jatkokäyttöä varten.

Erilaiset tietokoneohjelmat helpottavat, nopeuttavat ja virtaviivaistavat aineiston käsittelyä, mutta loppujen lopuksi aineiston käsittelyyn liittyvän työn tekevät ihmiset eivätkä koneet. Näin pystymme varmistamaan, että mitä moninaisimmat aineistot ovat tulevaisuudessakin tutkimusmaailman käytettävissä yhdenmukaiseksi suunniteltujen ohjeidemme mukaisesti.

Aineistonkäsittelijäntyö on Tietoarkiston ydintyötä, jota ilman Ailassa ei olisi jatkokäyttökelpoisia aineistoja. Tietoarkiston pitkäaikaiset tutkimusapulaiset Eliisa Haanpää (kvantitatiivisten aineistojen käsittely) ja Annika Sallinen (kvalitatiivisten aineistojen käsittely) kertovat, minkälaista aineistonkäsittelijän työ on, ja minkälaisen prosessin aineistot käyvät läpi ennen kuin ne ilmestyvät Ailaan.

Kyselytutkimukset arkistoituvat muuttuja muuttujalta

Eliisa

Aloitan kvantitatiivisen aineiston käsittelyn aina tutustumalla aineistoon, siihen sisältyviin muuttujiin sekä aineistoon liittyvään tutkimusraporttiin ja lisämateriaaliin. Avattuani datatiedoston, tarkastan ensimmäisenä kaikki muuttujat ja varmistan, että käsiteltävä data vastaa kyselylomaketta. Nimeän muuttujat kyselylomakkeen mukaisesti, mihin perustuen määrittelen myös muuttujien selitteet.

Tämän jälkeen arvioin aineiston tunnisteellisuutta ja arkaluontoisuutta, jonka jälkeen teen tarvittavat toimet vastaajien anonymiteetin säilyttämiseksi. Tässä vaiheessa apunani ovat usein Tilastokeskuksen erilaiset alue-, toimiala- ja tieteenalaluokitukset. Lopuksi vielä varsinaista dataa käsitellessäni tarkistan muuttujien frekvenssit suhteessa tutkimusraporttiin.

Käsittelen dataa SPSS:n syntaksin avulla. Numeroista ja loogisesta päättelystä pitävänä ihmisenä syntaksin työstäminen on mielestäni palkitsevaa puuhaa. Syntaksin tekemiseen sisältyy monia yksin ja yhdessä kollegojen kanssa pohdittavia haasteita, useita onnistumisen kokemuksia, kun komennot toimivat toivomallani tavalla ja tietysti työni kannalta tärkein tuotos, jatkokäyttöön valmistuva datatiedosto.

Varsinaisen datan valmistuttua siirryn aineiston kuvailuun, johon kuuluu muuttujien kuvailu sekä aineiston sisällöllinen kuvailu. Tietopankkina sisällöllistä kuvailua tehdessäni käytän tutkimusraporttia ja sieltä löytyviä aineistonkeruuseen liittyviä tietoja. Aineiston (eli datan sekä aineiston kuvailun) käsittelyn valmistuttua kirjaan tietokantaamme ”data valmis”-komennon, jonka jälkeen aineisto julkaistaan palveluportaali Ailassa.

Aineistoja käsitellessäni olen oppinut paljon paitsi tilastollisista menetelmistä ja kyselytutkimuksista, myös eri tieteenalojen tutkimusteemoista. Olen tähän mennessä käsitellyt aineistoja liittyen muun muassa lasten ja nuorten mediakäyttäytymiseen, lasten uhrikokemuksiin, suomalaisten hyvinvointiin, eduskuntavaaleihin, asumiseen ja kaupunkikuvaan, opiskeluun sekä vapaaehtoistoimintaan.

Aineiston käsittelyn eri vaiheissa olen yhteydessä yhteen tai useampaan tutkijaan, mikäli tarvitsen aineistosta lisätietoja. Yhteistyö sekä tutkijoiden suuntaan että kollegoiden kanssa on erittäin merkittävässä osassa työskentelyssäni aineistojen parissa.

Kvalitatiivisessa aineistossa tallentuu aina pala aikaa

Annika

Kvalitatiivisten aineistojen arkistointi poikkeaa kvantitatiivisten aineistojen arkistoinnista sikäli, ettei siinä tarvitse pohtia syntaksin komentoja, mutta lukulihaksia työ vaatii senkin edestä. Luemme tänne toimitetuista haastatteluista ja kirjoituksista jokaisen sivun. Tämä täytyy tehdä huolellisesti, että ihmisten tunnistetietoja ei jää luovutettavaan aineistoon. Tekstimassaa saattaa olla yhdessä aineistossa jopa lähes tuhat sivua.

Kvalitatiivisten aineistojen tarkastaminen on siis välillä uppoutumista lukemiseen, mutta työ sisältää myös järjestelmällistä tiedon poimimista sekä järjestelyä ja tietokoneohjelmien kanssa kikkailua – mikä on aina oma taiteenlajinsa.

Dokumentit nimetään järjestelmällisesti. Aineistojen taustatiedot järjestetään yhdenmukaisiksi ja niistä tehdään taustatietohakemisto jatkokäyttäjälle. Työssä käytetään lukuisia ohjelmia, joista tekninen palvelu keskustelee mm. termeillä DDI, HTML ja Python – minä keskityn opettelemaan konkreettisen käytön.

Koko arkistointiprosessin ajan teen muistiinpanoja eteen tulleista ongelmakohdista, niiden ratkaisuista ja vielä tehtävistä vaiheista. Listalla voi olla selvitettävänä, mitä tutkijan kryptinen merkintä muistiinpanoissa tarkoittaa, mihin teollisuusalaan karkeistetaan Suomussalmen Hallan lihajalostamo, sisältävätkö dokumentit piilodataa ja saisiko 400 erillisen tiedoston nimet muutettua automaattisesti toiseen muotoon, jotta kaikkea ei tarvitsisi tehdä käsin.

Kaikkeen löytyy yleensä vastaus, joko kollegoilta, tutkijoilta tai yhdeltä tärkeältä työkaverilta – internetistä. Netti on ollut oiva apu esimerkiksi tilanteessa, jossa oman pään kapasiteetti keksiä suomalaista naisten nimiä on tullut tiensä päätökseen.

Minun mielestäni kvalitatiivisten aineistojen arkistointi on erittäin mielenkiintoista, sillä tutkimusaineistoon perehtyminen on aina oma matkansa jonkin tieteenalan ja alueen tutkimuksen pariin. Aineistoja läpi kahlatessa oppii uusia käsitteitä ja ymmärtää taas elämää eri näkökulmista ehkä hitusen paremmin. Tutkittavat kertovat tutkijalle elämästään asioita, joita eivät muille välttämättä kerro. Työ sisältää myös varjopuolia. Koska kaikki työvaiheet vaativat tarkkuutta ja keskittymistä, silmien ja lukuhermojen ajoittaiselta väsymisiltä ei voi välttyä.

Arkistoinnin loppusuoralla kirjoitetaan vielä nettisivuille tuleva kuvaus aineistosta ja hiotaan aineiston yksityiskohtia. Esimerkiksi taustatietoihin tulee helposti virheitä. Minun tulee myös tarkastaa, että aineistoon on liitetty mukaan tutkimuskutsut, haastattelukysymykset ja muut tarvittavat dokumentit. Lisäksi haastattelukysymykset tulee tallentaa Aila-hakuun. Julkaisun jälkeen menen vielä nettisivuille katsomaan, että aineisto näyttää siellä siltä, miltä sen pitääkin!

Lisätietoa:
» Palveluportaali Aila

Annika Sallinen, tutkimusapulainen, etunimi.sukunimi [at] uta.fi
Eliisa Haanpää, tutkimusapulainen, etunimi.sukunimi [at] uta.fi

Teekkarin näkemys aineistojen luokittelusta

Teksti käsittelee kvalitatiivisen ja kvantitatiivisen datan rajanvetoa teknis-luonnontieteelliseltä alalta tietoarkistoon siirtyneen henkilön näkökulmasta. Kirjoittaja Jani Hautamäki on toiminut aiemmin paikannus- ja navigointitekniikoiden tutkimusryhmässä.

Kvalitatiivista ja kvantitatiivista dataa

Yhteiskuntatieteissä aineistoja luokitellaan kvalitatiivisiksi ja kvantitatiivisiksi. Määrälliset aineistot, kuten surveyt, luokitellaan kvantiksi. Vastaavasti laadulliset aineistot, kuten haastattelut, luokitellaan kvaliksi. Luokittelu vaikuttaa selkeältä ja dikotomiselta, mutta onnistuuko sen soveltaminen aina yhtä helposti?

Fysikaaliset mittaukset ovat yksi aineistotyyppi, johon yhteiskuntatieteissä ei törmää, mutta joka on teknisillä aloilla arkipäiväistä. Tällaista dataa syntyy, kun mitataan fysikaalista suuretta, esimerkiksi kulmanopeutta tai lämpötilaa. Vaikka fysikaalinen mittausdata ei ole yhteiskuntatieteille kovin tuttua, onnistuu sen luokittelu vaivatta. Fysikaaliset mittaukset ovat epäilyksettä kvantitatiivista dataa.

Joidenkin aineistojen luokittelu suoralta kädeltä yhteen kategoriaan ei ole yhtä helppoa. Esimerkiksi runsaasti avokysymyksiä sisältävän surveydatan luokittelisi mieluusti molemmiksi, sekä kvanti- että kvalidataksi. Toinen hankalasti luokiteltava aineistotyyppi on kartat. Mikä tekee kartoista niin hankalia luokittelun kannalta?

Varhaiset kartat tehtiin käsityönä. Ne esittivät pääasiassa kartantekijän subjektiivista kokemusta, näkemystä ja uskomusta ympäröivästä maailmasta. Subjektiivisuutensa takia varhaiset kartat voidaan helposti luokitella kvalitatiiviseksi dataksi. Nykyaikaisten karttojen luonti sen sijaan perustuu mittaamiselle (toinen merkitys survey-sanalle).

Suosittu digitaalisen paikkatiedon tallennusformaatti muodostaa karttakuvan käyttäen yksittäisiä pisteitä, murtoviivoja ja monikulmioita. Murtoviivat ja monikulmiot rakennetaan yhdistämällä yksittäisiä pisteitä suorilla viivoilla. Murtoviivoilla voidaan esittää vaikka jokia ja teitä, ja monikulmioilla voidaan esittää esimerkiksi järviä, peltoja ja taloja.

Nykyaikaisen karttadatan luokittelussa ongelmaksi muodostuu, että data näyttää koostuvan osaksi fysikaalisesta mittausdatasta (yksittäiset pisteet), ja osaksi ihmisten subjektiivisesti päättämistä piirteistä kuten mitkä pisteet yhteen liitettyinä muodostavat järven, tien tai talon. Onko kyseessä kvali vai kvanti? Vai olisiko tällainen karttadata jotenkin sama asia kuin runsaasti avokysymyksiä sisältävä surveydata eli sekä–että?

Mihin ”datalla” viitataan?

Kun puhumme, että data on kvalitatiivista tai kvantitatiivista, mitä oikein tarkoitamme datalla? Mihin tarkalleen ottaen viittaamme?

Yhteiskuntatieteellinen tietoarkisto on muistiorganisaatio, joka arkistoi pelkästään digitaalista aineistoa. Tämä tarkoittaa käytännössä sitä, että mitä ikinä aineisto onkaan alun perin sisältänyt, suodattuu tietoarkistoon alkuperäisestä aineistosta vain bitteinä tallennettavissa oleva osa. Esimerkiksi tyypilistä kvaliaineistoa edustava avoin haastattelu arkistoidaan tavallisesti äänitallenteena tai sen pohjalta tehtynä litteraationa.

Aineiston jatkokäyttäjän ja toisaalta myös tietoarkiston näkökulmasta haastattelu on lähes yhtä kuin siitä luotu digitaalinen tallenne eli teksti-ja äänitiedosto. Nämä kaksi, itse haastattelu ja siitä syntynyt digitaalinen muistijälki, eivät tietenkään ole samoja asioita. Niiden välinen ero olisikin hyvä palauttaa mieleen aina silloin tällöin, kun digitaalisia aineistoja käsittelee. Helppoa se ei välttämättä ole, ainakaan aloittelijalle.

Tekniseltä alalta tulleena on saanut henkilökohtaisesti kokea, kuinka sujuvasti ja huomaamattomasti mieli käsittelee näitä kahta lähtökohtaisesti enemmän tai vähemmän samoina, toisiinsa kietoutuneina ja sekoittuneina asioina. Niiden erottaminen toisistaan on vaatinut eron oivaltamista ja aktiivista poisoppimista entisistä ajattelutavoista.

Mihin datalla oikein viitataan? Yllä eroteltiin toisistaan itse tapahtuma ja siitä syntynyt digitaalinen muistijälki. Erottelun seurauksena tarjolla on nyt ainakin kaksi selvää vaihtoehtoa sille, mihin datalla viitataan. Oma suosikkini vaihtoehdoista on, että datalla viitataan digitaaliseen muistijälkeen eli tiedostoihin ja bitteihin. Se on vaihtoehdoista konkreettisempi. Luultavasti samasta syystä se myös tuntuu luonnollisemmalta vaihtoehdolta.

Kvalitatiivinen data = fysikaalinen mittausdata

Tehty valinta johtaa radikaalilta tuntuvaan väittämään, että tyypillinen kvalidata eli digitaaliset ääni- ja kuvatallenteet ovat oikeastaan luonnontieteiden fysikaalista mittausdataa. Kuinka tähän väittämään on päädytty?

Tarkastellaan dataa suurennuslasilla ja selvitetään, mistä datan yksittäiset tavut ja tavujen bitit tulevat. Digitaalisen tallenteen bitit syntyvät karkeasti ottaen kaksivaiheisen prosessin tuloksena. Ensimmäisessä vaiheessa on fysikaalista suuretta aistiva anturi, joka muuttaa mittauksen sähköjännitteeksi tai -virraksi. Toisessa vaiheessa on muunnin, joka likimääräistää jännitteen tai virran digitaaliseksi arvoksi, esimerkiksi kokonaisluvuksi välille 0–65535.

Kaikki digitaaliset tallenteet eivät suinkaan ole fysikaalista mittausdataa. Esimerkiksi sävellysohjelmalla luodut musiikkikappaleet tai suunnitteluohjelmalla piirretyt kuvat ovat digitaalisena syntyneitä. Siitä huolimatta suurin osa laadullisista aineistoista on digitaalisia ääni-, kuva- ja videotallenteita eli fysikaalista mittausdataa. Vaikka data olisikin synteettistä ja digitaalisena syntynyttä, sillä on usein mielekäs fysikaalinen tulkinta, jota käytetään datan esittämiseen esimerkiksi äänenä tai kuvana. Tämä hämärtää kvali- ja kvantidatan rajanvetoa, ja aiheuttaa ihmettelyä, kuinka data tulisi luokitella.

Laadullisten aineistojen digitaaliset tallenteet vaikuttavat todella olevan fysikaalista mittausdataa. Voisiko tekniikan ja luonnontieteiden käyttämillä aineistoilla olla muutakin samaa yhteiskuntatieteiden laadullisten aineistojen kanssa kuin pelkkä aineistotyyppi? Vastaus on kyllä. Valmistautukaa kohtaamaan tuttu data uudesta, vieraasta ja ehkä yllättävästäkin näkökulmasta!

Sekä teknis-luonnontieteellisillä että yhteiskuntatieteellisillä aloilla käytetään samankaltaista, ellei peräti täysin samaa dataa. Digitoitua ääntä, kuvaa ja videokuvaa erilaisista asioista, ilmiöistä, tilanteista, ihmisistä ja paikoista. Seuraavat esimerkit näyttävät, kuinka samaa kvalidataa voidaan käyttää teknis-luonnontieteellisillä aloilla tarkoituksiin, joita ei ole ehkä aikaisemmin tullut ajatelleeksi.

Esimerkiksi turvakameran videokuva soveltuu yhtä hyvin käytettäväksi niin teknis-luonnontieteelliseen kuin yhteiskuntatieteelliseen tutkimukseen.

Samoin on erään tosi-tv-ohjelman laita.

Luultavasti sisätiloissa otetut valokuvatkin kelpaavat dataksi tieteenalaan katsomatta.

Tekniikan alalla kuvien ja äänen tarkastelu fysikaalisena mittausdatana ja kvantitatiivinen käsittely on arkipäivää. Asiaa opiskellaan tavallisesti signaalinkäsittelyn kursseilla. Jos teknis-luonnontieteellisen alan ihmiseltä kysyttäisiin, luokittelisiko hän käyttämänsä ääni- ja kuvadatan laadullisiksi, veikkaisin vastauksen olevan kielteinen. Laadullisia aineistotyyppejä edustavat ääni, kuva ja videokuva koetaan teknisillä aloilla kvantitatiivisena datana. Uskon, että datan kvantitatiivinen käsittely vahvistaa kokemusta myös itse datan kvantitatiivisuudesta. Miksei sama pätisi datalle kvalitatiivisenkin käsittelyn suhteen?

Tutkimusmenetelmä: datan ja informaation välinen prosessi

Näiden esimerkkien ja pohdintojen perusteella datassa itsessään ei vaikuta olevan mitään sellaisia sisäisiä ominaisuuksia, joihin nojautuen datan luokittelu joko kvantitatiiviseksi tai kvalitatiiviseksi kävisi mahdolliseksi. Luokittelu kvantiin ja kvaliin tapahtuu pikemminkin sen perusteella, mihin dataa aiotaan käyttää, mitä informaatiota siitä halutaan saada irti tai kuinka dataa kuvitellaan analysoitavan tulevaisuudessa. Se, että luokittelemme datan, kertoo oikeastaan enemmän itsestämme kuin datasta!

Datan sijasta luokitteluperiaatteen keskiöön näyttääkin nousevan datan ja siitä tuotetun informaation välinen prosessi, tutkimusmenetelmä.

Esimerkiksi surveydatasta hankitaan informaatiota käyttäen matemaattista koneistoa. Tilastomatematiikan menetelmät käsittelevät datamatriiseja siinä mielessä objektiivisesti, että prosessi koostuu ennalta määrätyistä askelista ja on toistettavissa. Samalla tavalla esimerkiksi kuvasta tapahtuva hahmontunnistus hyödyntää matemaattista koneistoa ja tuottaa samalla syötteellä aina saman lopputuloksen. Kummassakin tapauksessa data koetaan luultavasti enemmän kvantitatiivisena.

Jos ihminen tulkitsee dataa ja tuottaa siitä informaatiota, syntyy informaatio enemmän tai vähemmän subjektiivisella prosessilla. Tällöin data koetaan luultavasti mieluummin kvalitatiivisena. Ihmisen tuottama informaatio voi olla luonteeltaan sellaista, että se olisi voitu tuottaa myös matemaattisella koneistolla, esimerkiksi kasvojen tunnistaminen kuvasta. Vaikka ihminen tuottaa tällaista informaatiota, niin ihmisen keskeinen rooli prosessissa vaikuttaa siihen, että informaation luonteesta ja prosessin objektiivisuudesta huolimatta data koetaan mieluummin kvalitatiivsena.

Vaikuttaa siltä, että mitä subjektiivisempi matka datasta informaatioksi on, sitä kernaammin data luokitellaan kvalitatiiviseksi. Vastaavasti mitä objektiivisemmin informaatio voidaan tuottaa datasta, sitä helpommin data nähdään kvantitatiivisena. Vaikka luokittelu soveltuu tutkimusmenetelmiin paremmin kuin dataan, näyttää tutkimusmenetelmien luokittelu tarttuvan aiheettomasti itse dataan. Tartunta tapahtuu mahdollisten jatkokäyttäjien kustannuksella. Datan luokittelu yhteen kategoriaan saattaa rajata pois toisen kategorian menetelmiä hyödyntäviä jatkokäyttäjiä.

Koska datan luokittelu kertoo enemmän meistä ja menetelmistämme kuin itse datasta, ehkä siitä voidaan hiljalleen luopua. Lopulta meillä on kuitenkin vain yksi data, monta tulkintaa.

Jani Hautamäki,
järjestelmäsuunnittelija
etunimi.sukunimi [at] uta.fi

Teekkarin näkemys aineistojen luokittelusta

Teksti käsittelee kvalitatiivisen ja kvantitatiivisen datan rajanvetoa teknis-luonnontieteelliseltä alalta tietoarkistoon siirtyneen henkilön näkökulmasta. Kirjoittaja Jani Hautamäki on toiminut aiemmin paikannus- ja navigointitekniikoiden tutkimusryhmässä.

Kvalitatiivista ja kvantitatiivista dataa

Yhteiskuntatieteissä aineistoja luokitellaan kvalitatiivisiksi ja kvantitatiivisiksi. Määrälliset aineistot, kuten surveyt, luokitellaan kvantiksi. Vastaavasti laadulliset aineistot, kuten haastattelut, luokitellaan kvaliksi. Luokittelu vaikuttaa selkeältä ja dikotomiselta, mutta onnistuuko sen soveltaminen aina yhtä helposti?

Fysikaaliset mittaukset ovat yksi aineistotyyppi, johon yhteiskuntatieteissä ei törmää, mutta joka on teknisillä aloilla arkipäiväistä. Tällaista dataa syntyy, kun mitataan fysikaalista suuretta, esimerkiksi kulmanopeutta tai lämpötilaa. Vaikka fysikaalinen mittausdata ei ole yhteiskuntatieteille kovin tuttua, onnistuu sen luokittelu vaivatta. Fysikaaliset mittaukset ovat epäilyksettä kvantitatiivista dataa.

Joidenkin aineistojen luokittelu suoralta kädeltä yhteen kategoriaan ei ole yhtä helppoa. Esimerkiksi runsaasti avokysymyksiä sisältävän surveydatan luokittelisi mieluusti molemmiksi, sekä kvanti- että kvalidataksi. Toinen hankalasti luokiteltava aineistotyyppi on kartat. Mikä tekee kartoista niin hankalia luokittelun kannalta?

Varhaiset kartat tehtiin käsityönä. Ne esittivät pääasiassa kartantekijän subjektiivista kokemusta, näkemystä ja uskomusta ympäröivästä maailmasta. Subjektiivisuutensa takia varhaiset kartat voidaan helposti luokitella kvalitatiiviseksi dataksi. Nykyaikaisten karttojen luonti sen sijaan perustuu mittaamiselle (toinen merkitys survey-sanalle).

Suosittu digitaalisen paikkatiedon tallennusformaatti muodostaa karttakuvan käyttäen yksittäisiä pisteitä, murtoviivoja ja monikulmioita. Murtoviivat ja monikulmiot rakennetaan yhdistämällä yksittäisiä pisteitä suorilla viivoilla. Murtoviivoilla voidaan esittää vaikka jokia ja teitä, ja monikulmioilla voidaan esittää esimerkiksi järviä, peltoja ja taloja.

Nykyaikaisen karttadatan luokittelussa ongelmaksi muodostuu, että data näyttää koostuvan osaksi fysikaalisesta mittausdatasta (yksittäiset pisteet), ja osaksi ihmisten subjektiivisesti päättämistä piirteistä kuten mitkä pisteet yhteen liitettyinä muodostavat järven, tien tai talon. Onko kyseessä kvali vai kvanti? Vai olisiko tällainen karttadata jotenkin sama asia kuin runsaasti avokysymyksiä sisältävä surveydata eli sekä–että?

Mihin ”datalla” viitataan?

Kun puhumme, että data on kvalitatiivista tai kvantitatiivista, mitä oikein tarkoitamme datalla? Mihin tarkalleen ottaen viittaamme?

Yhteiskuntatieteellinen tietoarkisto on muistiorganisaatio, joka arkistoi pelkästään digitaalista aineistoa. Tämä tarkoittaa käytännössä sitä, että mitä ikinä aineisto onkaan alun perin sisältänyt, suodattuu tietoarkistoon alkuperäisestä aineistosta vain bitteinä tallennettavissa oleva osa. Esimerkiksi tyypilistä kvaliaineistoa edustava avoin haastattelu arkistoidaan tavallisesti äänitallenteena tai sen pohjalta tehtynä litteraationa.

Aineiston jatkokäyttäjän ja toisaalta myös tietoarkiston näkökulmasta haastattelu on lähes yhtä kuin siitä luotu digitaalinen tallenne eli teksti-ja äänitiedosto. Nämä kaksi, itse haastattelu ja siitä syntynyt digitaalinen muistijälki, eivät tietenkään ole samoja asioita. Niiden välinen ero olisikin hyvä palauttaa mieleen aina silloin tällöin, kun digitaalisia aineistoja käsittelee. Helppoa se ei välttämättä ole, ainakaan aloittelijalle.

Tekniseltä alalta tulleena on saanut henkilökohtaisesti kokea, kuinka sujuvasti ja huomaamattomasti mieli käsittelee näitä kahta lähtökohtaisesti enemmän tai vähemmän samoina, toisiinsa kietoutuneina ja sekoittuneina asioina. Niiden erottaminen toisistaan on vaatinut eron oivaltamista ja aktiivista poisoppimista entisistä ajattelutavoista.

Mihin datalla oikein viitataan? Yllä eroteltiin toisistaan itse tapahtuma ja siitä syntynyt digitaalinen muistijälki. Erottelun seurauksena tarjolla on nyt ainakin kaksi selvää vaihtoehtoa sille, mihin datalla viitataan. Oma suosikkini vaihtoehdoista on, että datalla viitataan digitaaliseen muistijälkeen eli tiedostoihin ja bitteihin. Se on vaihtoehdoista konkreettisempi. Luultavasti samasta syystä se myös tuntuu luonnollisemmalta vaihtoehdolta.

Kvalitatiivinen data = fysikaalinen mittausdata

Tehty valinta johtaa radikaalilta tuntuvaan väittämään, että tyypillinen kvalidata eli digitaaliset ääni- ja kuvatallenteet ovat oikeastaan luonnontieteiden fysikaalista mittausdataa. Kuinka tähän väittämään on päädytty?

Tarkastellaan dataa suurennuslasilla ja selvitetään, mistä datan yksittäiset tavut ja tavujen bitit tulevat. Digitaalisen tallenteen bitit syntyvät karkeasti ottaen kaksivaiheisen prosessin tuloksena. Ensimmäisessä vaiheessa on fysikaalista suuretta aistiva anturi, joka muuttaa mittauksen sähköjännitteeksi tai -virraksi. Toisessa vaiheessa on muunnin, joka likimääräistää jännitteen tai virran digitaaliseksi arvoksi, esimerkiksi kokonaisluvuksi välille 0–65535.

Kaikki digitaaliset tallenteet eivät suinkaan ole fysikaalista mittausdataa. Esimerkiksi sävellysohjelmalla luodut musiikkikappaleet tai suunnitteluohjelmalla piirretyt kuvat ovat digitaalisena syntyneitä. Siitä huolimatta suurin osa laadullisista aineistoista on digitaalisia ääni-, kuva- ja videotallenteita eli fysikaalista mittausdataa. Vaikka data olisikin synteettistä ja digitaalisena syntynyttä, sillä on usein mielekäs fysikaalinen tulkinta, jota käytetään datan esittämiseen esimerkiksi äänenä tai kuvana. Tämä hämärtää kvali- ja kvantidatan rajanvetoa, ja aiheuttaa ihmettelyä, kuinka data tulisi luokitella.

Laadullisten aineistojen digitaaliset tallenteet vaikuttavat todella olevan fysikaalista mittausdataa. Voisiko tekniikan ja luonnontieteiden käyttämillä aineistoilla olla muutakin samaa yhteiskuntatieteiden laadullisten aineistojen kanssa kuin pelkkä aineistotyyppi? Vastaus on kyllä. Valmistautukaa kohtaamaan tuttu data uudesta, vieraasta ja ehkä yllättävästäkin näkökulmasta!

Sekä teknis-luonnontieteellisillä että yhteiskuntatieteellisillä aloilla käytetään samankaltaista, ellei peräti täysin samaa dataa. Digitoitua ääntä, kuvaa ja videokuvaa erilaisista asioista, ilmiöistä, tilanteista, ihmisistä ja paikoista. Seuraavat esimerkit näyttävät, kuinka samaa kvalidataa voidaan käyttää teknis-luonnontieteellisillä aloilla tarkoituksiin, joita ei ole ehkä aikaisemmin tullut ajatelleeksi.

Esimerkiksi turvakameran videokuva soveltuu yhtä hyvin käytettäväksi niin teknis-luonnontieteelliseen kuin yhteiskuntatieteelliseen tutkimukseen.

Samoin on erään tosi-tv-ohjelman laita.

Luultavasti sisätiloissa otetut valokuvatkin kelpaavat dataksi tieteenalaan katsomatta.

Tekniikan alalla kuvien ja äänen tarkastelu fysikaalisena mittausdatana ja kvantitatiivinen käsittely on arkipäivää. Asiaa opiskellaan tavallisesti signaalinkäsittelyn kursseilla. Jos teknis-luonnontieteellisen alan ihmiseltä kysyttäisiin, luokittelisiko hän käyttämänsä ääni- ja kuvadatan laadullisiksi, veikkaisin vastauksen olevan kielteinen. Laadullisia aineistotyyppejä edustavat ääni, kuva ja videokuva koetaan teknisillä aloilla kvantitatiivisena datana. Uskon, että datan kvantitatiivinen käsittely vahvistaa kokemusta myös itse datan kvantitatiivisuudesta. Miksei sama pätisi datalle kvalitatiivisenkin käsittelyn suhteen?

Tutkimusmenetelmä: datan ja informaation välinen prosessi

Näiden esimerkkien ja pohdintojen perusteella datassa itsessään ei vaikuta olevan mitään sellaisia sisäisiä ominaisuuksia, joihin nojautuen datan luokittelu joko kvantitatiiviseksi tai kvalitatiiviseksi kävisi mahdolliseksi. Luokittelu kvantiin ja kvaliin tapahtuu pikemminkin sen perusteella, mihin dataa aiotaan käyttää, mitä informaatiota siitä halutaan saada irti tai kuinka dataa kuvitellaan analysoitavan tulevaisuudessa. Se, että luokittelemme datan, kertoo oikeastaan enemmän itsestämme kuin datasta!

Datan sijasta luokitteluperiaatteen keskiöön näyttääkin nousevan datan ja siitä tuotetun informaation välinen prosessi, tutkimusmenetelmä.

Esimerkiksi surveydatasta hankitaan informaatiota käyttäen matemaattista koneistoa. Tilastomatematiikan menetelmät käsittelevät datamatriiseja siinä mielessä objektiivisesti, että prosessi koostuu ennalta määrätyistä askelista ja on toistettavissa. Samalla tavalla esimerkiksi kuvasta tapahtuva hahmontunnistus hyödyntää matemaattista koneistoa ja tuottaa samalla syötteellä aina saman lopputuloksen. Kummassakin tapauksessa data koetaan luultavasti enemmän kvantitatiivisena.

Jos ihminen tulkitsee dataa ja tuottaa siitä informaatiota, syntyy informaatio enemmän tai vähemmän subjektiivisella prosessilla. Tällöin data koetaan luultavasti mieluummin kvalitatiivisena. Ihmisen tuottama informaatio voi olla luonteeltaan sellaista, että se olisi voitu tuottaa myös matemaattisella koneistolla, esimerkiksi kasvojen tunnistaminen kuvasta. Vaikka ihminen tuottaa tällaista informaatiota, niin ihmisen keskeinen rooli prosessissa vaikuttaa siihen, että informaation luonteesta ja prosessin objektiivisuudesta huolimatta data koetaan mieluummin kvalitatiivsena.

Vaikuttaa siltä, että mitä subjektiivisempi matka datasta informaatioksi on, sitä kernaammin data luokitellaan kvalitatiiviseksi. Vastaavasti mitä objektiivisemmin informaatio voidaan tuottaa datasta, sitä helpommin data nähdään kvantitatiivisena. Vaikka luokittelu soveltuu tutkimusmenetelmiin paremmin kuin dataan, näyttää tutkimusmenetelmien luokittelu tarttuvan aiheettomasti itse dataan. Tartunta tapahtuu mahdollisten jatkokäyttäjien kustannuksella. Datan luokittelu yhteen kategoriaan saattaa rajata pois toisen kategorian menetelmiä hyödyntäviä jatkokäyttäjiä.

Koska datan luokittelu kertoo enemmän meistä ja menetelmistämme kuin itse datasta, ehkä siitä voidaan hiljalleen luopua. Lopulta meillä on kuitenkin vain yksi data, monta tulkintaa.

Jani Hautamäki,
järjestelmäsuunnittelija
etunimi.sukunimi [at] uta.fi