Tag Archives: jatkokäyttö

Tietoarkisto mahdollistamassa kansainvälistä vertailevaa tutkimusta

Suuri osa Tietoarkiston tekemästä työstä on kansainvälistä yhteistyötä, johon kuuluu myös kaksi merkittävää kansainvälistä aineistonkeruuohjelmaa: International Social Survey Programme (ISSP) ja European Values Survey (EVS). Tietoarkisto on mukana näid…

FSD Enabling Cross-National Comparative Research

A lot of the work done at FSD is related to our international collaboration, which also includes two significant international survey programmes: International Social Survey Programme (ISSP) and European Values Survey (EVS). FSD is involved in the plan…

Tietoarkisto ja aineistonhallinta koronakriisin aikaan

Tietoarkistossa siirryttiin nopeasti etätyöskentelyyn maaliskuun puolivälissä. Onneksi etätyön mahdollistavia tietoteknisiä ratkaisuja oli otettu käyttöön jo aiemmin ja Tietoarkistolle räätälöityä etäyhteyttä valmisteltu Tietoarkiston teknisten palvelu…

Anonymisointi luontevaksi osaksi tutkimusprosessia

Aineistonhallinta vaatii tutkijalta entistä enemmän osaamista. Tutkijan tulisi opiskella muuttuneet tietosuojakäytänteet ja toisaalta pitäisi pystyä vastaamaan myös datan avoimuuden haasteeseen. Usein aineiston arkistoiminen jatkokäyttöön on mahdollista vain anonyyminä. Anonymisoinnin osaaminen ja resursointi nousevat tässä vaiheessa keskeiseen asemaan. Tutkijoiden näkökulmasta lisävaatimukset eivät ole aina mieluisia, sillä usein anonymisointiin ei ole varattu aikaa ja toisaalta ei ole myöskään tietoa, miten aineisto saatetaan anonyymiksi. Jonkin pitää muuttua, mutta miten?

Mieti anonymisointia jo tutkimusprosessin alussa

Uudet vaatimukset otetaan haltuun muuttamalla käsitystä anonymisoinnista ja kasvattamalla anonymisoinnin osaamista. Tästä lähtien tutkimusprojekteissa tulee jo alkuvaiheessa resursoida anonymisoinnin suunnitteluun ja toteuttamiseen. Käsitys siitä, että anonymisointi on jotain, jota tehdään vain aineistonkeruuvaiheessa poistamalla suorat tunnisteet tai tutkimusprosessin loppuvaiheessa ennen arkistointia, tulisi heittää romukoppaan.

Ensinnäkään anonymisointi ei ole vain suorien tunnisteiden poistamista, vaan vaatii laajemman aineiston sisällön tarkastelun ja tietojen suhteuttamisen ulkopuolelta saataviin tietoihin. Anonymisoinnissa pyritään ymmärtämään, minkä tiedon poistaminen on tarpeellista, ja miten tietojen poistaminen vaikuttaa aineiston käytettävyyteen. Toiseksi anonymisointia tulee miettiä jo tutkimusprosessin alussa, sillä henkilötiedot tulee kerätä tietosuoja-asetuksen minimoinnin periaatteen mukaan eli keräämällä vain tutkimuksen kannalta tarpeellisia tietoja. Henkilötietojen keruun huolellisella suunnittelulla voi vähentää oleellisesti anonymisointiin myöhemmin kuluvaa aikaa.

Miten kerättäviä tietoja voi minimoida?

Määrällisissä aineistonkeruissa anonymisointia vaativien tietojen keruuta pystyy minimoimaan tehokkaasti välttämällä avokysymyksiä, joiden sisältöä tutkija ei voi kontrolloida. Kannattaa välttää myös kysymyksiä, joiden perusteella vastaajasta paljastuu kohdejoukkoon nähden harvinaisia tietoja. Tietoja suositellaan kerättäväksi valmiiksi luokiteltuna, niin että kysytään esimerkiksi yksittäisen harrastuksen sijaan harrastustyyppiä. Kirjoitettavan avovastauksen ”pelaan jalkapalloa Äänekosken Huimassa” sijaan vastaaja voi valita esimerkiksi luokitellun arvon ”palloilulajit”, eikä tutkijan tarvitse anonymisoida paikkakuntaa ja seuraa. Erityisesti taustatietojen kysyminen luokiteltuna ehkäisee oleellisesti myöhäisempää anonymisointitarvetta niin kvalitatiivisissa kuin kvantitatiivisissa aineistoissa.

Laadullisissa aineistoissa sisällön etukäteen rajoittaminen on hankalampaa, mutta sitä voi helpottaa muutaman hyödyllisen vinkin avulla. Esimerkiksi haastatteluissa ja kirjoitusaineistoissa haastateltavien taustatiedot kannattaa kerätä strukturoituna, henkilöiden vapaamuotoisten esittelyjen sijaan. Haastattelun aluksi haastattelija voi esimerkiksi pyytää iän, ammatin ja lasten lukumäärän luokiteltuna. Haastateltavia voi myös muistuttaa aluksi ystävällisesti, jos haastattelun luonne antaa siihen mahdollisuuden, että he eivät kertoisi ihmisten oikeita nimiä tai muita tarkkoja tietoja. Tutkija voi myös välttää liian yksityiskohtaista tietoa tuottavien kysymysten esittämisen.

Yleisimmät ongelmat anonymisoinnissa

Koska anonymisointiin ei ole valmiina kaikkiin aineistoihin sopivia ohjeistuksia, se voidaan kokea haasteellisena. Usein ongelmana on hahmottaa, mitä tietoja tulee anonymisoida ja mitä tietoja voidaan jättää. Tutkija saattaa myös ajatella, ettei sensitiivistä aineistoa voi saattaa anonyymiksi. Anonymisoinnin jälkeen tutkijan mieleen voi hiipiä myös pelko siitä, onko aineistoa anonymisoitu tarpeeksi.

Ensinnäkin tulee muistaa, että aineiston sensitiivisyys ei ole lähtökohtaisesti este aineiston anonymisoinnille ja jakamiselle. Sensitiivisen aineiston anonymisointi voidaan suunnitella samalla tavoin kuin ei-sensitiivisiä tietoja sisältävän aineiston. Merkityksellisintä on henkilöistä saatavien taustatietojen ja muiden aineiston sisältämien tietojen karkeistaminen tai poisto tasolle, josta yksittäisiä henkilöitä ei pysty tunnistamaan. Sensitiivisen aineiston anonymisointi voi kuitenkin olla haasteellista, sillä aineiston luonteen vuoksi rajoitettavia tietoja voi olla paljon.

Anonymisointitarpeen hahmottamisen helpottamiseen tarvitaan ohjeistusta ja tarve konkreettisille anonymisointiohjeille on suuri. Ennen anonymisoinnin ohjeistus keskittyi usein anonymisoinnin menetelmien, kuten karkeistuksen ja luokitteluiden, esittämiseen, ei anonymisointipäätösten tekemisestä ohjeistamiseen. Ohjeistuksen tarpeeseen vastatakseen Tietoarkisto on päivittänyt anonymisoinnin ohjeistuksiaan viimeksi viime kuussa. Ohjeistuksiin lisättiin erityisesti tukea anonymisoinnin suunnitteluun. Ohjeista löytyy nyt myös havainnollistavia esimerkkejä ja mallipohjia anonymisointisuunnitelman tekoon.

Anonymisoinnin tarpeen hahmottaminen

Kun haluaa anonymisoida oman tutkimusaineistonsa, sille kannattaa tehdä anonymisointisuunnitelma, josta käy ilmi tunnisteellisuuden kannalta tärkeimmät aineiston tiedot ja tehdyt anonymisointipäätökset ja -toimet. Anonymisoitavien tietojen hahmottamiseen auttaa seuraavien tärkeimpien asioiden muistaminen ja tarkastelu:

  • Suorat tunnisteet poistetaan aina!
  • Keitä ja mitä tutkit? Henkilöiden tunnistettavuus riippuu paljon tavoitellun kohdejoukon määrästä ja tutkittavasta ilmiöstä. Mitä pienempi kohdejoukko ja mitä enemmän heistä on saatavilla tietoa, sitä vähemmän yksityiskohtaista tietoa henkilöistä voidaan jättää aineistoon.
  • Anonymisoinnissa pyritään eroon harvinaisista tiedoista, joiden perusteella yksittäinen henkilö tai rypäs on tunnistettavissa. Anonymisoitavia tietoja pohditaan aina suhteessa tutkimuksen perusjoukkoon. Tieto on harvinainen vain, jos ominaisuus on harvinainen kohdejoukossa. Pienet jakaumat eivät ole näin yksiselitteisesti harvinaista tietoa. Harvinaistakaan tietoa ei tarvitse anonymisoida, jos tietoa henkilöstä ei voida saada selville.
  • Pohdi, voiko henkilö olla tunnistettavissa yhdistämällä aineiston tietoja toisiinsa. Pohdi myös, mitä tietoja tutkittavista voi olla saatavilla ulkoisista lähteistä, kuten sosiaalisesta mediasta, ja voiko tietoja yhdistää datan sisältämiin tietoihin. Esimerkiksi LinkedInissä on useamman suomalaisen koulutus- ja työhistoria julkisesti nähtävillä.
  • Sensitiivisten tietojen anonymisointi on tarpeellista, mikäli niiden perusteella voi tunnistaa tai päätellä yksittäisen henkilön tai henkilöitä. Jos sensitiivisten asiasisältöjen tutkiminen on tutkimuksen kannalta keskeistä, tietoja ei tietenkään poisteta, vaan aineisto pyritään tekemään anonyymiksi muita henkilöihin viittaavia tietoja poistamalla.
  • Jos aineisto vaatii anonymisointia, se voidaan toteuttaa monin eri tavoin. Pyri poistamaan tietoja, jotka ovat vähemmän tärkeitä tutkimusilmiön kannalta ja säilyttämään tärkeimmät taustatiedot. Esimerkiksi, jos kuntatasoinen muuttuja aluetietona on tutkimuksen kannalta merkityksellinen, anonymisointia voi tehdä esimerkiksi vastaajan perhe- tai tulotietoihin.

Lisätietoa ja tarkemmat ohjeet löydät Tietoarkiston aineistonhallinnan käsikirjasta.

Anonymisoinnin kartoittamisen jälkeen voi jopa olla että anonymisointia ei välttämättä tarvitsekaan tehdä. Tällainen tilanne voi olla esimerkiksi väestötutkimuksissa, joissa aluemuuttuja on kerätty vain maakunnan tasolla ja muiden tietojen perusteella henkilöt eivät ole yksilöitävissä tai liitettävissä harvinaisiin ryhmiin. Anonymisointisuunnitelman tekeminen on siis suositeltavaa, jotta tutkimusprosessin aikana aineistoa tulee tarkasteltua kerran yksinomaan tunnisteellisuuden näkökulmasta. Lisäksi suunnitelma toimii hyvänä dokumentaationa aineistoille tunnisteellisuussyistä tehdyistä muutoksista, mikäli aineisto luovutetaan jatkokäyttöön.

Et ole anonymisointipulmiesi kanssa yksin

Anonymisoinnin riittävyys on yleinen tutkijoiden huoli, ja se on hyvin ymmärrettävää. Tulee kuitenkin muistaa, että anonyymiksi voidaan määritellä aineisto, josta ei kohtuullisen todennäköisesti käytettävissä olevin keinoin voi tunnistaa tai päätellä henkilöitä. On jo paljon, että aineiston anonymiteettiä ja henkilöiden paljastumisriskiä on pohdittu ja se on kirjattu anonymisointisuunnitelmaan. Lisäksi on hyvä muistaa, että aineistolle voidaan tehdä lisäanonymisointia myöhemminkin. Aineistolle tulee tehdä säännöllisesti jäännösriskin arviointi, jossa tarkastellaan anonymiteettiä uudelleen. Se on tarpeellista tiedon lisääntymisen ja tekniikan kehittymisen vuoksi.

Tavoitteet anonymisoinnin käsitysten muuttamisesta ja osaamisen levittämisestä ovat alkuvaiheessa. Toivomme, että anonymisointi nähdään mahdollisuutena lisätä tieteen avoimuutta ja luotettavuutta. Asiasta tarvitaan myös keskustelua ja näkemyksiä. Otamme niitä mielellämme vastaan täällä Tietoarkistossa!

Annika Sallinen
tietopalveluasiantuntija
etunimi.sukunimi [at] tuni.fi

FSD’s multilingual and qualitative data expertise brings in international visitors

During its 20 years of operation, FSD has established its status as a trusted partner in collaboration of data archives. On the initiative of our Japanese colleagues, we organised a seminar entitled Metadata, Data Catalogues and Tools for Findability in March.

The motivation for the seminar was a Japanese national project developing a joint data catalogue of several service providers. Our Japanese visitors chose to visit Finland and FSD because we have a long experience in successfully providing services in two languages, Finnish and English, as well as delivering metadata for harvesting by national and international joint catalogues.

We designed our presentations to answer the needs of our guests. FSD’s experts shared experiences of using the DDI-C metadata format, the process of joining national and international multidisciplinary catalogues, the significance and utilisation of controlled vocabularies, and the CoreTrustSeal certification, among others.

Professor Yukio Maeda presents JSPS’s plan for a federated data catalogue. Photo: Tuomas J. Alaterä

In addition to talks by FSD experts and our guests from Japan, the seminar featured presentations by the Director of CESSDA Ron Dekker and the Swedish National Data Service’s IT Systems Architect Olof Olsson. It is important for CESSDA to collaborate with organisations outside of Europe. The seminar in Tampere provided a good opportunity to share information about CESSDA strategy and objectives in responsible data sharing as well as the CESSDA Data Catalogue, which contains both FSD’s and SND’s metadata. SND makes use of the DDI-L format, and Olsson’s presentation on the topic offered a good comparison of two distinct metadata solutions. The presentation was also interesting from FSD’s systems development point of view.

Similar challenges

The seminar showed that the challenges of research data management and sharing are very similar everywhere. Similarly to Finland and Europe, researchers in Japan have a positive attitude towards data sharing in principle. However, when it comes to sharing their own data with others, they do not feel comfortable doing so or they prefer to share the data themselves rather than letting professionals do it for them. Our data acquisition team regularly encounters similar attitudes.

Seminar attendees. Photo: Misa Senbonmatsu

What also sounded familiar was the fact that the development of the data infrastructure is not actually nationally coordinated in Japan. Instead, the funder has opened a competition where different service providers are able to apply for funding for projects with certain pre-defined conditions. The big picture is then made up of what various organisations think is necessary and which project proposals the funder approves. Another thing to consider is how established the infrastructure operations will be after the funding period.

More information:

» DDI-C ja L documentation
» CESSDA ERIC
» Swedish National Data Service SND
» Japan Society for the Promotion of Science JSPS
» FSD metadata records in machine readable formats
» Data are described in the DDI format
» Vocabularies used in FSD’s data descriptions

Helena Laaksonen
director
firstname.surname [at] tuni.fi

This blog entry is also available in Finnish:
Monikielinen aineisto-osaaminen ja laadullisten aineistojen asiantuntemus tuovat kansainvälisiä vieraita Tietoarkistoon.

Monikielinen aineisto-osaaminen ja laadullisten aineistojen asiantuntemus tuovat kansainvälisiä vieraita Tietoarkistoon

Tietoarkisto on 20 toimintavuotensa aikana vakiinnuttanut asemansa luotettuna kumppanina data-arkistojen yhteistyössä. Maaliskuussa järjestimme japanilaisten kollegojen kanssa, heidän aloitteestaan, seminaarin Metadata, Data Catalogues and Tools for Findability.

Kansainvälisen seminaarin taustalla on Japanin kansallinen hanke, jossa he rakentavat usean palveluntarjoajan yhteistä aineistoluetteloa. Japanilaiset vieraat valitsivat Suomen ja Tietoarkiston vierailukohteekseen, koska Tietoarkistolla on pitkä kokemus onnistuneesta kaksikielisten palvelujen tuottamisesta suomeksi ja englanniksi sekä tutkimusaineistojen kuvailutietojen saattamisesta haravoitaviksi kansallisiin ja kansainvälisiin yhteisluetteloihin.

Tietoarkistossa koostimme oman osuutemme ohjelmaan vieraiden tiedontarpeesta lähtien. Tietoarkiston asiantuntijat kertoivat muun muassa DDI-C-kuvailuformaatin hyödyntämisestä Tietoarkistossa, liittymisestä kansallisiin ja kansainvälisiin monitieteisiin luetteloihin, monikielisten asiasanastojen merkityksestä ja hyödyntämisestä sekä CTS-sertifioinnista.

Professori Yukio Maeda esittelee JSPS:n suunnitelmaa yhteiskatalogiksi.
Kuva: Tuomas J. Alaterä

Seminaarissa esiintyivät Tietoarkiston asiantuntijoiden ja japanilaisten vieraiden lisäksi CESSDA ERICin johtaja Ron Dekker ja Ruotsin datapalvelun SND:n järjestelmäarkkitehti Olof Olsson. CESSDAlle on tärkeää luoda yhteistyösuhteita myös Euroopan ulkopuolelle. Tampereen seminaari antoi hyvän mahdollisuuden kertoa CESSDAn strategiasta ja tavoitteista tutkimusdatan vastuullisen avaamisen alalla, unohtamatta CESSDAn aineistoluetteloa, johon myös Tietoarkiston ja SND:n metadata haravoidaan. Ruotsin SND hyödyntää DDI-L-kuvailuformaattia. Olssonin esitys aiheesta tarjosi hyvän vertailukohdan kahden erilaisen metadataratkaisun välillä ja oli kiinnostava myös Tietoarkiston järjestelmäkehityksen näkökulmasta.

Samankaltaiset haasteet

Varsinaisen asiasisällön lisäksi seminaari osoitti kaikille osallistujille, että tutkimusaineistojen hallinnan ja avaamisen ongelmat ovat kaikkialla hyvin samanlaisia. Japanissakin tutkijat suhtautuvat periaatteessa myönteisesti, mutta eivät usein halua jakaa omaa dataansa muiden kanssa. Ja jos he haluavat, he usein tekevät sen mieluummin itse kuin antavat asiaan perehtyneiden ammattilaisten hoitaa tehtävän puolestaan. Tämä on Tietoarkiston aineistonhankinnassa tuttua.

Seminaariosallistujat. Kuva: Misa Senbonmatsu

Kovin tutulta vaikutti myös se, että datainfrastruktuurin rakentamista ei varsinaisesti koordinoida Japanissa kansallisesti. Rahoittaja on avannut kilpailun, josta eri palveluntarjoajat ovat voineet hakea rahoitusta tietyin ehdoin määritellyille hankkeille. Kansallinen kokonaiskuva rakentuu siitä, mitä erilliset organisaatiot pitävät tarpeellisena – ja mitä rahoittaja näistä esityksistä jatkoon valitsee. Perustamisvaiheen ohella pohdittavaa aiheuttaa infrastruktuurin toiminnan vakiinnuttaminen rahoituskauden päättyessä.

Lisätietoa:

» DDI-C ja L -dokumentaatio
» CESSDA ERIC
» Svensk nationell datatjänst SND
» Japan Society for the Promotion of Science JSPS
» Aineistokuvailut koneluettavissa formaateissa
» Aineistokuvailun DDI-formaatti
» Aineistonkuvailussa käytetyt sanastot

Helena Laaksonen
johtaja
etunimi.sukunimi [at] tuni.fi

Tämä blogikirjoitus on luettavissa myös englanniksi:
FSD’s multilingual and qualitative data expertise brings in international visitors.

Translation and international use of research data

To promote open science, the Finnish Social Science Data Archive also provides services to researchers and students who do not speak Finnish. In practice, this means that foreign language speakers are provided the opportunity to access quantitative research data in FSD holdings in English. In addition, we describe all data in English to allow the international audience to find them.

Translating variables, that is, the questions and response alternatives presented in a study, differs quite a lot from translating other types of texts. Translators of literature often have a great deal of linguistic and artistic freedom. The challenge of translating fiction usually lies in carrying the ambiguities of the source language over to the target language. Translating technical and informative texts requires clearer, more univocal interpretation, although depending on the text type a translator may have some creative licence.

Striving for fidelity and clarity

When survey questions are being translated, there’s very little room for interpretation. In studying attitudes, how something is asked may have almost as big an effect on the frequency distributions as what is asked.1 The users of translated data have to be able to trust that the translated questions correspond to the original ones as closely as possible in terms of both content and form. Researchers may draw far-reaching conclusions based on the translated questions, which is why it’s essential that non-Finnish-speaking researchers gain an understanding of what the respondents were originally asked and how the questions were phrased.

One of the challenges of translating variables faithfully is posed by the errors and inconsistencies sometimes found in source texts. At its worst, an error in a Finnish question may affect how the respondents answer the question, and the non-Finnish user of the data will wonder what has caused the unexpected frequency distributions. When translators notice an error, they have to consider how significant it is and whether it has actually affected the responses. The translator also needs to decide how to communicate the error to data users. Replicating the error in the translation is rarely a good option because a user won’t know whether the error originated from the source text or the translator.

As translators at FSD, we’re lucky to have the possibility to provide further information on the translations to users through a separate file. These translation notes usually contain information on the word choices and translation strategies used.

Culture-specific expressions pose challenges

In general, a translator of research data should aim to create as neutral a translation as possible while avoiding interpreting variables too strictly from her or his own point of view. However, this does not mean that we translate data word for word; relaying the idea of the original text clearly and intelligibly is our priority.

Ultimately, the challenges of data translations are very similar to those encountered when translating other kinds of texts, such as how to express a concept that does not exist in another language and how to translate the nuances of the source language into the target language.

Questions presented in surveys often have elements or expressions that are specific to the Finnish culture and have no obvious counterparts in English. In these cases, the concepts need to be explained to foreign users. For example, in one dataset, the respondents were asked whether ”red cottages and potato fields” are part of the Finnish rural landscape. This expression is similar to the ”white picket fence” used in the United States referring to a sort of simple and idyllic life. However, because our users are from all over the world, domesticating the question for a culturally limited audience is not a good idea. For users who are not familiar with either the Finnish or the American culture, we would simply be replacing one culture-specific expression with another. In situations like this, the translation notes are of great help to us, as we are able to explain expressions that might otherwise be incomprehensible to some users.

The translation process at FSD usually takes a few weeks depending on the size of the data and the translators’ workload. After the translation is complete, the data are available on our Aila Data Service to all users who need it in English. This is why we always put a lot of care and effort in translating all of the data instead of specific, individual variables needed by one user.

”Haste makes waste” also applies to questionnaire design and translation

Some might say that a data translation is never close enough to the source text to make research on translated variables feasible. It’s been noted, for example, that some established measurements of well-being do in fact measure slightly different concepts in different languages.2 Full equivalence can perhaps never be achieved, but this is rarely the goal of translation. It’s good to remember that language is built on interpretations, and even speakers of the same language may understand the same question in different ways in attitudinal surveys.

Questionnaire design and translation do not always receive the attention they deserve, although well-formed questions are likely to lead to better validity. In international comparative surveys, it’s particularly important that all respondents are asked the same things in the same way. If you plan to use questionnaires in more than one language, having questionnaires translated by a professional translator is something to consider when planning data collection. Surveys conducted in a single language also benefit from proofreading by a professional to prevent potential errors or inconsistencies from endangering the objective of the study.

Survey question form and wording require some effort, but there is no need to reinvent the wheel; inspiration for questions can be found, for example, in the UKDS Variable and question bank, the upcoming CESSDA Euro Question Bank and of course our question and variable search on Aila Data Service.

Henri Ala-Lahti
Research Officer
firstname.lastname [at] uta.fi

Niko Koski
Research Assistant
firstname.lastname [at] uta.fi


1 Schuman, Howard & Stanley Presser (1996), Questions and Answers in Attitude Surveys: Experiments on Question Form, Wording, and Context. Thousand Oaks: SAGE
2 Lolle, Henrik Lauridsen & Jørgen Goul Andersen (2015), ”Measuring Happiness and Overall Life Satisfaction: A Danish Survey Experiment on the Impact of Language and Translation Problems”, Journal of Happiness Studies 17 (4): 1337-1350.

This blog entry is also available in Finnish:
Suomenkielisten tutkimusaineistojen kääntämisestä ja kansainvälisestä jatkokäytöstä.

Suomenkielisten tutkimusaineistojen kääntämisestä ja kansainvälisestä jatkokäytöstä

Tietoarkisto palvelee avoimen tieteen edistämiseksi myös tutkijoita ja opiskelijoita, jotka eivät puhu suomea. Käytännössä tämä tarkoittaa sitä, että Suomessa tai ulkomailla asuville vieraskielisille asiakkaille tarjotaan mahdollisuus saada käyttöönsä kvantitatiiviset tutkimusaineistot englanninkielisinä. Lisäksi tuotamme kaikista arkistoon toimitetuista aineistoista kuvailut englanniksi, jotta kansainvälinen yleisö löytäisi tarvitsemansa aineistot.

Aineiston muuttujien eli tutkimuksissa esitettyjen kysymysten ja niiden vastausvaihtoehtojen kääntäminen poikkeaa varsin paljon muiden tekstien kääntämisestä. Kaunokirjallisten tekstien kääntäjällä on suuri vapaus ilmaista asia toisella kielellä. Kaunokirjallisuuden kääntämisen haasteena on usein alkuperäisen tekstin moniselitteisyys ja tämän välittäminen kohdekielelle. Asiatekstikääntäminen taas vaatii yksiselitteisempää ilmaisutapaa, vaikka tekstilajista riippuen myös asiatekstikäännöksissä on paikoitellen ilmaisunvapautta.

Tasapainottelua vastaavuuden ja selkeyden välillä

Tutkimusaineistojen kysymysten kääntäminen sijoittuu ilmaisutavan puolesta asiatekstien tiukempaan päähän. Asenteita tutkittaessa muuttujien jakaumiin voivat vaikuttaa paitsi kysymysten ajatuksellinen sisältö myös niiden esitystapa.1 Käännettyjen tutkimusaineistojen käyttäjien on voitava luottaa siihen, että käännetyt kysymykset vastaavat sisällöltään ja esitystavaltaan mahdollisimman läheisesti tutkittaville esitettyjä. Tutkijat voivat tehdä pitkällekin meneviä johtopäätöksiä käännettyjen kysymysten perusteella. Siksi on tärkeää, että ulkomaalainen tutkija saa oikean käsityksen siitä, mitä vastaajilta on kysytty suomeksi.

Eräänä haasteena uskollisen muuttujakäännöksen tuottamiselle ovat alkuperäisissä teksteissä silloin tällöin esiintyvät virheet ja epäjohdonmukaisuudet. Pahimmillaan suomenkielisessä kysymyksessä esiintynyt virhe on voinut vaikuttaa siihen, miten tutkittavat ovat vastanneet kysymykseen, ja muun kielinen jatkokäyttäjä voi ihmetellä, mistä epäuskottavat frekvenssijakaumat mahtavat johtua. Kääntäjän onkin tällaisissa tilanteissa punnittava, kuinka merkittävä virhe on ja onko se saattanut vaikuttaa kysymyksen tulkintaan. Tämän lisäksi on mietittävä, kuinka tulkintaan mahdollisesti vaikuttanut virhe ilmaistaan tutkimusaineistoa käyttävälle asiakkaalle. Virheen toistaminen käännöksessä on harvoin hyvä vaihtoehto, sillä asiakas ei voi tietää, onko kyseessä kääntäjän vai alkuperäistekstin virhe.

Me Tietoarkiston kääntäjät olemme siinä mielessä onnellisessa asemassa, että meillä on mahdollisuus liittää kääntämiemme aineistojen yhteyteen lisätietoja käännöksistä. Lisätiedot kootaan yleensä erilliseen tekstitiedostoon, johon kääntäjät voivat myös kommentoida terminologiavalintojaan ja käyttämiään käännösstrategioita.

Kulttuurisidonnaiset ilmaisut vaativat pohdintaa

Yleisesti ottaen kääntäjän on vältettävä tulkitsemasta muuttujia omasta näkökulmastaan ja pyrittävä mahdollisimman neutraaliin käännökseen. Tämä ei kuitenkaan tarkoita, että tutkimusaineisto käännettäisiin suoraan sanasta sanaan, vaan etusijalla ovat aina tekstin ymmärrettävyys ja tekstin ajatuksen välittäminen kielestä ja kulttuurista toiseen. Tutkimusaineistojen kääntämisessä ollaan lopulta samankaltaisten haasteiden äärellä kuin muidenkin tekstien kääntämisessä, eli kuinka ilmaista toisesta kielestä tai kulttuurista kokonaan puuttuva käsite tai ilmaus ja kuinka siirtää lähtötekstin vivahteet toiselle kielelle.

Tutkimuksissa esitetyt kysymykset sisältävät usein kulttuurisidonnaisia elementtejä, joille ei ole olemassa termejä englanniksi. Tällöin termien käsitesisällöt täytyy selittää auki ulkomaalaiselle jatkokäyttäjälle. Esimerkiksi eräässä aineistossa vastaajilta kysyttiin sitä, kuuluvatko ”punaiset tuvat ja perunamaat” suomalaiseen maaseutumaisemaan. Ilmaus on hyvin kulttuurisidonnainen, ja vaikka sille löytyisikin vastineita joistakin kulttuureista, on otettava huomioon, että asiakkaamme voivat olla mistä päin maailmaa tahansa. Siksi kysymyksen niin sanottu kotouttaminen yhteen kulttuuriin tai maahan, vaikkapa yhdysvaltalaisille tutulla kielikuvalla, ei ole suositeltavaa. Myös tässä tapauksessa on suureksi avuksi, että voimme toimittaa asiakkaalle lisätietoja käännöksestä ja selittää esimerkiksi, että punainen tupa ja perunamaa ymmärretään Suomessa usein eräänlaisena maalaisidyllinä.

Tietoarkiston käännösprosessi vie aineiston koosta ja kääntäjien työmäärästä riippuen yleensä muutaman viikon, jonka jälkeen aineisto on muidenkin englanninkielistä aineistoa tarvitsevien käytössä Aila-palvelun kautta. Tämän vuoksi aineistot käännetään aina huolellisesti kokonaan.

Kyselylomakkeita ei kannata kääntää hätäillen

Joidenkin mielestä käännöksellä ei koskaan päästä niin lähelle alkuperäisen tekstin merkitystä, että erikielisten muuttujien vertailu tutkimuksessa olisi mielekästä. Eräät tutkijat ovat esimerkiksi huomauttaneet, että usein käytetyt hyvinvoinnin mittarit mittaavat itse asiassa eri asioita eri kielillä.2 Täydellistä kielten välistä vastaavuutta tuskin saavutetaan käännöksellä juuri koskaan, ja se on harvoin kääntämisen tavoite. On hyvä muistaa, että kieli rakentuu erilaisten tulkintojen varaan. Kyselytutkimuksissa mitataan yleensä vastaajien asenteita ja näkemyksiä, ja samaa kieltä puhuvatkin voivat ymmärtää saman kysymyksen eri tavoin.

Aina kyselylomakkeiden huolellista laatimista ja kääntämistä ei nähdä tutkimuksen kannalta oleellisena, vaikka oikein muotoilluilla kysymyksillä on merkitystä kyselyn tulosten validiteetin kannalta. Kansainvälisissä vertailuaineistoissa on erityisen tärkeää, että eri kielillä käytettävissä kyselylomakkeissa kysytään mahdollisimman tarkasti samoja asioita. Kyselylomakkeiden käännättäminen ammattikääntäjällä kannattaa ottaa huomioon jo aineistonkeruuta suunnitellessa, jos kyselylomakkeita aiotaan käyttää muulla kielellä kuin suomeksi. Suomeksikin kysymysten kieliasu kannattaa tarkistuttaa, jotta heikko tai epäjohdonmukainen kieli ei vaaranna tutkimuksen tavoitteita.

Kysymysten muotoilussa täytyy siis olla tarkka ja huolellinen niin suomeksi kuin englanniksikin. Pyörää ei tarvitse kuitenkaan keksiä uudelleen; suomeksi kysymyslomakkeita muotoillessa kannattaa käyttää hyväksi palveluportaali Ailan muuttujahakua ja etsiä esimerkkejä aiemmin käytetyistä kysymyksistä, ja englanniksi voi hyödyntää esimerkiksi UKDS:n kysymyspankkia sekä CESSDAn tulevaa Euro Question Bankia.

Henri Ala-Lahti
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi

Niko Koski
tutkimusapulainen
etunimi.sukunimi [at] uta.fi


1 Schuman, Howard & Stanley Presser (1996), Questions and Answers in Attitude Surveys: Experiments on Question Form, Wording, and Context. Thousand Oaks: SAGE
2 Lolle, Henrik Lauridsen & Jørgen Goul Andersen (2015), ”Measuring Happiness and Overall Life Satisfaction: A Danish Survey Experiment on the Impact of Language and Translation Problems”, Journal of Happiness Studies 17 (4): 1337-1350.

Tämä blogikirjoitus on luettavissa myös englanniksi:
Translation and international use of research data.

Being trustworthy and FAIR requires people, processes, technologies and collaboration

The Implementation Roadmap for the European Science Cloud (EOSC) puts focus on research data adhering to the FAIR principles of being findable, accessible, interoperable, and reusable. These are all excellent goals and the social science data archive community has been promoting similar ideas since at least the 1970’s. We know that managing, disseminating and preserving digital data for the long term is neither simple nor straightforward. Research data will not become nor stay FAIR by magic. We need skilled people, transparent processes, interoperable technologies and collaboration to build, operate and maintain research data infrastructures.

A key theme in digital preservation and thus in all FSD’s functions is trust. Data subjects need to be able to trust that data about them are handled in an appropriate way. Researchers need to have trust that FSD manages their data according to the agreements. FSD’s users need to be able to trust that they get access to reliable versions of data from FSD and that, for example, all changes made to the deposited datasets are documented. In short, FSD needs to be a trusted digital repository.

Shaping the trust landscape

Luckily, FSD is not alone. In addition to collaborating in national networks, FSD is the Finnish Service Provider for CESSDA ERIC (Consortium of European Social Science Data Archives). CESSDA requires that all its Service Providers adhere to the trustworthy digital repository requirements set by the CoreTrustSeal. In August 2017, FSD acquired the new CTS certification among the first CESSDA Service Providers.

FSD has been active in CESSDA’s trust work for several years and currently I am a member of the CESSDA Trust Working Group. The Group offers guidance and support to CESSDA members in understanding and acquiring the CoreTrustSeal and maintains an overview of the trust landscape including certification standards and the emergence of the FAIR data principles and the requirements of the EOSC. I am also a member of the CoreTrustSeal Board 2018–2021. These collaborations are essential for strengthening FSD’s expertise. They also provide unique insights to, and possibilities to be involved in, shaping the trust landscape.

Today is the World Digital Preservation Day. It brings together the digital preservation community to celebrate the collections preserved, the access maintained and the understanding fostered by preserving digital materials. I want to take this opportunity to celebrate FSD’s current and forthcoming collaborations and especially our staff’s great expertise and dedication. As the Chair of the CESSDA Trust Group Herve L’Hours has written: Technologies can be consolidated, and processes automated, but collection, creation, curation and research use/reuse of data is ultimately dependent on the domain and disciplinary expertise of the humans who know them best. (L’Hours 2018)

Happy Digital Preservation!

FSD’s work in CESSDA Trust Group and CoreTrustSeal are supported by CESSDA Trust Work Plan project and the Active FSD for CESSDA project funded by the Academy of Finland.

More information:

» Follow #WDPD2018 on Twitter
» CESSDA Trust Working Group
» CoreTrustSeal Board 2018-2021

Mari Kleemola
Development Manager
firstname.surname [at] uta.fi

Ailassa nyt tallennustyökalu aineistojen arkistointiin

Tietoarkisto on ottanut palveluportaali Ailassa käyttöön aineistojen tallennustyökalun. Tavoitteena on saada tulevaisuudessa kaikki aineistot arkistoitavaksi Tietoarkistoon Ailan kautta. Palvelu on helppokäyttöinen ja tietoturvallinen. Toivomme sen myös tehostavan aineistojen toimittamista Tietoarkistoon.

Siirtämällä datan Ailaan asiakas ei julkaise aineistoa itsenäisesti. Kyseessä ei siis ole itsearkistointi. Tietoarkiston asiakaspalvelu tarkistaa saadun materiaalin ja arvioi arkistointikelpoisuuden sekä prosessoi ja kuvailee datan Tietoarkiston käytäntöjen mukaan. Aineisto tulee Ailan aineistoluetteloon vasta tämän jälkeen – aivan kuten tähänkin asti.

Asiakkaalle uusi työkalu näkyy, jos hän on sopinut Tietoarkiston kanssa aineiston arkistoinnista ja hyväksynyt käsittelysopimuksen. Käytännössä aineistopalvelu luo Ailaan työtilan sovittua aineistonluovutusta varten ja lähettää kirjautumiskutsun. Luovutus on asiakkaan käytettävissä, kunnes hän on siirtänyt kaiken tarvittavan materiaalin Ailaan ja merkinnyt luovutuksensa valmiiksi. Sen jälkeen asiakaspalvelu ottaa datan käsiteltäväkseen. Tutkija voi siirtää joko kaikki tiedostot kerralla tai tarkastella ja täydentää luovutustaan myöhemmin jättäen luovutuksensa aktiiviseksi. Aineistoja ei kuitenkaan säilytetä luovutustyökalun työtilassa pysyvästi. Tiedostot poistetaan viimeistään, kun arkistointi on valmis.

Uusi palvelu varmistaa turvallisen datan siirron

Tutkijat ovat tottuneet toimittamaan dataa Tietoarkistoon sähköpostin liitteenä tai joissakin tapauksissa postitse erilaisilla tallennusvälineillä. Tietoarkistolla ei ole kummassakaan tapauksessa mahdollisuutta varmistaa datan siirron tietoturvallisuutta. Voimme pelkästään ohjeistaa asiakasta. Kun luovutustyökalu on käytössä, nämä huolet vähenevät, vaikka kanta-asiakkailla voikin kulua tovi uuden tavan oppimisessa.

Uudistuksen myötä arkistoinnin henkilöriippuvuus siirtyy toivottavasti myös historiaan. Luovutustyökalua käyttämällä tieto Ailaan siirretystä aineistosta tulee ajantasaisesti asiakaspalveluun, ja aineiston käsittelyprosessikin voi tästä vauhdittua. Vaikka saattaa tuntua kätevämmältä lähettää tiedostot sähköpostitse tutulle henkilölle, kannustan Ailan luovutustyökalun käyttämiseen.

Uusi palvelu joutuu testiin syksyn aikana toivottavasti monien asiakkaiden käytössä. Jos suunnittelet aineiston arkistointia Tietoarkistoon, ota yhteyttä Tietoarkistoon ja tutustu myös Aineiston luovuttaminen Ailassa -ohjeeseen.

Käyttäjäpalaute palvelun toimivuudesta ja mahdolliset kehitysehdotukset ovat tervetulleita.

Tietoarkisto on rakentanut luovutustyökalun Suomen Akatemian infrastruktuurirahoituksella.

Lisätietoa:

» Aineiston luovuttaminen Ailassa -ohje
» asiakaspalvelu.fsd [at] uta.fi

Helena Laaksonen
johtaja
etunimi.sukunimi [at] uta.fi