Tag Archives: arkistointi

Datan lisäksi Tietoarkisto jakaa osaamista

Tietoarkisto on yksi avoimen tieteen keskeisistä toimijoista Suomessa. Tavoitteenamme on tuottaa tehokkaasti laadukkaita, luotettavia ja helposti saavutettavia data- ja aineistonhallintapalveluja tiedeyhteisölle. Ei mikään läpihuutojuttu. Pitää olla valmiuksia luoda uutta ja omata ajantasaista asiantuntemusta tutkimuksesta, menetelmistä, ohjelmistoista, tutkimusetiikasta, lainsäädännöstä, metadatasta, sähköisestä säilyttämisestä, tietoturvasta ja asiakaspalvelusta – vain muutamia mainitakseni. Niinpä tietoarkistolaisille on kertynyt ainutlaatuista asiantuntemusta monilta eri osa-alueilta. Monimutkaistuvassa maailmassa kellään ei kuitenkaan yksin voi olla kaikkea tarvittavaa osaamista. Tarvitsemme eri alojen asiantuntijoiden tiimejä ja organisaatioiden välistä yhteistyötä.

Aikaisemmin olen kirjoittanut Tietoarkiston aktiivisesta roolista eurooppalaisessa data-arkistotoiminnassa. Olemme laajasti mukana myös kotimaisissa avoimeen tieteeseen sekä aineistojen jakamiseen ja säilyttämiseen liittyvissä aloitteissa. Sekä kansallisissa että kansainvälisissä ympyröissä käytännön työ tehdään yleensä erilaisissa työryhmissä. Osaamisen ja tiedon jakaminen on työn onnistumisen tärkeimpiä edellytyksiä.

Laskin, että tällä hetkellä Tietoarkisto osallistuu 15 erilaiseen kansalliseen ohjaus-, asiantuntija- tai työryhmään. Vuodessa osallistumme niiden tiimoilta keskimäärin noin 70 kokoukseen. Aikaa kokouksiin ja niihin liittyviin tehtäviin kuluu noin kuusi henkilötyökuukautta vuodessa – enemmänkin, jos tietoarkistolaisilla on työryhmissä vetovastuuta. Luvuissa ovat mukana vain sellaiset ryhmät, joihin osallistumme osana perustyötä, eli joihin meillä ei ole erikseen hankerahoitusta.

Työryhmistä monet liittyvät Avoin tiede ja tutkimus (ATT) -hankkeeseen. Tietoarkisto tekee työtä ATT:n asiantuntijaryhmässä, palvelutyöryhmässä, PAS-työryhmässä, kansainvälisyystyöryhmässä, Tuuli-projektissa ja ATT:n ja Kansallisen digitaalisen kirjaston (KDK) yhteisessä oikeuksien metatiedot -työryhmässä. Olemme edustettuina myös KDK:n ohjausryhmässä, tietoarkkitehtuuriryhmässä ja PAS-yhteistyöryhmässä. Muista ryhmistä mainittakoon JHS Rekisterimeta -työryhmä, Tilastokeskuksen etäkäyttöjärjestelmän ohjausryhmä, TUHA-tutkimusaineistoryhmä ja Veteraanikansanedustajien muistitietoarkiston kehittämisryhmä.

Edellä mainitut ryhmät rakentavat hyviä yhteisiä käytäntöjä, standardeja ja erilaisia palveluita tiedeyhteisölle ja laajemminkin. Itse olen mukana useissa ryhmissä ja koen ne antoisina, vaikka turhautumisen hetkiäkin tulee. Välillä tuntuu, että työryhmä toisensa jälkeen puhuu samasta asiasta ja edistyminen on tuskallisen hidasta. Tampere-Helsinki–junamatka on tullut liiankin tutuksi.

Omalla kohdallani turhautuminen on onneksi useimmiten hetkellistä. Tutkimusdatan arkistointi ja avaaminen on suuri muutos tutkimuskulttuurissa, ja sähköinen säilyttäminen muuttaa arkistomaailmaa. Valtionhallinnon digitalisaation yhteydessä puolestaan tavoitellaan siilojen purkamista. Ajattelenkin, että päällekkäisiltä tuntuvat työryhmät heijastelevat näitä käynnissä olevia suuria toimintakulttuurimuutoksia ja jopa kuuluvat murrosvaiheeseen. Tämä ei tarkoita, etteikö työryhmissä ja niiden välisessä työnjaossa olisi tehostamisen tai selkeyttämisen varaa, mutta odotan tilanteen kohenevan ATT:n kaltaisten hankkeiden myötä. Jos jotain saisi toivoa, niin sitä, että alan toimijoilla olisi hieman enemmän kykyä ja mahdollisuuksia (eli käytännössä resursseja) nähdä omia lyhyen tähtäimen etujaan ja intressejään pidemmälle.

Tietoarkisto on vuosien mittaan ollut aktiivinen tiedon ja osaamisen jakaja. Olemme osallistuneet lukuisiin työryhmiin ja hankkeisiin. Kaiken kaikkiaan ne ovat olleet oivallisia tilaisuuksia reflektoida Tietoarkiston käytäntöjä, oppia muilta, ratkaista yhteisiä ongelmia ja jakaa Tietoarkistoon kertynyttä erikoisosaamista. Olemme myös oppineet, että joskus täytyy sanoa ei. Parhaimmillaan ryhmät ovat kuitenkin asiantuntijoiden ja organisaatioiden verkostoja, joissa erilaiset näkökulmat kohtaavat tarjoten pohjan uutta osaamista ja uusia palveluita luovalle yhteistyölle.

Lisätietoja
» Avoin tiede ja tutkimus -hanke (ATT)
» Kansallinen digitaalinen kirjasto (KDK)

Mari Kleemola
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi

Digitaalinen humanismi ja avoimen datan (haasteellinen) huuma

Digitaalisen humanismin ympärillä pöhisee. Tietojenkäsittelymenetelmiä ja teknologiaa humanistis-yhteiskuntatieteellisessä tutkimuksessa hyödyntävä ala on ujuttautumassa opetukseen sekä tutkimukseen hitaasti mutta varmasti. Helsinki Digital Humanities esimerkiksi organisoi Helsingin yliopistossa digitaalisen humanismin opintokokonaisuutta, tutkijaseminaareja sekä hackathon-tapahtumia. Suomen Akatemian DIGIHUM-teema puolestaan pyrkii rohkaisemaan tutkijoita sekä tutkimushankkeita monitieteiseen yhteistyöhön digitaalisten ihmistieteiden alueella. Lisäksi aiheen ympärille kietoutuvia seminaareja ja konferenssia pullahtelee esiin kuin rusinoita vappusimasta.

Digitaalisen humanismin yhteydessä kysymys erilaisista aineistoista tai datasta näyttäytyy varsinkin tietoarkistotyön silmin kiintoisassa valossa. Digihumanismi on monessa tapauksessa varsin riippuvainen sähköisistä aineistoista. Aineistojen merkittävyys korostuu esimerkiksi Suomen Akatemian DIGIHUM-teemassa, jonka yksi keskeisistä tavoitteista linjaa aineistojen käytettävyyden ja niiden tunnettuuden edistämisen:

”Avoimen datan ja avointen tietokoneohjelmistojen avulla on mahdollista edistää huomattavasti humanististen ja yhteiskuntatieteellisten tutkimustulosten avoimuutta, läpinäkyvyyttä, toistettavuutta ja yhteisöllisyyttä. Avoimen datan ja avoimen lähdekoodin mahdollisuuksien tuominen humanistiseen tutkimukseen on erittäin ajankohtaista uusien, kaikille avointen ja yleisten tutkimusvälineiden tuottamiseksi siten, että ne parhaiten vastaavat tutkimuksesta nouseviin tarpeisiin.”

Avoin data näyttäytyy monesti digitaalisen humanismin ydinasiana, mutta avoimuuden ja jakamisen käytänteiden luontevassa omaksumisessa on haasteita. Alan tutkijoiden parissa jatkokäyttö – tai täsmällisemmin jakaminen – määrittyy tyypillisesti joko laajemmin tiedon jakamisen tai rajatummin erilaisten digitaalisten työkalujen jakamisen tärkeytenä. Helppo ja vaivaton pääsy avoimiin digitaalisiin resursseihin mielletään myös tärkeänä yhteistyön lisäämisen muotona. Avoimuus ja open access kiinnostavat tutkijoita, mutta avoimuudella viitataan tyypillisimmin tutkimusjulkaisujen avoimuuteen tai kulttuuriperintölaitosten avoimiin (ja usein digitoituihin) aineistokokoelmiin. Tässä tapauksessa avoimuus mielletään ensisijaisesti yksisuuntaisena käytäntönä, jossa tutkija tarvitsee pääsyn erilaisiin avoimiin aineistoihin voidakseen luoda ja kehittää digitaalisia käytänteitä. Haasteita tehokkaalle jatkokäytölle asettaa paikoin myös se, että digihumanistisessa tutkimuksessa käytetty tai tuotettu data ei yksinkertaisesti ole saatavilla, vaikka sen analysointiin ja esittämiseen olisi kehitetty näyttäviäkin teknisiä työkaluja, tietokantoja tai alustoja. Mikä on avoimuuden politiikan toitottamisen hyöty, jos vaivalla luodut ja analysoidut aineistot eivät ole millään tavalla saatavilla?

Digihumanismin raikkaan merelliset tuulet pyyhkivät yli Oslon, kun kaupungissa järjestettiin maaliskuussa Pohjoismaiden ensimmäinen digitaalisen humanismin konferenssi (Digital Humaniora i Norden).

Myös säilytyspaikkojen tai sopivien infrastruktuurien puute heikentää tulosten ja menetelmien leviämistä. Digitaalisesta aineistosta raskaasti riippuvainen tieteenala on ongelmissa, jos aineistoille ei löydy varmoja säilytyspaikkoja, jotka suojaavat ja hoitavat niitä oikein. Nopeasti kasvava ja alati muuntuva digitaalinen aines vaatii tarkkaa kontekstointia, metadatan lisäämistä ja mahdollista linkittämistä muihin asiaankuuluviin verkkoaineistoihin.

Digitaaliset säilytyspaikat ovat tulevaisuudessa avainasemassa, kun humanistilla aloilla pyritään luomaan toimivia e-infrastruktuureja. Digitaalisen humanismin kannalta olisi siten mielekästä pohtia, mikä tutkimusaineistoja säilyttävien, huoltavien ja jakavien tahojen rooli tulevaisuudessa on, ja kuinka ylipäätään olisi mahdollista luoda toimiva ja mahdollisimman kattava datainfrastruktuuri, joka huomioisi myös digitaalisen humanismin aineistotarpeet.

Lisätietoja
» Suomen Akatemian DIGIHUM-teema (pdf)
» Helsinki Digital Humanities

Katja Fält
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi

Digitaalinen humanismi ja avoimen datan (haasteellinen) huuma

Digitaalisen humanismin ympärillä pöhisee. Tietojenkäsittelymenetelmiä ja teknologiaa humanistis-yhteiskuntatieteellisessä tutkimuksessa hyödyntävä ala on ujuttautumassa opetukseen sekä tutkimukseen hitaasti mutta varmasti. Helsinki Digital Humanities esimerkiksi organisoi Helsingin yliopistossa digitaalisen humanismin opintokokonaisuutta, tutkijaseminaareja sekä hackathon-tapahtumia. Suomen Akatemian DIGIHUM-teema puolestaan pyrkii rohkaisemaan tutkijoita sekä tutkimushankkeita monitieteiseen yhteistyöhön digitaalisten ihmistieteiden alueella. Lisäksi aiheen ympärille kietoutuvia seminaareja ja konferenssia pullahtelee esiin kuin rusinoita vappusimasta.

Digitaalisen humanismin yhteydessä kysymys erilaisista aineistoista tai datasta näyttäytyy varsinkin tietoarkistotyön silmin kiintoisassa valossa. Digihumanismi on monessa tapauksessa varsin riippuvainen sähköisistä aineistoista. Aineistojen merkittävyys korostuu esimerkiksi Suomen Akatemian DIGIHUM-teemassa, jonka yksi keskeisistä tavoitteista linjaa aineistojen käytettävyyden ja niiden tunnettuuden edistämisen:

”Avoimen datan ja avointen tietokoneohjelmistojen avulla on mahdollista edistää huomattavasti humanististen ja yhteiskuntatieteellisten tutkimustulosten avoimuutta, läpinäkyvyyttä, toistettavuutta ja yhteisöllisyyttä. Avoimen datan ja avoimen lähdekoodin mahdollisuuksien tuominen humanistiseen tutkimukseen on erittäin ajankohtaista uusien, kaikille avointen ja yleisten tutkimusvälineiden tuottamiseksi siten, että ne parhaiten vastaavat tutkimuksesta nouseviin tarpeisiin.”

Avoin data näyttäytyy monesti digitaalisen humanismin ydinasiana, mutta avoimuuden ja jakamisen käytänteiden luontevassa omaksumisessa on haasteita. Alan tutkijoiden parissa jatkokäyttö – tai täsmällisemmin jakaminen – määrittyy tyypillisesti joko laajemmin tiedon jakamisen tai rajatummin erilaisten digitaalisten työkalujen jakamisen tärkeytenä. Helppo ja vaivaton pääsy avoimiin digitaalisiin resursseihin mielletään myös tärkeänä yhteistyön lisäämisen muotona. Avoimuus ja open access kiinnostavat tutkijoita, mutta avoimuudella viitataan tyypillisimmin tutkimusjulkaisujen avoimuuteen tai kulttuuriperintölaitosten avoimiin (ja usein digitoituihin) aineistokokoelmiin. Tässä tapauksessa avoimuus mielletään ensisijaisesti yksisuuntaisena käytäntönä, jossa tutkija tarvitsee pääsyn erilaisiin avoimiin aineistoihin voidakseen luoda ja kehittää digitaalisia käytänteitä. Haasteita tehokkaalle jatkokäytölle asettaa paikoin myös se, että digihumanistisessa tutkimuksessa käytetty tai tuotettu data ei yksinkertaisesti ole saatavilla, vaikka sen analysointiin ja esittämiseen olisi kehitetty näyttäviäkin teknisiä työkaluja, tietokantoja tai alustoja. Mikä on avoimuuden politiikan toitottamisen hyöty, jos vaivalla luodut ja analysoidut aineistot eivät ole millään tavalla saatavilla?

Digihumanismin raikkaan merelliset tuulet pyyhkivät yli Oslon, kun kaupungissa järjestettiin maaliskuussa Pohjoismaiden ensimmäinen digitaalisen humanismin konferenssi (Digital Humaniora i Norden).

Myös säilytyspaikkojen tai sopivien infrastruktuurien puute heikentää tulosten ja menetelmien leviämistä. Digitaalisesta aineistosta raskaasti riippuvainen tieteenala on ongelmissa, jos aineistoille ei löydy varmoja säilytyspaikkoja, jotka suojaavat ja hoitavat niitä oikein. Nopeasti kasvava ja alati muuntuva digitaalinen aines vaatii tarkkaa kontekstointia, metadatan lisäämistä ja mahdollista linkittämistä muihin asiaankuuluviin verkkoaineistoihin.

Digitaaliset säilytyspaikat ovat tulevaisuudessa avainasemassa, kun humanistilla aloilla pyritään luomaan toimivia e-infrastruktuureja. Digitaalisen humanismin kannalta olisi siten mielekästä pohtia, mikä tutkimusaineistoja säilyttävien, huoltavien ja jakavien tahojen rooli tulevaisuudessa on, ja kuinka ylipäätään olisi mahdollista luoda toimiva ja mahdollisimman kattava datainfrastruktuuri, joka huomioisi myös digitaalisen humanismin aineistotarpeet.

Lisätietoja
» Suomen Akatemian DIGIHUM-teema (pdf)
» Helsinki Digital Humanities

Katja Fält
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi

Terveystietoja sisältävien tutkimusaineistojen arkistointi – tutkija vaatimusten ristitulessa

Suomalaiset tutkijat keräävät valtavasti tietoa ihmisistä ja ihmisten käyttäytymisestä. Lisäksi terveysalan viranomaiset ja tutkimuslaitokset keräävät lakisääteisesti mittavia tietovarantoja väestön palveluiden käytöstä ja terveydentilasta. Kerätty tieto olisi lääketieteen, kansanterveyden ja yhteiskunnan kannalta erinomaista, mutta sitä ei voida käyttää täysimääräisesti hyväksi.

Ongelmat johtuvat osittain tiukasta henkilötietolaista ja sen tulkinnasta, joka estää täysin biopankkilain ulkopuolelle jäävien tutkimusaineistojen arkistoimisen tunnisteellisena. Osittain kyse on siitä, että tutkittavien suostumus ja eettisen toimikunnan lausunto on tapana pyytää sellaisessa muodossa, että ne mahdollistavat aineiston käytön vain kyseiseen tutkimukseen.

Rekisteritietojen saatavuuskin on vaikeaa. Rekisteriaineistojen tietoteknisestä turvallisuudesta on huolehdittu, mutta aineistoja ei ole järjestelmällisesti kuvailtu, eikä niitä pysty hakemaan yksinkertaisesti. Hakuprosessit vievät pahimmillaan vuosia, ja aineiston käytöstä joutuu maksamaan jopa tuhansia euroja. Saadut aineistot ovat raakadataa, joka voi vaatia huomattavan paljon työstämistä ennen kuin aineisto on käyttökelpoista tutkimukseen.

Samaan aikaan kansalliset ja kansainväliset rahoittajat suosittelevat tai edellyttävät tutkimusaineistojen avaamista. Tieteelliset julkaisut voivat pitää tutkimusaineiston avaamista jopa julkaisun ehtona. Tutkijan taas täytyisi saada pitää aineistonsa itsellään, kunnes on saanut oman tutkimustuloksensa julkaistua.

Hankkeeseen saa rahoitusta, jos pystyy osoittamaan, että käytössä on tutkimusongelmaan sopiva aineisto. Aineiston käyttöön saaminen kuitenkin vaatii huomattavaa rahallista panostusta, mikä on ongelma siinä vaiheessa kun rahoitusta ollaan vasta hakemassa. Lisäksi tutkimusrahoitus on määräaikaista. Mitä tehdä, jos kolmen vuoden tutkimusrahoituskaudesta kaksi vuotta kuluu eettisten lausuntojen, aineistonkäyttölupien ja lopulta itse aineistojen saamiseen?

Ongelmiin on onneksi havahduttu. Tutkimuksen asema tulee toivon mukaan parantumaan EU:n tietosuoja-asetuksen myötä (1). Myös SOTE-tiedon toissijaisen käytön lainsäädäntö (2) tulee helpottamaan aineistojen saamista tutkimukseen. Kansallinen palveluoperaattori (3) on aikanaan toteutuessaan yhden luukun palvelu, josta tutkija voi etsiä tietoa olemassa olevista aineistoista, hakea niihin käyttölupaa, hankkia eettisen lausunnon ja lopulta saada aineiston käyttöönsä kohtuullisessa ajassa. Kaikkein arkaluonteisinta tietoa varten suunnitellaan etäkäyttöjärjestelmää, jossa aineiston pääsisi analysoimaan vaarantamatta tutkittavien tietosuojaa.

Rekisteriviranomaisista avoimuuden edelläkävijä on THL, joka on jo parantamassa aineistojensa näkyvyyttä ja helpottamassa tutkijoiden luvanhakua ja aineistonsaantia. Organisaation uusi datapolitiikka on luettavissa THL:n sivuilla.

Tietoarkisto osallistuu yhteisen tavoitteen saavuttamiseen tarjoamalla kerätyille tutkimusaineistoille luotettavan säilytyspaikan sekä helpon palveluportaalin, Ailan. Ailassa tutkija voi selata olemassa olevia aineistoja ja tutkia niiden keräystapaa ja sisältöä aineistokuvailun perusteella. Kun sopiva aineisto löytyy, sen saa parhaimmillaan käyttöönsä heti. Kaikkein tiukimman käyttöluokituksen aineistoissakin Tietoarkisto hoitaa käyttölupapyynnön aineiston haltijalle ja toimittaa aineiston heti, kun lupa on saatu.

Tulevaisuus näyttää siis onneksi nykyhetkeä kirkkaammalta.

1http://ec.europa.eu/justice/data-protection/reform/index_en.htm
2https://www.innokyla.fi/web/verkosto1598477
3http://www.sitra.fi/hankkeet/isaacus-esituotantohankkeet

Annaleena Okuloff
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi

Kirjoitus on kolmiosaisen terveys- ja lääketieteitä käsittelevän postaussarjan viimeinen osa. Ks. ensimmäinen ja toinen osa.

Terveystietoja sisältävien tutkimusaineistojen arkistointi – tutkija vaatimusten ristitulessa

Suomalaiset tutkijat keräävät valtavasti tietoa ihmisistä ja ihmisten käyttäytymisestä. Lisäksi terveysalan viranomaiset ja tutkimuslaitokset keräävät lakisääteisesti mittavia tietovarantoja väestön palveluiden käytöstä ja terveydentilasta. Kerätty tieto olisi lääketieteen, kansanterveyden ja yhteiskunnan kannalta erinomaista, mutta sitä ei voida käyttää täysimääräisesti hyväksi.

Ongelmat johtuvat osittain tiukasta henkilötietolaista ja sen tulkinnasta, joka estää täysin biopankkilain ulkopuolelle jäävien tutkimusaineistojen arkistoimisen tunnisteellisena. Osittain kyse on siitä, että tutkittavien suostumus ja eettisen toimikunnan lausunto on tapana pyytää sellaisessa muodossa, että ne mahdollistavat aineiston käytön vain kyseiseen tutkimukseen.

Rekisteritietojen saatavuuskin on vaikeaa. Rekisteriaineistojen tietoteknisestä turvallisuudesta on huolehdittu, mutta aineistoja ei ole järjestelmällisesti kuvailtu, eikä niitä pysty hakemaan yksinkertaisesti. Hakuprosessit vievät pahimmillaan vuosia, ja aineiston käytöstä joutuu maksamaan jopa tuhansia euroja. Saadut aineistot ovat raakadataa, joka voi vaatia huomattavan paljon työstämistä ennen kuin aineisto on käyttökelpoista tutkimukseen.

Samaan aikaan kansalliset ja kansainväliset rahoittajat suosittelevat tai edellyttävät tutkimusaineistojen avaamista. Tieteelliset julkaisut voivat pitää tutkimusaineiston avaamista jopa julkaisun ehtona. Tutkijan taas täytyisi saada pitää aineistonsa itsellään, kunnes on saanut oman tutkimustuloksensa julkaistua.

Hankkeeseen saa rahoitusta, jos pystyy osoittamaan, että käytössä on tutkimusongelmaan sopiva aineisto. Aineiston käyttöön saaminen kuitenkin vaatii huomattavaa rahallista panostusta, mikä on ongelma siinä vaiheessa kun rahoitusta ollaan vasta hakemassa. Lisäksi tutkimusrahoitus on määräaikaista. Mitä tehdä, jos kolmen vuoden tutkimusrahoituskaudesta kaksi vuotta kuluu eettisten lausuntojen, aineistonkäyttölupien ja lopulta itse aineistojen saamiseen?

Ongelmiin on onneksi havahduttu. Tutkimuksen asema tulee toivon mukaan parantumaan EU:n tietosuoja-asetuksen myötä (1). Myös SOTE-tiedon toissijaisen käytön lainsäädäntö (2) tulee helpottamaan aineistojen saamista tutkimukseen. Kansallinen palveluoperaattori (3) on aikanaan toteutuessaan yhden luukun palvelu, josta tutkija voi etsiä tietoa olemassa olevista aineistoista, hakea niihin käyttölupaa, hankkia eettisen lausunnon ja lopulta saada aineiston käyttöönsä kohtuullisessa ajassa. Kaikkein arkaluonteisinta tietoa varten suunnitellaan etäkäyttöjärjestelmää, jossa aineiston pääsisi analysoimaan vaarantamatta tutkittavien tietosuojaa.

Rekisteriviranomaisista avoimuuden edelläkävijä on THL, joka on jo parantamassa aineistojensa näkyvyyttä ja helpottamassa tutkijoiden luvanhakua ja aineistonsaantia. Organisaation uusi datapolitiikka on luettavissa THL:n sivuilla.

Tietoarkisto osallistuu yhteisen tavoitteen saavuttamiseen tarjoamalla kerätyille tutkimusaineistoille luotettavan säilytyspaikan sekä helpon palveluportaalin, Ailan. Ailassa tutkija voi selata olemassa olevia aineistoja ja tutkia niiden keräystapaa ja sisältöä aineistokuvailun perusteella. Kun sopiva aineisto löytyy, sen saa parhaimmillaan käyttöönsä heti. Kaikkein tiukimman käyttöluokituksen aineistoissakin Tietoarkisto hoitaa käyttölupapyynnön aineiston haltijalle ja toimittaa aineiston heti, kun lupa on saatu.

Tulevaisuus näyttää siis onneksi nykyhetkeä kirkkaammalta.

1http://ec.europa.eu/justice/data-protection/reform/index_en.htm
2https://www.innokyla.fi/web/verkosto1598477
3http://www.sitra.fi/hankkeet/isaacus-esituotantohankkeet

Annaleena Okuloff
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi

Kirjoitus on kolmiosaisen terveys- ja lääketieteitä käsittelevän postaussarjan viimeinen osa. Ks. ensimmäinen ja toinen osa.

Tietoarkisto vei Länsi-Balkaniin osaamista laadullisten aineistojen arkistoinnista

Sain tilaisuuden vierailla Sloveniassa Ljubljanassa laadullisten aineistojen arkisto-osaajan roolissa. Kolmipäiväisen työpajan (9.–11.2.2016) tavoitteena oli perehtyä tutkimusaineistojen arkistointiin. Esitysten ohessa työpajassa käsiteltiin oikeita aineistoja, jotka on tuotettu RRPP-projektissa.

Työpajan osallistujat olivat Albaniasta, Kosovosta, Serbiasta, Makedoniasta, Montenegrosta ja Kroatiasta. Aineistojen kotimaat ja kielet olivat samat kuin osallistujien. Kouluttajia oli minun lisäkseni Slovenian ja Sveitsin tietoarkistoista.

Se että laadulliset aineistot olivat vieraskielisiä, tuotti omat pulmansa niistä keskustelemiseen. Apuna toimi Google-kääntäjä, jonka avulla minun oli mahdollista kurkistella erikielisten aineistojen sisältöihin myös englanniksi jo ennen työpajaa. Koneellisesti tuotetut pikakäännökset ovat tietysti epätarkkoja ja osin virheellisiä. Ne kuitenkin auttoivat oleellisesti arkistointia koskevissa keskusteluissa. Analyysiin Google-kääntäjällä tuotetut aineistot tuskin sopisivat täysin varauksitta.

Kulttuuriset ja historialliset erityispiirteet puolestaan tuovat eri maiden laadullisiin aineistoihin omat eettiset ja lainsäädännöllisetkin haasteensa. Etukäteen oletin, että niistä keskusteltaisiin eniten. Mutta toisin kävi. Olennaisimmat kysymykset arkistoinnin näkökulmasta olivat samat kuin meillä Suomessa: Onko aineistojen sisältämistä henkilöistä ja aineiston tuottamistilanteista riittävästi tietoa? Ovatko haastattelujen kysymykset tai ryhmäkeskustelujen teemat tallessa? Ovatko litteraatit yhdenmukaisia läpi koko aineiston? Mitä aineistojen käytöstä ja erityisesti jatkokäytöstä on sovittu tutkittavien kanssa? Miten laadullista aineistoa voi anonymisoida?

Niin Länsi-Balkanilla kuin meillä Suomessakin laadullisen aineiston arkistointi onnistuu parhaiten, kun ajatus aineiston säilyttämisestä jatkokäyttöä varten on ollut tutkijalla mielessä alusta saakka. Vaikka työpajassa käsiteltyjen aineistojen joukossa oli muutama tällainen valopilkku, harmillisen usein aineistoista puuttuivat tiedot tutkittavien suostumuksesta. Keskusteluissamme tulimme siihen tulokseen, että kirjallisten suostumusten ohella tai niiden sijaan olisi hyvä saada äänitallenteiden alkuun tallennetuksi tutkijan selostus aineiston käytöstä ja säilyttämisestä ja tutkittavien suostumus osallistua annetuin ehdoin. Näin tutkimussuostumukset olisivat mukana itse aineistotiedostoissa ja niistä tehdyissä litteraateissa.

Toisinaan tutkijalla oli kadonnut alkuperäinen haastattelurunko, ja muutamista aineistoista puuttui osa, kun tiedostoja oli hävinnyt tutkijan työkoneen vaihtamisen yhteydessä. Tällaiset riskit ovat mahdollisia kaikilla tutkijoilla maasta riippumatta. Olinkin iloinen voidessani esitellä Tietoarkiston aineistonhallinnan käsikirjaa, josta suurin osa on käännetty myös englanniksi.

Työpajan osallistujat suunnittelevat perustavansa tietoarkistoja omiin kotimaihinsa. Jo karttuneen tietotaidon saavutettavuus auttaa heitä siinä huomattavasti. CESSDA-arkistoista laadullisten aineistojen ylivertaisia osaajia ovat Ison-Britannian UKDA ja pienen Suomen Tietoarkisto.

Lisätietoa:
» SEEDS workshop in Ljubljana
» Aineistonhallinnan käsikirja
» Data Management Guidelines

Arja Kuula-Luumi
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi

Tietoarkisto vei Länsi-Balkaniin osaamista laadullisten aineistojen arkistoinnista

Sain tilaisuuden vierailla Sloveniassa Ljubljanassa laadullisten aineistojen arkisto-osaajan roolissa. Kolmipäiväisen työpajan (9.–11.2.2016) tavoitteena oli perehtyä tutkimusaineistojen arkistointiin. Esitysten ohessa työpajassa käsiteltiin oikeita aineistoja, jotka on tuotettu RRPP-projektissa.

Työpajan osallistujat olivat Albaniasta, Kosovosta, Serbiasta, Makedoniasta, Montenegrosta ja Kroatiasta. Aineistojen kotimaat ja kielet olivat samat kuin osallistujien. Kouluttajia oli minun lisäkseni Slovenian ja Sveitsin tietoarkistoista.

Se että laadulliset aineistot olivat vieraskielisiä, tuotti omat pulmansa niistä keskustelemiseen. Apuna toimi Google-kääntäjä, jonka avulla minun oli mahdollista kurkistella erikielisten aineistojen sisältöihin myös englanniksi jo ennen työpajaa. Koneellisesti tuotetut pikakäännökset ovat tietysti epätarkkoja ja osin virheellisiä. Ne kuitenkin auttoivat oleellisesti arkistointia koskevissa keskusteluissa. Analyysiin Google-kääntäjällä tuotetut aineistot tuskin sopisivat täysin varauksitta.

Kulttuuriset ja historialliset erityispiirteet puolestaan tuovat eri maiden laadullisiin aineistoihin omat eettiset ja lainsäädännöllisetkin haasteensa. Etukäteen oletin, että niistä keskusteltaisiin eniten. Mutta toisin kävi. Olennaisimmat kysymykset arkistoinnin näkökulmasta olivat samat kuin meillä Suomessa: Onko aineistojen sisältämistä henkilöistä ja aineiston tuottamistilanteista riittävästi tietoa? Ovatko haastattelujen kysymykset tai ryhmäkeskustelujen teemat tallessa? Ovatko litteraatit yhdenmukaisia läpi koko aineiston? Mitä aineistojen käytöstä ja erityisesti jatkokäytöstä on sovittu tutkittavien kanssa? Miten laadullista aineistoa voi anonymisoida?

Niin Länsi-Balkanilla kuin meillä Suomessakin laadullisen aineiston arkistointi onnistuu parhaiten, kun ajatus aineiston säilyttämisestä jatkokäyttöä varten on ollut tutkijalla mielessä alusta saakka. Vaikka työpajassa käsiteltyjen aineistojen joukossa oli muutama tällainen valopilkku, harmillisen usein aineistoista puuttuivat tiedot tutkittavien suostumuksesta. Keskusteluissamme tulimme siihen tulokseen, että kirjallisten suostumusten ohella tai niiden sijaan olisi hyvä saada äänitallenteiden alkuun tallennetuksi tutkijan selostus aineiston käytöstä ja säilyttämisestä ja tutkittavien suostumus osallistua annetuin ehdoin. Näin tutkimussuostumukset olisivat mukana itse aineistotiedostoissa ja niistä tehdyissä litteraateissa.

Toisinaan tutkijalla oli kadonnut alkuperäinen haastattelurunko, ja muutamista aineistoista puuttui osa, kun tiedostoja oli hävinnyt tutkijan työkoneen vaihtamisen yhteydessä. Tällaiset riskit ovat mahdollisia kaikilla tutkijoilla maasta riippumatta. Olinkin iloinen voidessani esitellä Tietoarkiston aineistonhallinnan käsikirjaa, josta suurin osa on käännetty myös englanniksi.

Työpajan osallistujat suunnittelevat perustavansa tietoarkistoja omiin kotimaihinsa. Jo karttuneen tietotaidon saavutettavuus auttaa heitä siinä huomattavasti. CESSDA-arkistoista laadullisten aineistojen ylivertaisia osaajia ovat Ison-Britannian UKDA ja pienen Suomen Tietoarkisto.

Lisätietoa:
» SEEDS workshop in Ljubljana
» Aineistonhallinnan käsikirja
» Data Management Guidelines

Arja Kuula-Luumi
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi

Tietoarkkitehtuurista

TIETOARKkitehtuuri ja TIETOARKisto, onko niillä mitään muuta yhteistä kuin ensimmäiset kahdeksan kirjainta? Tietoarkkitehtuurissa kuvataan tietoa kolmella eri kuvaustasolla: käsitteellinen, looginen ja fyysinen. Tietoarkistossa kuvaillaan tutkimusaineistoja, mutta onko tietoarkiston kuvailutyössä havaittavissa tietoarkkitehtuurissa käytetyt kuvaustasot? Näihin visaisiin, nyt jo lukijan mieltä kovasti kutkuttaviin kysymyksiin, haetaan vastausta tällä kevyellä blogikirjoituksella.

Tietoarkkitehtuurissa tiedon käsitteellisen tason kuvaaminen on eräänlainen hahmotteluvaihe. Siinä pohditaan, mitkä käsitteet liittyvät kuvauksen kohdealueeseen. Myös käsitteiden väliset suhteet hahmotellaan, ja jos käsitteet eivät ole kaikille osapuolille selviä, ne myös määritellään. Tietoarkistossa tutkimusaineistojen kuvailuissa käsitteellisen hahmon muodostavat mm. aihealue ja asiasanat. Ne eivät vielä yksityiskohtaisesti kerro, mistä tutkimusaineistossa on kysymys. Ne kuitenkin auttavat aineistoon tutustuvaa hahmottamaan, olisiko aineisto heitä kiinnostava.

Tietoarkkitehtuurissa pohditaan loogisella tasolla esimerkiksi sitä, mitä ja millaisia käsitteisiin liittyvät tiedot ovat. Myös tietojen väliset suhteet esitetään tarkasti. Usein lisäksi kuvataan, missä tiedot loogisesti sijaitsevat ja missä kaikkialla tiedot kulkevat. Tietoarkiston aineiston kuvailuissa käsitteellistä hahmoa selvennetään muun muassa aineiston tietosisältöä kuvaavalla tiivistelmällä sekä tiedoilla keräysmenetelmistä ja -välineistä, otantamenetelmistä, tekijöistä ja kerääjistä. Kuvailussa kerrotaan myös aineiston looginen sijainti eli aineiston sarja. Julkaisuluettelo havainnollistaa aineiston tietojen virtaamista ympäri maailman.

Tietoarkkitehtuurissa fyysisellä tasolla kuvataan esimerkiksi tiedon fyysinen sijainti ja käytetyt koodistot. Tietoarkistossa kvantitatiivisista aineistoista kuvataan muuttujien tiedot – täsmälliset kysymyslauseet ja vastausvaihtoehdot arvoineen sekä useimmiten myös tilastolliset tunnusluvut. Aineiston fyysinen sijaintikin on kuvailussa kerrottu, tosin tietoturvallisesti, todeten aineiston olevan Tietoarkistossa.

Jos Tietoarkisto ei kuvailisi tutkimusaineistojaan, olisi niiden löytäminen, ymmärtäminen ja uudelleenkäyttö hyvin hankalaa. Sama asia on tietoarkkitehtuurissa. Jos tietoarkkitehtuuria ei tehdä, on tietojen löytäminen, ymmärtäminen ja uudelleenkäyttö ongelmallista. Tietoarkkitehtuuri on siis tiedolle sama kuin Tietoarkiston kuvailutyö tutkimusaineistoille – saattamista löydettäväksi, ymmärrettäväksi ja uudelleenkäytettäväksi.

Katja Moilanen
tietoarkkitehti
katja.j.moilanen [at] uta.fi

Tietoarkkitehtuurista

TIETOARKkitehtuuri ja TIETOARKisto, onko niillä mitään muuta yhteistä kuin ensimmäiset kahdeksan kirjainta? Tietoarkkitehtuurissa kuvataan tietoa kolmella eri kuvaustasolla: käsitteellinen, looginen ja fyysinen. Tietoarkistossa kuvaillaan tutkimusaineistoja, mutta onko tietoarkiston kuvailutyössä havaittavissa tietoarkkitehtuurissa käytetyt kuvaustasot? Näihin visaisiin, nyt jo lukijan mieltä kovasti kutkuttaviin kysymyksiin, haetaan vastausta tällä kevyellä blogikirjoituksella.

Tietoarkkitehtuurissa tiedon käsitteellisen tason kuvaaminen on eräänlainen hahmotteluvaihe. Siinä pohditaan, mitkä käsitteet liittyvät kuvauksen kohdealueeseen. Myös käsitteiden väliset suhteet hahmotellaan, ja jos käsitteet eivät ole kaikille osapuolille selviä, ne myös määritellään. Tietoarkistossa tutkimusaineistojen kuvailuissa käsitteellisen hahmon muodostavat mm. aihealue ja asiasanat. Ne eivät vielä yksityiskohtaisesti kerro, mistä tutkimusaineistossa on kysymys. Ne kuitenkin auttavat aineistoon tutustuvaa hahmottamaan, olisiko aineisto heitä kiinnostava.

Tietoarkkitehtuurissa pohditaan loogisella tasolla esimerkiksi sitä, mitä ja millaisia käsitteisiin liittyvät tiedot ovat. Myös tietojen väliset suhteet esitetään tarkasti. Usein lisäksi kuvataan, missä tiedot loogisesti sijaitsevat ja missä kaikkialla tiedot kulkevat. Tietoarkiston aineiston kuvailuissa käsitteellistä hahmoa selvennetään muun muassa aineiston tietosisältöä kuvaavalla tiivistelmällä sekä tiedoilla keräysmenetelmistä ja -välineistä, otantamenetelmistä, tekijöistä ja kerääjistä. Kuvailussa kerrotaan myös aineiston looginen sijainti eli aineiston sarja. Julkaisuluettelo havainnollistaa aineiston tietojen virtaamista ympäri maailman.

Tietoarkkitehtuurissa fyysisellä tasolla kuvataan esimerkiksi tiedon fyysinen sijainti ja käytetyt koodistot. Tietoarkistossa kvantitatiivisista aineistoista kuvataan muuttujien tiedot – täsmälliset kysymyslauseet ja vastausvaihtoehdot arvoineen sekä useimmiten myös tilastolliset tunnusluvut. Aineiston fyysinen sijaintikin on kuvailussa kerrottu, tosin tietoturvallisesti, todeten aineiston olevan Tietoarkistossa.

Jos Tietoarkisto ei kuvailisi tutkimusaineistojaan, olisi niiden löytäminen, ymmärtäminen ja uudelleenkäyttö hyvin hankalaa. Sama asia on tietoarkkitehtuurissa. Jos tietoarkkitehtuuria ei tehdä, on tietojen löytäminen, ymmärtäminen ja uudelleenkäyttö ongelmallista. Tietoarkkitehtuuri on siis tiedolle sama kuin Tietoarkiston kuvailutyö tutkimusaineistoille – saattamista löydettäväksi, ymmärrettäväksi ja uudelleenkäytettäväksi.

Katja Moilanen
tietoarkkitehti
katja.j.moilanen [at] uta.fi

Miksi terveys- ja lääketieteiden aineistot pitäisi arkistoida?

Arto Vuoren, THL, sanoin suomalaisilla hyvinvointi- ja terveysalan viranomaisilla ja tutkimuslaitoksilla on hallussaan kansainvälisesti verrattuna mittavat ja arvokkaat tietovarannot väestön palveluiden käytöstä ja terveydentilasta. Lainsäädäntö antaa mahdollisuuden käyttää tietoja tilastointiin, tutkimukseen ja biopankkitoimintaan.

Lakisääteisesti talletettujen tietojen lisäksi tutkijoilla ja tutkimusryhmillä on hallussaan kyselyin kerättyä tietoa muun muassa ihmisten elintavoista, työn asettamista haasteista, asenteista ja perhetilanteista.

Yhdistämällä olemassa olevia aineistoja eri lähteistä päästään tutkimaan sairauksien, työkyvyttömyyden ja hyvinvoinnin tausta- ja riskitekijöitä kokonaisvaltaisesti. Uusia hoitoja voidaan kehittää nopeammin ja poliittisen päätöksenteon pohjaksi saadaan tuotettua ajanmukaista tietoa. Terveydelle haitallisten altisteiden jäljille voidaan päästä nopeammin, ilman jopa vuosikymmeniä kestävää uutta tiedonkeruuta.

Aineisto on arvokas myös sellaisenaan. Jos aineistot olisivat saatavilla muuhunkin kuin alkuperäiseen tutkimukseen, toiset tutkijat voisivat tutkia ilmiötä eri näkökulmasta, jopa kokonaan toisen tieteenalan vinkkelistä.

Myös tutkittavien näkökulmalla on merkitystä. Tietokonepohjaisten kyselyjen, ja ylipäänsäkin kyselyjen, lisääntyessä perinteisesti hyvin tutkimukseen osallistuneiden suomalaisten halukkuus osallistua on laskussa. Tutkittavien taakan vähentämiseksi jokaista uutta kyselyä suunnitellessa olisi syytä miettiä hyvin tarkkaan, tarvitseeko uutta aineistoa kerätä, vai löytyisikö jo kerätyistä, arkistoiduista aineistoista tarvittava tieto.

Tämän vuoksi kaikki ihmisen terveyteen ja käyttäytymiseen liittyvät tutkimusaineistot, joilla arvellaan olevan alkuperäistä tutkimusta laajempaa hyötyä tutkimukselle, olisi arkistoitava.

Annaleena Okuloff
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi

Kirjoitus on kolmiosaisen terveys- ja lääketieteitä käsittelevän postaussarjan toinen osa. Ks. ensimmäinen osa.