Tag Archives: matkakertomus

Laadulliset aineistot saivat IASSIST-konferenssissa aiempaa enemmän huomiota

IASSIST (International Association of Social Science Information Service & Technology) on yhteiskuntatieteellistä tutkimusta tukevien yksiköiden, kuten tietoarkistojen ja datakirjastojen, työntekijöiden kansainvälinen järjestö. Sen tärkein toimintamuoto on vuosittain järjestettävä kansainvälinen konferenssi. Tänä vuonna konferenssi järjestettiin Yhdysvaltojen Minneapolisissa kesäkuun ensimmäisellä viikolla. Konferenssiin osallistui myös neljä tietoarkistolaista.

Neljä päivää kestänyt konferenssi tarjosi runsaasti kiinnostavia aihepiiriin liittyviä luentoja ja työpajoja. Työpajat oli sijoitettu tapahtuman ensimmäiselle päivälle tiistaille. Loput kolme päivää oli pyhitetty luennoille ja paneelikeskusteluille. Kymmenestä valittavana olleesta työpajasta osallistuin itse kahteen, jotka molemmat liittyivät laadullisten aineistojen käsittelyyn. Perinteisesti laadulliset aineistot ovat saaneet IASSIST-konferensseissa selvästi kvantitatiivisia sisariaan vähemmän näkyvyyttä, joten kaksi erityisesti kvalitatiivisiin aineistoihin keskittyvää työpajaa olivat tervetullut uudistus.

Työpajoista ensimmäisessä tutustuttiin laadullisten aineistojen analysointityökaluun NVivoon (Using NVivo 10 for Qualitative Data Analysis). Vaikka työkalun perusajatus olikin monelle osallistujalle jo ennestään tuttu, sai kurssilta hyviä vinkkejä NVivon erilaisista käyttömahdollisuuksista. Työpajassa NVivoa lähestyttiin nimenomaan käytännön tasolla. Jokainen osallistuja sai koodata testiaineistoja ja kokeilla ohjelman tarjoamia työkaluja aineistojen analysoinnin helpottamiseksi.

Toinen työpaja käsitteli laadullisten aineistojen arkistoinnin ja jatkokäytön erityispiirteitä (Managing and Sharing Qualitative Data). Tutun aihepiirin teki työpajassa kiinnostavaksi muun muassa se, että sen järjesti yhdysvaltalaiseen Syracusen yliopistoon vasta hiljattain perustettu laadullisten arkistointiin erikoistunut Qualitative Data Repository (QDR).

Työpajan keskusteluissa sain huomata, että laadullisten aineistojen arkistoimisen haasteet ovat samoja maasta ja maanosasta riippumatta. Nämä haasteet liittyvät usein esimerkiksi tutkimuseettisiin ja tekijänoikeuskysymyksiin, arkistointia hankaloittavaan lainsäädäntöön sekä tutkijoiden haluttomuuteen luovuttaa keräämänsä, ja usein kovin henkilökohtaisina pitämänsä, tutkimusaineistot jatkokäyttöön. Kävikin varsin selväksi, että niin esimerkiksi Yhdysvaltojen, Euroopan kuin Afrikankin data-arkistoissa arkistotyöntekijät saavat vakuutella aineistoja kerääviä tutkijoita arkistoinnin hyödyistä ja hälventää aineistojen arkistointiin liittyviä epäluuloja.

Positiivisena muutoksena työpajan osallistujat kertoivat havainneensa sen, että kun aikaisemmin tutkijat tulivat ensimmäisen kerran kysymään arkistointiin liittyviä neuvoja vasta aineistot kerättyään, ottavat he nykyään arkistointimahdollisuuden huomioon yhä useammin jo aineistonhallintasuunnitelmaa laatiessaan. Tämä mahdollistaa sen, että tutkittavilta voidaan pyytää asianmukainen suostumus aineiston arkistointiin jo aineistoa kerättäessä.

IASSISTin varsinaiset luentosessiot oli jaettu teemansa perusteella kolmeen eri ryhmään. Tämä auttoi runsaudenpulasta kärsiviä konferenssiosallistujia valitsemaan monista päällekkäisistä sessioista itselle sopivimmat sen perusteella, kiinnostivatko häntä aineistonhallintaan liittyvät kysymykset, aineistopalvelujen ammatillinen kehittäminen vai datainfrastruktuuri ja -sovellukset. Itse osallistuin pääasiassa kahden ensimmäisen ryhmän luentosessioihin.

Luennot vahvistivat jo työpajassa tekemääni havaintoa siitä, että tutkimusaineistojen arkistointiin liittyvät kysymykset ovat pitkälti samanlaisia maasta ja arkistosta riippumatta. IASSIST tarjoaakin hienon tilaisuuden keskustella yhteisistä haasteista ja kehityssuunnista eri maista tulevien saman alan asiantuntijoiden kanssa. Samalla se tarjoaa vuosittain hyvän katsauksen siitä, mihin suuntaan eri maiden data-arkistot ovat kehittäneet toimintaansa ja palvelujansa edellisen vuoden aikana.

Ammatillisen verkostoitumismahdollisuuden lisäämiseksi IASSIST-konferenssiin kuuluu myös vapaamuotoisempaa ohjelmaa, kuten perinteinen ensimmäisen konferenssipäivän iltavastaanotto. Tällä kertaa vastaanotto järjestettiin Frank Gehryn suunnittelemassa upeassa Weisman Art Museumissa. Vastaanoton ohella perinteisesti yksi IASSISTin odotetuimpia tilaisuuksia varsinaisen konferenssiohjelman ulkopuolella on torstai-illan juhlaillallinen, jossa kansainvälisiä arkistokuulumisia voi vaihtaa hyvän ruoan ja juoman parissa.

IASSIST tarjosi siis jälleen kerran kattavan paketin tutkimusaineistojen arkistointiin ja jatkokäyttöön liittyviä näkökulmia. Seuraavan kerran IASSIST järjestetään Norjan Bergenissä touko-kesäkuun vaihteessa vuonna 2016. Osallistumista voin suositella kaikille tutkimusaineistojen arkistoinnin parissa työskenteleville, tieteenalaan katsomatta.

Lisätietoa:
» IASSIST
» IASSIST 2015 -konferenssi
» NVivo
» Qualitative Data Repository

Jarkko Päivärinta
tietopalveluasiantuntija
etunimi.sukunimi [at] uta.fi

Eurooppalainen datafoorumi EDAF2 esitteli tulevaisuuden tutkijapalveluita mikrodatan käyttäjille

Data without Boundaries (DwB) -projektin lähestyessä loppuaan DwB-väki kokoontui yhteiseen 2nd European Data Access Forum -tapahtumaan Luxemburgiin. DwB-projektiin on osallistunut lukuisa joukko tietoarkistojen, yliopistojen ja tilastokeskuksien henkilökuntaa ympäri Eurooppaa. Projektin tavoitteena on ollut tukea ja helpottaa virallisen tilastollisen mikrodatan saantia tutkimuskäyttöön Euroopan alueella. EDAF2-tapahtumassa tutkailtiin tiiviillä tahdilla, mitä kaikkea DwB-projekti on tuonut tullessaan.

DwB-projektissa on tehty useita kyselyitä ja haastatteluja, joiden avulla on kartoitettu tutkijoiden haluja ja tarpeita mikrodatan löytämisestä ja saamisesta tutkimuskäyttöön. Tulokset kuulostavat, näin tutkimusaineistojen jatkokäyttöä edistävän organisaation edustajan korviin, tutuilta: tutkijat toivovat, että mikrodatat olisi helppo sekä löytää että saada käyttöönsä. Löytämisen helppous liitetään hyvin tuotettuihin ja yksityiskohtaisiin datan kuvailuihin. Kuvailujen eli metadatan avulla tutkijat toivovat voivansa löytää, ei vain sopivat mikrodatat, vaan myös sopivat muuttujat. Luvan saaminen mikrodatan tutkimuskäyttöön ei saisi viedä kauaa eikä olla monimutkikasta. Joskus pelkkä luvan saaminen voi viedä tutkimusprojektista vuoden. Lisäksi tutkijat toivovat muutosta monessa paikassa edelleen olevaan tapaan antaa aineisto käyttöön vain mikrodatan hallinnoijan tiloissa ja koneella. Eniten toivotaan, että mikrodatoja voisi käyttää omalla tietokoneella, jotta niitä voisi analysoida ajasta ja paikasta riippumatta.

DwB-projektilla oli kertoa tutkijoille hyviä uutisia sekä mikrodatan löydettävyydestä että sen saannista. Projektin aikana on kehitetty mikrodatakatalogi CIMES, jonne on kerätty Euroopan maiden mikrodatojen kuvailuja maittain. Toki kuvailujen yksityiskohtaisuudessa on vielä eroja riippuen datan tuottajan organisaatiosta, mutta tutkijan kannalta yksi kuvailujen suhteen heterogeeninen verkkosivu lienee kuitenkin parempi kuin kymmenien eri verkkosivujen tutkiminen erikseen. DwB-projektissa on myös kehitelty tapoja yhdenmukaistaa mikrodatan jatkokäyttöproseduureja eri maiden välillä. Haasteita tähän luovat hyvinkin erilaiset lainsäädännöt eri maiden välillä koskien muun muassa mikrodatan siirtoa toiseen maahan. DwB-projektissa on myös pilotoitu usealla eri tavalla kirjaimellisesti rajat ylittävää datan saantia. Kaikista mieleenpainuvin näistä oli tapahtumassa demonstroitu esimerkki, jossa erilaisten etäkäyttöjärjestelyiden ja sopimusten avustamana mikrodataa voitiin käyttää jopa kansainvälisessä tutkimusryhmässä siten, että tutkijat olivat keskenään eri maissa, käyttivät eri tilasto-ohjelmistoja ja eri maiden datoja, mutta pystyivät silti työskentelemään yhdessä. Uskomattoman hienoa, eikö teistäkin?

Tässä olivat minun näkökulmastani EDAF2-tapahtuman antoisimmat asiat. Toki tapahtumassa käsiteltiin ja esiteltiin paljon muitakin DwB-projektin saavutuksia. EDAF2-tapahtuman materiaalit ovat saatavissa projektin verkkosivuilta. Hauskoja lukuhetkiä!

Lisätietoa:
» Data without Boundaries (DwB)
» EDAF2-esitykset
» Mikrodatakatalogi CIMES

Katja Moilanen
tietoarkkitehti
katja.j.moilanen [at] uta.fi

Eurooppalainen datafoorumi EDAF2 esitteli tulevaisuuden tutkijapalveluita mikrodatan käyttäjille

Data without Boundaries (DwB) -projektin lähestyessä loppuaan DwB-väki kokoontui yhteiseen 2nd European Data Access Forum -tapahtumaan Luxemburgiin. DwB-projektiin on osallistunut lukuisa joukko tietoarkistojen, yliopistojen ja tilastokeskuksien henkilökuntaa ympäri Eurooppaa. Projektin tavoitteena on ollut tukea ja helpottaa virallisen tilastollisen mikrodatan saantia tutkimuskäyttöön Euroopan alueella. EDAF2-tapahtumassa tutkailtiin tiiviillä tahdilla, mitä kaikkea DwB-projekti on tuonut tullessaan.

DwB-projektissa on tehty useita kyselyitä ja haastatteluja, joiden avulla on kartoitettu tutkijoiden haluja ja tarpeita mikrodatan löytämisestä ja saamisesta tutkimuskäyttöön. Tulokset kuulostavat, näin tutkimusaineistojen jatkokäyttöä edistävän organisaation edustajan korviin, tutuilta: tutkijat toivovat, että mikrodatat olisi helppo sekä löytää että saada käyttöönsä. Löytämisen helppous liitetään hyvin tuotettuihin ja yksityiskohtaisiin datan kuvailuihin. Kuvailujen eli metadatan avulla tutkijat toivovat voivansa löytää, ei vain sopivat mikrodatat, vaan myös sopivat muuttujat. Luvan saaminen mikrodatan tutkimuskäyttöön ei saisi viedä kauaa eikä olla monimutkikasta. Joskus pelkkä luvan saaminen voi viedä tutkimusprojektista vuoden. Lisäksi tutkijat toivovat muutosta monessa paikassa edelleen olevaan tapaan antaa aineisto käyttöön vain mikrodatan hallinnoijan tiloissa ja koneella. Eniten toivotaan, että mikrodatoja voisi käyttää omalla tietokoneella, jotta niitä voisi analysoida ajasta ja paikasta riippumatta.

DwB-projektilla oli kertoa tutkijoille hyviä uutisia sekä mikrodatan löydettävyydestä että sen saannista. Projektin aikana on kehitetty mikrodatakatalogi CIMES, jonne on kerätty Euroopan maiden mikrodatojen kuvailuja maittain. Toki kuvailujen yksityiskohtaisuudessa on vielä eroja riippuen datan tuottajan organisaatiosta, mutta tutkijan kannalta yksi kuvailujen suhteen heterogeeninen verkkosivu lienee kuitenkin parempi kuin kymmenien eri verkkosivujen tutkiminen erikseen. DwB-projektissa on myös kehitelty tapoja yhdenmukaistaa mikrodatan jatkokäyttöproseduureja eri maiden välillä. Haasteita tähän luovat hyvinkin erilaiset lainsäädännöt eri maiden välillä koskien muun muassa mikrodatan siirtoa toiseen maahan. DwB-projektissa on myös pilotoitu usealla eri tavalla kirjaimellisesti rajat ylittävää datan saantia. Kaikista mieleenpainuvin näistä oli tapahtumassa demonstroitu esimerkki, jossa erilaisten etäkäyttöjärjestelyiden ja sopimusten avustamana mikrodataa voitiin käyttää jopa kansainvälisessä tutkimusryhmässä siten, että tutkijat olivat keskenään eri maissa, käyttivät eri tilasto-ohjelmistoja ja eri maiden datoja, mutta pystyivät silti työskentelemään yhdessä. Uskomattoman hienoa, eikö teistäkin?

Tässä olivat minun näkökulmastani EDAF2-tapahtuman antoisimmat asiat. Toki tapahtumassa käsiteltiin ja esiteltiin paljon muitakin DwB-projektin saavutuksia. EDAF2-tapahtuman materiaalit ovat saatavissa projektin verkkosivuilta. Hauskoja lukuhetkiä!

Lisätietoa:
» Data without Boundaries (DwB)
» EDAF2-esitykset
» Mikrodatakatalogi CIMES

Katja Moilanen
tietoarkkitehti
katja.j.moilanen [at] uta.fi

Itä-Aasian tietoarkistot kutsuvat yhteistyöhön

Tietoarkisto sai viime syksynä kutsun osallistua Japanin tietoarkiston SSJDA:n järjestämään seminaariin 12.–13. helmikuuta Tokiossa. Seminaari oli suunnattu Itä-Aasian arkistoille, mutta meidät kutsuttiin kertomaan Euroopan (ja Suomen) tämän hetkisestä tilanteesta nyt, kun Euroopan tietoarkistojen yhteinen EU-tutkimusinfrastruktuuri – CESSDA ERIC – on aloittamassa toimintaansa. Matkaan lähtivät arkiston johtaja Sami Borg ja minä.

Suomen tietoarkiston lisäksi seminaariin oli kutsuttu Korean tietoarkisto KOSSDA ja Taiwanin tietoarkisto SRDA. Lisäksi paikalla oli edustajia Soulin yliopistosta. Ohjelma oli tiivis. Ennen seminaarin alkua teimme tutustumiskäynnin SSJDA:n tiloihin. Varsinainen seminaari jakautui suljettuun, kutsutuille arkistoille tarkoitettuun osaan ja avoimeen osaan, johon kaikki kiinnostuneet Tokion yliopistolla olivat tervetulleita.

Oli mielenkiintoista havaita kuinka samanlaista arkistojen toiminta oli vaikka kaikkien organisaatiotausta oli erilainen. SSJDA on osa Tokion yliopiston yhteiskuntatieteellistä tutkimuskeskusta. Korean KOSSDAn taustalla on yksityinen säätiö. Taiwanin SRDA on osa Taiwanin kansallisen tutkimusakatemian Academia Sinican kulttuuri- ja yhteiskuntatieteiden alan tutkimuskeskusta. Suomen tietoarkisto puolestaan on opetus- ja kulttuuriministeriön Tampereen yliopistolle osoittama palvelutehtävä ja yliopiston erillisyksikkö.

Erilaisista taustoista huolimatta meitä kaikkia kuitenkin yhdistää se, että luovutamme aineistoja jatkokäyttöön oman kotiorganisaation ulkopuolelle. Aineistojen valmistelu arkistoitavaksi ja jatkokäyttöön tapahtui myös pääosin samojen periaatteiden mukaan, mutta aineistojen hankintatavat eroavat jonkin verran. Japanissa ja Taiwanissa osa aineistoista tulee suoraan isäntäorganisaation tutkijoilta ja osa hankitaan samaan tapaan kuin pääosa aineistoista meillä Suomessa: ottamalla yhteyttä suoraan tutkijoihin ja tutkimusorganisaatioihin. KOSSDAssa hankinta perustuu pitkälti eri organisaatioiden ja järjestöjen kanssa tehtyihin jäsenyyssopimuksiin. Lisäksi sen kumppanit toimittavat KOSSDAlle aineistoja selvästi enemmän kuin KOSSDA pystyy käsittelemään. Suomalaisen tietoarkistolaisen silmissä tämä vaikutti lähinnä positiiviselta ongelmalta.

Kaikki seminaariin osallistuneet arkistot toimittavat aineistoja oman kotimaansa ulkopuolelle. Myös suomalaiset tutkijat voivat saada esimerkiksi Japanin tietoarkiston aineistoja käyttöönsä. Kieli tosin saattaa muodostua ongelmaksi – kaikkea ei ole saatavilla englanniksi.

En itse ollut aiemmin käynyt Japanissa, joten seminaarin lisäksi kaikki muukin oli hyvin kiinnostavaa. Tokio on valtava kaupunki, ja on uskomatonta kuinka hyvin kaikki siellä toimii. Japanilaiset ovat kohteliaita ja avuliaita.

Tietoarkistojen kanssakäyminen on hyvin vilkasta. Eurooppalaisten arkistojen yhteistyön painopiste on kuitenkin Euroopassa ja eurooppalaisuus varmasti painottuu edelleen CESSDA ERICin myötä. Oli hyvin mielenkiintoista tavata myös aasialaisten tietoarkistojen edustajia ja kuulla näiden toiminnasta.

Matti Heinonen
ATK-erikoistutkija
etunimi.sukunimi [at] uta.fi

Itä-Aasian tietoarkistot kutsuvat yhteistyöhön

Tietoarkisto sai viime syksynä kutsun osallistua Japanin tietoarkiston SSJDA:n järjestämään seminaariin 12.–13. helmikuuta Tokiossa. Seminaari oli suunnattu Itä-Aasian arkistoille, mutta meidät kutsuttiin kertomaan Euroopan (ja Suomen) tämän hetkisestä tilanteesta nyt, kun Euroopan tietoarkistojen yhteinen EU-tutkimusinfrastruktuuri – CESSDA ERIC – on aloittamassa toimintaansa. Matkaan lähtivät arkiston johtaja Sami Borg ja minä.

Suomen tietoarkiston lisäksi seminaariin oli kutsuttu Korean tietoarkisto KOSSDA ja Taiwanin tietoarkisto SRDA. Lisäksi paikalla oli edustajia Soulin yliopistosta. Ohjelma oli tiivis. Ennen seminaarin alkua teimme tutustumiskäynnin SSJDA:n tiloihin. Varsinainen seminaari jakautui suljettuun, kutsutuille arkistoille tarkoitettuun osaan ja avoimeen osaan, johon kaikki kiinnostuneet Tokion yliopistolla olivat tervetulleita.

Oli mielenkiintoista havaita kuinka samanlaista arkistojen toiminta oli vaikka kaikkien organisaatiotausta oli erilainen. SSJDA on osa Tokion yliopiston yhteiskuntatieteellistä tutkimuskeskusta. Korean KOSSDAn taustalla on yksityinen säätiö. Taiwanin SRDA on osa Taiwanin kansallisen tutkimusakatemian Academia Sinican kulttuuri- ja yhteiskuntatieteiden alan tutkimuskeskusta. Suomen tietoarkisto puolestaan on opetus- ja kulttuuriministeriön Tampereen yliopistolle osoittama palvelutehtävä ja yliopiston erillisyksikkö.

Erilaisista taustoista huolimatta meitä kaikkia kuitenkin yhdistää se, että luovutamme aineistoja jatkokäyttöön oman kotiorganisaation ulkopuolelle. Aineistojen valmistelu arkistoitavaksi ja jatkokäyttöön tapahtui myös pääosin samojen periaatteiden mukaan, mutta aineistojen hankintatavat eroavat jonkin verran. Japanissa ja Taiwanissa osa aineistoista tulee suoraan isäntäorganisaation tutkijoilta ja osa hankitaan samaan tapaan kuin pääosa aineistoista meillä Suomessa: ottamalla yhteyttä suoraan tutkijoihin ja tutkimusorganisaatioihin. KOSSDAssa hankinta perustuu pitkälti eri organisaatioiden ja järjestöjen kanssa tehtyihin jäsenyyssopimuksiin. Lisäksi sen kumppanit toimittavat KOSSDAlle aineistoja selvästi enemmän kuin KOSSDA pystyy käsittelemään. Suomalaisen tietoarkistolaisen silmissä tämä vaikutti lähinnä positiiviselta ongelmalta.

Kaikki seminaariin osallistuneet arkistot toimittavat aineistoja oman kotimaansa ulkopuolelle. Myös suomalaiset tutkijat voivat saada esimerkiksi Japanin tietoarkiston aineistoja käyttöönsä. Kieli tosin saattaa muodostua ongelmaksi – kaikkea ei ole saatavilla englanniksi.

En itse ollut aiemmin käynyt Japanissa, joten seminaarin lisäksi kaikki muukin oli hyvin kiinnostavaa. Tokio on valtava kaupunki, ja on uskomatonta kuinka hyvin kaikki siellä toimii. Japanilaiset ovat kohteliaita ja avuliaita.

Tietoarkistojen kanssakäyminen on hyvin vilkasta. Eurooppalaisten arkistojen yhteistyön painopiste on kuitenkin Euroopassa ja eurooppalaisuus varmasti painottuu edelleen CESSDA ERICin myötä. Oli hyvin mielenkiintoista tavata myös aasialaisten tietoarkistojen edustajia ja kuulla näiden toiminnasta.

Matti Heinonen
ATK-erikoistutkija
etunimi.sukunimi [at] uta.fi

ICPSR:n kesäkurssit arkistoijan opinahjona

Michiganin yliopiston yhteydessä Ann Arborissa toimiva data-arkisto ICPSR (Inter-university Consortium for Political and Social Research) järjestää vuosittain lukuisia erilaisia kesäkursseja, joiden kohderyhmänä ovat tutkijat ja arkistoalan työntekijät ympäri maailmaa. Silloin tällöin myös Yhteiskuntatieteellinen tietoarkisto lähettää työntekijöitänsä Ann Arboriin hankkimaan koulutusta ja uusia ideoita tutkimusaineistojen arkistointiin. Samalla tarjoutuu hyvä mahdollisuus vaihtaa kokemuksia muualta maailmasta tulleiden arkistoalan työntekijöiden kanssa. Tänä vuonna matka-arpa osui omalle kohdalleni.

ICPSR:n kesäkurssien pääpaino on ollut perinteisesti vahvasti kvantitatiivisten tutkimusaineistojen puolella, mutta heinä-elokuun vaihteessa järjestetty viisipäiväinen Curating and Managing Research Data for Re-Use tarjosi kiinnostavia näkökulmia myös kvalitatiivisten aineistojen käsittelyyn ja arkistointiin.

Kurssille osallistui 26 eri tavoin tutkimusaineistojen arkistoinnin parissa työskentelevää henkilöä. Suurin osa osallistujista tuli Yhdysvalloista, mutta joukossa oli kauempaa tulleita arkistotyöntekijöitä myös Kanadasta, Etelä-Afrikasta ja Ruotsista. Kurssin opettajina toimivat Jared Lyle ja Mary Vardigan ICPSR:stä sekä Ron Nakao Stanford Universitystä ja Jake Carlson Purdue Universitystä.

Kunkin päivän ohjelma oli rakennettu oman teeman ympärille. Päivittäisiä teemoja olivat tutkimusaineistojen elinkaari, arkistointipolitiikat, aineiston käsittely, aineistojen tietoturvallinen säilytys sekä jatkokäyttö. Kunkin päivän pääpuhuja oli kyseiseen teemaan erikoistunut asiantuntija. Luentojen lisäksi kurssi sisälsi paljon ryhmätöinä tehtyjä harjoituksia. Virallisen ohjelman ulkopuolella kurssin sisältöön kuului vierailu läheisessä Clarkin kirjastossa, jossa meille esiteltiin esimerkiksi kartta-aineistojen digitointia.

Kurssilla tutustuimme muun muassa erilaisiin teknisiin työkaluihin, jotka auttavat tutkimusaineistojen kuvailujen laatimisessa ja metadatan tallentamisessa. Opimme myös kuinka toimii pitkälle automatisoitu aineistojen talletusjärjestelmä, jossa tutkija voi luovuttaa tutkimusaineistonsa arkistoon suoraan verkossa. Tulevaisuudessa, kun rahoittajat uudistavat data-politiikkaansa ja arkistointivelvoitteet lisääntyvät myös Suomessa, vastaavaan järjestelmään siirtyminen on mitä todennäköisimmin edessä myös Yhteiskuntatieteellisessä tietoarkistossa.

Kokonaisuudessaan osallistuminen ICPSR:n kesäkurssille oli kaikin puolin hieno ja opettavainen kokemus. Opimme paljon ICPSR:n omista arkistointikäytännöistä ja aineistonkäsittelyntavoista. Lisäksi tutustuimme laajalti muihin mahdollisuuksiin käsitellä arkistoitavia tutkimusaineistoja ja saattaa niitä jatkokäyttäjien ulottuville. Uskallankin suositella nyt toista kertaa järjestettyä kurssia kaikille, jotka työskentelevät tutkimusaineistojen arkistoinnin parissa.

Lisätietoja: ICPSR:n kesäkurssien verkkosivusto.

Jarkko Päivärinta
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi

ICPSR:n kesäkurssit arkistoijan opinahjona

Michiganin yliopiston yhteydessä Ann Arborissa toimiva data-arkisto ICPSR (Inter-university Consortium for Political and Social Research) järjestää vuosittain lukuisia erilaisia kesäkursseja, joiden kohderyhmänä ovat tutkijat ja arkistoalan työntekijät ympäri maailmaa. Silloin tällöin myös Yhteiskuntatieteellinen tietoarkisto lähettää työntekijöitänsä Ann Arboriin hankkimaan koulutusta ja uusia ideoita tutkimusaineistojen arkistointiin. Samalla tarjoutuu hyvä mahdollisuus vaihtaa kokemuksia muualta maailmasta tulleiden arkistoalan työntekijöiden kanssa. Tänä vuonna matka-arpa osui omalle kohdalleni.

ICPSR:n kesäkurssien pääpaino on ollut perinteisesti vahvasti kvantitatiivisten tutkimusaineistojen puolella, mutta heinä-elokuun vaihteessa järjestetty viisipäiväinen Curating and Managing Research Data for Re-Use tarjosi kiinnostavia näkökulmia myös kvalitatiivisten aineistojen käsittelyyn ja arkistointiin.

Kurssille osallistui 26 eri tavoin tutkimusaineistojen arkistoinnin parissa työskentelevää henkilöä. Suurin osa osallistujista tuli Yhdysvalloista, mutta joukossa oli kauempaa tulleita arkistotyöntekijöitä myös Kanadasta, Etelä-Afrikasta ja Ruotsista. Kurssin opettajina toimivat Jared Lyle ja Mary Vardigan ICPSR:stä sekä Ron Nakao Stanford Universitystä ja Jake Carlson Purdue Universitystä.

Kunkin päivän ohjelma oli rakennettu oman teeman ympärille. Päivittäisiä teemoja olivat tutkimusaineistojen elinkaari, arkistointipolitiikat, aineiston käsittely, aineistojen tietoturvallinen säilytys sekä jatkokäyttö. Kunkin päivän pääpuhuja oli kyseiseen teemaan erikoistunut asiantuntija. Luentojen lisäksi kurssi sisälsi paljon ryhmätöinä tehtyjä harjoituksia. Virallisen ohjelman ulkopuolella kurssin sisältöön kuului vierailu läheisessä Clarkin kirjastossa, jossa meille esiteltiin esimerkiksi kartta-aineistojen digitointia.

Kurssilla tutustuimme muun muassa erilaisiin teknisiin työkaluihin, jotka auttavat tutkimusaineistojen kuvailujen laatimisessa ja metadatan tallentamisessa. Opimme myös kuinka toimii pitkälle automatisoitu aineistojen talletusjärjestelmä, jossa tutkija voi luovuttaa tutkimusaineistonsa arkistoon suoraan verkossa. Tulevaisuudessa, kun rahoittajat uudistavat data-politiikkaansa ja arkistointivelvoitteet lisääntyvät myös Suomessa, vastaavaan järjestelmään siirtyminen on mitä todennäköisimmin edessä myös Yhteiskuntatieteellisessä tietoarkistossa.

Kokonaisuudessaan osallistuminen ICPSR:n kesäkurssille oli kaikin puolin hieno ja opettavainen kokemus. Opimme paljon ICPSR:n omista arkistointikäytännöistä ja aineistonkäsittelyntavoista. Lisäksi tutustuimme laajalti muihin mahdollisuuksiin käsitellä arkistoitavia tutkimusaineistoja ja saattaa niitä jatkokäyttäjien ulottuville. Uskallankin suositella nyt toista kertaa järjestettyä kurssia kaikille, jotka työskentelevät tutkimusaineistojen arkistoinnin parissa.

Lisätietoja: ICPSR:n kesäkurssien verkkosivusto.

Jarkko Päivärinta
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi

Dataintensiivinen tiede tarvitsee oikeanlaista metadataa

Ilman kuvailevaa tietoa, metadataa, sähköinen tutkimusaineisto, data, on merkityksetöntä bittimössöä. Jotta tutkimusaineistoa voidaan hyödyntää nyt ja tulevaisuudessa, tarvitaan tietoa esimerkiksi sen sisällöstä ja rakenteesta sekä mahdollisista muokkauksista ja käyttöoikeuksista. Näitä tarpeita varten eri maiden yhteiskuntatieteelliset data-arkistot kehittivät 1990-luvulla uuden monipuolisen kuvailuformaatin, DDI:n. Aluksi DDI keskittyi tutkimusaineistojen arkistointivaiheessa tarvittavaan metadataan, mutta tuorein versio, DDI 3, kattaa datan koko elinkaaren.

DDI:n käyttäjäkunta laajenee jatkuvasti. Viime vuoden joulukuussa järjestetty 2nd Annual European DDI Users Group Meeting, tuttavallisemmin EDDI, houkutteli talviseen Utrechtiin seitsemänkymmentä tutkimusaineistojen metadatan asiantuntijaa. Osallistujia oli data-arkistojen lisäksi muun muassa akateemisista tutkimusorganisaatioista, kaupallisista ohjelmistoyrityksistä, Eurostatista ja Australian tilastotoimesta. Yhteistä kaikille osallistujille oli halu hyödyntää olemassa olevien ja tulevien tietoaineistojen koko potentiaali ja tahto palvella dataa tuottavia ja käyttäviä sidosryhmiä parhaalla mahdollisella tavalla.

Tietoarkistosta meitä oli Utrechtissä kaksi: minä ja atk-erikoistutkijamme Matti Heinonen. Kaksipäiväisen seminaarin aikana ehdimme saada aimo annoksen sekä käytännön tietoa että uusia ideoita. Matti keskittyi teknisiin sessioihin, minulle jäivät ”yleisemmät teemat”. Yli kahdenkymmenen toinen toistaan paremman esityksen joukosta kiinnostavimmiksi nousivat mielestäni Peter Wittenburgin ja Steven Valen esitykset.

Max Planck -instituutin kieliarkistoa johtava Peter Wittenburg kertoi tieteellisen datan eurooppalaista e-infrastruktuuria visioineen korkean tason asiantuntijaryhmän työn tuloksista. Tämä HLEG-ryhmä luovutti lokakuussa Euroopan komissiolle loppuraporttinsa ”Riding the wave. How Europe can gain from the rising tide of scientific data”. Tiede on tällä hetkellä dataintensiivistä: tutkijat elävät suurten datamassojen keskellä ja tutkijoiden käytössä olevan datan määrä kasvaa koko ajan kaikilla tieteenaloilla. Tämä tieteen neljänneksi paradigmaksikin kutsuttu vaihe tarjoaa luonnollisesti runsaasti mahdollisuuksia, mutta esityksessään Wittenburg keskittyi haasteisiin. Datanhallinnan vaatimukset kasvavat kohisten. Esimerkiksi datan säilytysaika ja -strategiat vaihtelevat datan tyypin mukaan. Yleistäen voidaan sanoa, että luonnontieteissä ongelmana on datan määrä, yhteiskuntatieteissä ja humanistisissa tieteissä datan monimutkaisuus. Oikeanlainen metadata on keskeinen datanhallinnan väline.

Wittenburgin puheessa toistui myös sana luottamus: eri toimijoiden datan elinkaaren eri vaiheissa olisi voitava luottaa toisiinsa ja tietysti itse dataan. Tärkeää olisi myös saavuttaa laaja konsensus siitä, että arvokkaan tieteellisen datan laadukas dokumentointi, huolellinen säilyttäminen ja mahdollisimman avoin saatavuus jatkokäyttöön hyödyttävät sekä tiedeyhteisöä että yhteiskuntaa. Haasteet ovat samanlaisia tai ainakin hyvin samankaltaisia (Euroopan) eri maissa ja eri tieteenaloilla, ja ne ovat tuttuja tietoarkistotyön arjestakin.

YK:n Euroopan talouskomission UNECE:n Steven Vale tarkasteli esityksessään datanhallinnan ongelmia tilastojen tuottajan näkökulmasta. Tilastovirastojen yhteistyön helpottamiseksi ja tilastojen laadun parantamiseksi UNECE, Eurostat ja OECD:n METIS-työryhmä ovat tuottaneet tilastollisten metadatajärjestelmien perustietopaketin (the Common Metadata Framework). Paketin ehkä mielenkiintoisinta antia on tilastotuotannon yleinen prosessimalli GSPBM (Generic Statistical Business Process Model), jonka avulla voidaan vertailla, tutkia ja kehittää sekä organisaation sisäisiä että organisaatioiden välisiä prosesseja. Kuten Valekin toi esille, GSPBM:llä on huomattavia yhtäläisyyksiä DDI 3:n pohjana olevan elämänkaarimallin kanssa.

Tilastotuotanto ei yleensä etene suoraviivaisesti suunnittelusta jakeluun, joten GSPBM ole lineaarinen malli, vaan prosessimatriisi. Sen avulla voi kuvata monimutkaisiakin tilastotuotantoprosesseja. Teoreettinen GSBPM-malli ei kuitenkaan riitä; lisäksi tarvitaan muun muassa työkaluja ja metadataformaatteja. Ongelmana on, että ei ole olemassa sellaista metadatastandardia, joka kattaisi GSBPM:n kaikki prosessit. Vale heittikin pohdittavaksi ajatuksen DDI:n ja tilastotiedon siirto- ja kuvailuformaatin SDMX:n toisiaan tukevasta käytöstä prosessin eri vaiheissa.

Useamman jo olemassa olevan ja toisiaan tukevan ”täsmästandardin” käyttö kuulostaa kieltämättä järkevämmältä kuin yhden ison kaikenkattavan ja siten väistämättä hyvin monimutkaisen standardin rakentaminen.

Virallisen ohjelman jälkeen vapaamuotoinen keskustelu jatkui iltamyöhään. Tilaisuus oli käytettävä hyväksi, sillä näin suurta joukkoa tutkimusaineistojen metadatasta ja tiedonhallinnasta innostuneita eturivin asiantuntijoita tapaa vain harvoin! Seuraavassa EDDI-seminaarissa ensi syksynä Göteborgissa voimme toivottavasti esitellä tutkimusinfrastruktuuriimme kehittämiseen saamamme lisärahoituksen avulla toteutettavia parannuksia palveluihimme ja käytäntöihimme.

Mari Kleemola
Tietopalvelupäällikkö
DDI Alliance Expert Committee Vice Chair
etunimi.sukunimi [at] uta.fi

Dataintensiivinen tiede tarvitsee oikeanlaista metadataa

Ilman kuvailevaa tietoa, metadataa, sähköinen tutkimusaineisto, data, on merkityksetöntä bittimössöä. Jotta tutkimusaineistoa voidaan hyödyntää nyt ja tulevaisuudessa, tarvitaan tietoa esimerkiksi sen sisällöstä ja rakenteesta sekä mahdollisista muokkauksista ja käyttöoikeuksista. Näitä tarpeita varten eri maiden yhteiskuntatieteelliset data-arkistot kehittivät 1990-luvulla uuden monipuolisen kuvailuformaatin, DDI:n. Aluksi DDI keskittyi tutkimusaineistojen arkistointivaiheessa tarvittavaan metadataan, mutta tuorein versio, DDI 3, kattaa datan koko elinkaaren.

DDI:n käyttäjäkunta laajenee jatkuvasti. Viime vuoden joulukuussa järjestetty 2nd Annual European DDI Users Group Meeting, tuttavallisemmin EDDI, houkutteli talviseen Utrechtiin seitsemänkymmentä tutkimusaineistojen metadatan asiantuntijaa. Osallistujia oli data-arkistojen lisäksi muun muassa akateemisista tutkimusorganisaatioista, kaupallisista ohjelmistoyrityksistä, Eurostatista ja Australian tilastotoimesta. Yhteistä kaikille osallistujille oli halu hyödyntää olemassa olevien ja tulevien tietoaineistojen koko potentiaali ja tahto palvella dataa tuottavia ja käyttäviä sidosryhmiä parhaalla mahdollisella tavalla.

Tietoarkistosta meitä oli Utrechtissä kaksi: minä ja atk-erikoistutkijamme Matti Heinonen. Kaksipäiväisen seminaarin aikana ehdimme saada aimo annoksen sekä käytännön tietoa että uusia ideoita. Matti keskittyi teknisiin sessioihin, minulle jäivät ”yleisemmät teemat”. Yli kahdenkymmenen toinen toistaan paremman esityksen joukosta kiinnostavimmiksi nousivat mielestäni Peter Wittenburgin ja Steven Valen esitykset.

Max Planck -instituutin kieliarkistoa johtava Peter Wittenburg kertoi tieteellisen datan eurooppalaista e-infrastruktuuria visioineen korkean tason asiantuntijaryhmän työn tuloksista. Tämä HLEG-ryhmä luovutti lokakuussa Euroopan komissiolle loppuraporttinsa ”Riding the wave. How Europe can gain from the rising tide of scientific data”. Tiede on tällä hetkellä dataintensiivistä: tutkijat elävät suurten datamassojen keskellä ja tutkijoiden käytössä olevan datan määrä kasvaa koko ajan kaikilla tieteenaloilla. Tämä tieteen neljänneksi paradigmaksikin kutsuttu vaihe tarjoaa luonnollisesti runsaasti mahdollisuuksia, mutta esityksessään Wittenburg keskittyi haasteisiin. Datanhallinnan vaatimukset kasvavat kohisten. Esimerkiksi datan säilytysaika ja -strategiat vaihtelevat datan tyypin mukaan. Yleistäen voidaan sanoa, että luonnontieteissä ongelmana on datan määrä, yhteiskuntatieteissä ja humanistisissa tieteissä datan monimutkaisuus. Oikeanlainen metadata on keskeinen datanhallinnan väline.

Wittenburgin puheessa toistui myös sana luottamus: eri toimijoiden datan elinkaaren eri vaiheissa olisi voitava luottaa toisiinsa ja tietysti itse dataan. Tärkeää olisi myös saavuttaa laaja konsensus siitä, että arvokkaan tieteellisen datan laadukas dokumentointi, huolellinen säilyttäminen ja mahdollisimman avoin saatavuus jatkokäyttöön hyödyttävät sekä tiedeyhteisöä että yhteiskuntaa. Haasteet ovat samanlaisia tai ainakin hyvin samankaltaisia (Euroopan) eri maissa ja eri tieteenaloilla, ja ne ovat tuttuja tietoarkistotyön arjestakin.

YK:n Euroopan talouskomission UNECE:n Steven Vale tarkasteli esityksessään datanhallinnan ongelmia tilastojen tuottajan näkökulmasta. Tilastovirastojen yhteistyön helpottamiseksi ja tilastojen laadun parantamiseksi UNECE, Eurostat ja OECD:n METIS-työryhmä ovat tuottaneet tilastollisten metadatajärjestelmien perustietopaketin (the Common Metadata Framework). Paketin ehkä mielenkiintoisinta antia on tilastotuotannon yleinen prosessimalli GSPBM (Generic Statistical Business Process Model), jonka avulla voidaan vertailla, tutkia ja kehittää sekä organisaation sisäisiä että organisaatioiden välisiä prosesseja. Kuten Valekin toi esille, GSPBM:llä on huomattavia yhtäläisyyksiä DDI 3:n pohjana olevan elämänkaarimallin kanssa.

Tilastotuotanto ei yleensä etene suoraviivaisesti suunnittelusta jakeluun, joten GSPBM ole lineaarinen malli, vaan prosessimatriisi. Sen avulla voi kuvata monimutkaisiakin tilastotuotantoprosesseja. Teoreettinen GSBPM-malli ei kuitenkaan riitä; lisäksi tarvitaan muun muassa työkaluja ja metadataformaatteja. Ongelmana on, että ei ole olemassa sellaista metadatastandardia, joka kattaisi GSBPM:n kaikki prosessit. Vale heittikin pohdittavaksi ajatuksen DDI:n ja tilastotiedon siirto- ja kuvailuformaatin SDMX:n toisiaan tukevasta käytöstä prosessin eri vaiheissa.

Useamman jo olemassa olevan ja toisiaan tukevan ”täsmästandardin” käyttö kuulostaa kieltämättä järkevämmältä kuin yhden ison kaikenkattavan ja siten väistämättä hyvin monimutkaisen standardin rakentaminen.

Virallisen ohjelman jälkeen vapaamuotoinen keskustelu jatkui iltamyöhään. Tilaisuus oli käytettävä hyväksi, sillä näin suurta joukkoa tutkimusaineistojen metadatasta ja tiedonhallinnasta innostuneita eturivin asiantuntijoita tapaa vain harvoin! Seuraavassa EDDI-seminaarissa ensi syksynä Göteborgissa voimme toivottavasti esitellä tutkimusinfrastruktuuriimme kehittämiseen saamamme lisärahoituksen avulla toteutettavia parannuksia palveluihimme ja käytäntöihimme.

Mari Kleemola
Tietopalvelupäällikkö
DDI Alliance Expert Committee Vice Chair
etunimi.sukunimi [at] uta.fi