Tag Archives: data-arkistot

Tietoarkisto CESSDAssa: vahvuuksiamme ovat toimivat palvelut ja käytännöt sekä luotettavuus

CESSDA ERIC -infrastruktuuria rakennetaan kiihtyvällä vauhdilla ja viimeiset kolme vuotta ovat olleet Tietoarkistolle erittäin tiiviin eurooppalaisen yhteistyön aikaa. CESSDAn keskustoimisto on pieni ja toiminta perustuu kansallisten palveluntuottajien hajautettuihin palveluihin.

Yksi CESSDAn suurimmista hankkeista, kaksivuotinen CESSDA Strengthening and Widening, lyhyemmin SAW, päättyi vuoden 2017 lopussa. Hanke sai rahoituksensa Euroopan unionin Horisontti 2020 -ohjelmasta. Nimensä mukaisesti hankkeessa sekä vahvistettiin CESSDAn toimintoja että pyrittiin saamaan uusia valtioita jäseneksi.

Hanke oli meille hyödyllinen, sillä pystyimme siinä vertailemaan Tietoarkistoa muihin eurooppalaisiin data-arkistoihin ja saamaan sitä kautta arvokasta palautetta. Lisäksi hankkeessa onnistuttiin kehittämään välineitä tietoarkistotyöhön.

Tietoarkisto edelläkävijä monella saralla

Hankkeen alkupuolella vuonna 2016 kartoitettiin eurooppalaisten data-arkistojen toimintojen vahvuuksia ja kehityskohteita. Tietoarkiston tulokset olivat suurelta osin data-arkistojen keskiarvoa paremmat. Sopimus- ja käyttöoikeuskäytäntömme, tietosuoja-asiat ja aineistojen kuvailu nousivat esille erityisen hyvinä osa-alueina. Parantamisen varaa oli teknisen infrastruktuurin puolella.


Tietoarkiston tulokset olivat suurelta osin data-arkistojen keskiarvoa paremmat. Lähde: Deliverable 3.2 Country report on development potentials
.

Akatemian FIRI 2016 -rahoitusta saanut Aktiivinen Tietoarkisto CESSDAssa -hankkeemme painottuukin juuri teknisen infrastruktuurimme parantamiseen vuosina 2017-2021.

Luotettava ja sertifioitu

Yksi CESSDAn vaatimuksista on, että palveluntuottajien on hankittava CoreTrustSeal-sertifikaatti (aikaisemmin CTS tunnettiin nimellä Data Seal of Approval). SAW-hankkeessa Tietoarkisto oli mukana kouluttamassa ja tukemassa palveluntuottajia sertifioinnissa. Hankkeen aikana Tietoarkisto päivitti oman sertifiointinsa ja saikin uusien, tiukennettujen vaatimusten mukaisen CTS-sertifikaatin ensimmäisten joukossa koko maailmassa.

Uusia työkaluja data-arkistoille

Tietoarkiston yksi painopiste SAW-hankkeessa oli tuottaa työkaluja, jotka auttavat uusia data-arkistoja aloittamaan ja olemassa olevien data-arkistojen kehittämään toimintojaan. Teimme hankkeessa Kuha2-harvointirajapinnan, joka on helposti käyttöön otettava, kevyt mutta kattava palvelinohjelmisto kuvailutietojen jakeluun. Kuha2:n lähdekoodi on avointa.

Lisäksi olimme mukana tuottamassa kustannus-hyöty-työkalupakettia data-arkistoille. Tietoarkisto laati hyöty-yhteenvedon ja kokeili kustannus-hyöty-työkaluja. Kustannus-hyötyanalyysissä emme saavuttaneet brittien data-arkiston lukemia, mikä johtunee toisaalta skaalaeduista ja toisaalta toimintamallista. Ailan käyttöönotto on kuitenkin parantanut tehokkuuttamme selvästi.

Tavoitteena hyvien käytäntöjen jakaminen

Tietoarkisto haluaa vaikuttaa aktiivisesti siihen, minkälaisia palveluita CESSDA tarjoaa tutkijoille. Toisaalta haluamme varmistaa, että omat palvelumme ovat kansainvälisten vaatimusten mukaisella tasolla. Olemme eurooppalaisittain keskikokoinen data-arkisto, joten meidän kannattaa keskittyä vahvuusalueisiimme, kun pyrimme viemään käytäntöjämme malliksi CESSDAlle ja muille palveluntuottajille. Vastaavasti on osa-alueita, joissa meidän on hyödyllistä ottaa mallia muilta. CESSDA SAW -hankkeessa otimme tärkeitä askeleita tavoitteidemme saavuttamiseksi. Jatkamme tätä työtä muun muassa olemalla mukana CESSDAn sisäisissä kehityshankkeissa.

Mari Kleemola
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi

Näkemiin

Tietoarkiston työntekijät lienevät rasitukseenkin saakka kuulleet kertaustani yksikkömme synnystä. 1990-luvun puolivälissä Suomen Akatemian tietoarkistotyöryhmä esitti yksikön perustamista Suomeen; joko Helsingin, Tampereen tai Turun yliopistojen yhteyteen. Tampere ja Turku osallistuivat kilpailutukseen, mutta Helsingistä ei tarjousta tullut.

Opetusministeri Olli-Pekka Heinonen päätti arkiston sijoittamisesta Tampereelle syksyllä 1997. Kun rahaa yksikön toiminnan välittömään käynnistämiseen ei ollut, suunnittelua jatkettiin Tampereen yliopistossa OPM:n projektirahoituksen turvin vuoden 1998 loppuun. Toiminta käynnistyi vuoden 1999 alussa Tampereen yliopiston erillisenä laitoksena ja valtakunnallisena tehtävänä.

Sijoituspäätöksen jälkeen minua pyydettiin hankkeen jatkosuunnittelun asiantuntijasihteeriksi, ilmeisesti lähinnä kahdesta syystä. Työskentelin oikeassa paikassa ja tutkimusalalla, joka oli kiinteästi yhteydessä data-arkistoihin.

Tampereen yliopistossa yksikön perustamisen jatkosuunnittelu osoitettiin silloiselle yhteiskuntatieteiden tutkimuslaitokselle, jossa olin työskennellyt jo monta vuotta Suomen Akatemian rahoittamana projekti- ja virkatutkijana. Olin tohtoroitunut vuonna 1996 ja survey-aineistojen keruu- ja käyttökokemusta oli kertynyt rutkasti Pertti Pesosen ja Risto Sänkiahon johtamissa vaalitutkimuksissa. Hain ja tulin valituksi yksikön johtajaksi.

En muista epäröineeni hetkeäkään lähtemistä tietoarkistotielle, enkä ole tuota päätöstä katunut. Nyt, lähes 20 vuotta myöhemmin, jätän Tietoarkiston johtajan pestin hyvillä mielin palatakseni tutkimusuralle, aluksi projektirahoituksella. Lähden Tietoarkistosta mutta Tietoarkisto ei lähde minusta. Ikääntynyt kahvimukini on nostettu yksikön kahvihuoneen kattoon. Elämä ja myös kahvin juonti jatkuvat.

Koen olevani etuoikeutettu päästyäni mukaan rakentamaan Suomeen kokonaan uuden akateemisen palveluyksikön. Mikä Tietoarkisto siitä muodostuikaan yhdessä loistavien työtovereiden, kaikkien Tietoarkistossa työskentelevien ja työskennelleiden, kanssa! Olemme luoneet akateemista tutkimusta, opetusta ja opiskelua monipuolisesti hyödyttäviä palveluja ja olleet kiistatta uranuurtajia tutkimusdatan arkistoinnissa ja jatkokäytön mahdollistamisessa. Työ jatkuu ja menestyy. Sen takaavat asiantunteva henkilöstö sekä tiivis kansallinen ja kansainvälinen yhteistyö.

Kiitän henkilökunnan lisäksi kaikkia Tietoarkiston kehittämiseen tähän saakka osallistuneita henkilöitä ja tahoja. Tietoarkisto tarvitsee tukeanne edelleen.

Omat tuntemukseni ovat toki haikeita mutta samalla hyvin luottavaisia. Väkemme tietää mitä tehdä. Jäähyväisblogini päätän kirjoittamani läksiäislaulun kakkossäkeistöön ja kertsiin. Laulun nimi on Näkemiin.

Älä luule että risteyksen rakensin
jotta mennyttä saisin mä surra
Joskus tuulesta kuulee vaan paremmin
minnekä mennä ja tulla

Älä usko etten sinua kaipaamaan jää
etten kaunista muistelisi
ettei päivämme kävisi mielessäkään
eikä tiet enää kohtaisi

Tää ei oo hyvästi vaan tää on näkemiin
en siis kättäni nosta merkiksi
vaikka palaakaan en — niin jäähyväisiin
tuskin kunnolla aihetta olisi

Sami Borg
Tietoarkiston ex-johtaja 1.1.2017 alkaen
etunimi.sukunimi [at] uta.fi

Näkemiin

Tietoarkiston työntekijät lienevät rasitukseenkin saakka kuulleet kertaustani yksikkömme synnystä. 1990-luvun puolivälissä Suomen Akatemian tietoarkistotyöryhmä esitti yksikön perustamista Suomeen; joko Helsingin, Tampereen tai Turun yliopistojen yhteyteen. Tampere ja Turku osallistuivat kilpailutukseen, mutta Helsingistä ei tarjousta tullut.

Opetusministeri Olli-Pekka Heinonen päätti arkiston sijoittamisesta Tampereelle syksyllä 1997. Kun rahaa yksikön toiminnan välittömään käynnistämiseen ei ollut, suunnittelua jatkettiin Tampereen yliopistossa OPM:n projektirahoituksen turvin vuoden 1998 loppuun. Toiminta käynnistyi vuoden 1999 alussa Tampereen yliopiston erillisenä laitoksena ja valtakunnallisena tehtävänä.

Sijoituspäätöksen jälkeen minua pyydettiin hankkeen jatkosuunnittelun asiantuntijasihteeriksi, ilmeisesti lähinnä kahdesta syystä. Työskentelin oikeassa paikassa ja tutkimusalalla, joka oli kiinteästi yhteydessä data-arkistoihin.

Tampereen yliopistossa yksikön perustamisen jatkosuunnittelu osoitettiin silloiselle yhteiskuntatieteiden tutkimuslaitokselle, jossa olin työskennellyt jo monta vuotta Suomen Akatemian rahoittamana projekti- ja virkatutkijana. Olin tohtoroitunut vuonna 1996 ja survey-aineistojen keruu- ja käyttökokemusta oli kertynyt rutkasti Pertti Pesosen ja Risto Sänkiahon johtamissa vaalitutkimuksissa. Hain ja tulin valituksi yksikön johtajaksi.

En muista epäröineeni hetkeäkään lähtemistä tietoarkistotielle, enkä ole tuota päätöstä katunut. Nyt, lähes 20 vuotta myöhemmin, jätän Tietoarkiston johtajan pestin hyvillä mielin palatakseni tutkimusuralle, aluksi projektirahoituksella. Lähden Tietoarkistosta mutta Tietoarkisto ei lähde minusta. Ikääntynyt kahvimukini on nostettu yksikön kahvihuoneen kattoon. Elämä ja myös kahvin juonti jatkuvat.

Koen olevani etuoikeutettu päästyäni mukaan rakentamaan Suomeen kokonaan uuden akateemisen palveluyksikön. Mikä Tietoarkisto siitä muodostuikaan yhdessä loistavien työtovereiden, kaikkien Tietoarkistossa työskentelevien ja työskennelleiden, kanssa! Olemme luoneet akateemista tutkimusta, opetusta ja opiskelua monipuolisesti hyödyttäviä palveluja ja olleet kiistatta uranuurtajia tutkimusdatan arkistoinnissa ja jatkokäytön mahdollistamisessa. Työ jatkuu ja menestyy. Sen takaavat asiantunteva henkilöstö sekä tiivis kansallinen ja kansainvälinen yhteistyö.

Kiitän henkilökunnan lisäksi kaikkia Tietoarkiston kehittämiseen tähän saakka osallistuneita henkilöitä ja tahoja. Tietoarkisto tarvitsee tukeanne edelleen.

Omat tuntemukseni ovat toki haikeita mutta samalla hyvin luottavaisia. Väkemme tietää mitä tehdä. Jäähyväisblogini päätän kirjoittamani läksiäislaulun kakkossäkeistöön ja kertsiin. Laulun nimi on Näkemiin.

Älä luule että risteyksen rakensin
jotta mennyttä saisin mä surra
Joskus tuulesta kuulee vaan paremmin
minnekä mennä ja tulla

Älä usko etten sinua kaipaamaan jää
etten kaunista muistelisi
ettei päivämme kävisi mielessäkään
eikä tiet enää kohtaisi

Tää ei oo hyvästi vaan tää on näkemiin
en siis kättäni nosta merkiksi
vaikka palaakaan en — niin jäähyväisiin
tuskin kunnolla aihetta olisi

Sami Borg
Tietoarkiston ex-johtaja 1.1.2017 alkaen
etunimi.sukunimi [at] uta.fi

Itä-Aasian tietoarkistot kutsuvat yhteistyöhön

Tietoarkisto sai viime syksynä kutsun osallistua Japanin tietoarkiston SSJDA:n järjestämään seminaariin 12.–13. helmikuuta Tokiossa. Seminaari oli suunnattu Itä-Aasian arkistoille, mutta meidät kutsuttiin kertomaan Euroopan (ja Suomen) tämän hetkisestä tilanteesta nyt, kun Euroopan tietoarkistojen yhteinen EU-tutkimusinfrastruktuuri – CESSDA ERIC – on aloittamassa toimintaansa. Matkaan lähtivät arkiston johtaja Sami Borg ja minä.

Suomen tietoarkiston lisäksi seminaariin oli kutsuttu Korean tietoarkisto KOSSDA ja Taiwanin tietoarkisto SRDA. Lisäksi paikalla oli edustajia Soulin yliopistosta. Ohjelma oli tiivis. Ennen seminaarin alkua teimme tutustumiskäynnin SSJDA:n tiloihin. Varsinainen seminaari jakautui suljettuun, kutsutuille arkistoille tarkoitettuun osaan ja avoimeen osaan, johon kaikki kiinnostuneet Tokion yliopistolla olivat tervetulleita.

Oli mielenkiintoista havaita kuinka samanlaista arkistojen toiminta oli vaikka kaikkien organisaatiotausta oli erilainen. SSJDA on osa Tokion yliopiston yhteiskuntatieteellistä tutkimuskeskusta. Korean KOSSDAn taustalla on yksityinen säätiö. Taiwanin SRDA on osa Taiwanin kansallisen tutkimusakatemian Academia Sinican kulttuuri- ja yhteiskuntatieteiden alan tutkimuskeskusta. Suomen tietoarkisto puolestaan on opetus- ja kulttuuriministeriön Tampereen yliopistolle osoittama palvelutehtävä ja yliopiston erillisyksikkö.

Erilaisista taustoista huolimatta meitä kaikkia kuitenkin yhdistää se, että luovutamme aineistoja jatkokäyttöön oman kotiorganisaation ulkopuolelle. Aineistojen valmistelu arkistoitavaksi ja jatkokäyttöön tapahtui myös pääosin samojen periaatteiden mukaan, mutta aineistojen hankintatavat eroavat jonkin verran. Japanissa ja Taiwanissa osa aineistoista tulee suoraan isäntäorganisaation tutkijoilta ja osa hankitaan samaan tapaan kuin pääosa aineistoista meillä Suomessa: ottamalla yhteyttä suoraan tutkijoihin ja tutkimusorganisaatioihin. KOSSDAssa hankinta perustuu pitkälti eri organisaatioiden ja järjestöjen kanssa tehtyihin jäsenyyssopimuksiin. Lisäksi sen kumppanit toimittavat KOSSDAlle aineistoja selvästi enemmän kuin KOSSDA pystyy käsittelemään. Suomalaisen tietoarkistolaisen silmissä tämä vaikutti lähinnä positiiviselta ongelmalta.

Kaikki seminaariin osallistuneet arkistot toimittavat aineistoja oman kotimaansa ulkopuolelle. Myös suomalaiset tutkijat voivat saada esimerkiksi Japanin tietoarkiston aineistoja käyttöönsä. Kieli tosin saattaa muodostua ongelmaksi – kaikkea ei ole saatavilla englanniksi.

En itse ollut aiemmin käynyt Japanissa, joten seminaarin lisäksi kaikki muukin oli hyvin kiinnostavaa. Tokio on valtava kaupunki, ja on uskomatonta kuinka hyvin kaikki siellä toimii. Japanilaiset ovat kohteliaita ja avuliaita.

Tietoarkistojen kanssakäyminen on hyvin vilkasta. Eurooppalaisten arkistojen yhteistyön painopiste on kuitenkin Euroopassa ja eurooppalaisuus varmasti painottuu edelleen CESSDA ERICin myötä. Oli hyvin mielenkiintoista tavata myös aasialaisten tietoarkistojen edustajia ja kuulla näiden toiminnasta.

Matti Heinonen
ATK-erikoistutkija
etunimi.sukunimi [at] uta.fi

Itä-Aasian tietoarkistot kutsuvat yhteistyöhön

Tietoarkisto sai viime syksynä kutsun osallistua Japanin tietoarkiston SSJDA:n järjestämään seminaariin 12.–13. helmikuuta Tokiossa. Seminaari oli suunnattu Itä-Aasian arkistoille, mutta meidät kutsuttiin kertomaan Euroopan (ja Suomen) tämän hetkisestä tilanteesta nyt, kun Euroopan tietoarkistojen yhteinen EU-tutkimusinfrastruktuuri – CESSDA ERIC – on aloittamassa toimintaansa. Matkaan lähtivät arkiston johtaja Sami Borg ja minä.

Suomen tietoarkiston lisäksi seminaariin oli kutsuttu Korean tietoarkisto KOSSDA ja Taiwanin tietoarkisto SRDA. Lisäksi paikalla oli edustajia Soulin yliopistosta. Ohjelma oli tiivis. Ennen seminaarin alkua teimme tutustumiskäynnin SSJDA:n tiloihin. Varsinainen seminaari jakautui suljettuun, kutsutuille arkistoille tarkoitettuun osaan ja avoimeen osaan, johon kaikki kiinnostuneet Tokion yliopistolla olivat tervetulleita.

Oli mielenkiintoista havaita kuinka samanlaista arkistojen toiminta oli vaikka kaikkien organisaatiotausta oli erilainen. SSJDA on osa Tokion yliopiston yhteiskuntatieteellistä tutkimuskeskusta. Korean KOSSDAn taustalla on yksityinen säätiö. Taiwanin SRDA on osa Taiwanin kansallisen tutkimusakatemian Academia Sinican kulttuuri- ja yhteiskuntatieteiden alan tutkimuskeskusta. Suomen tietoarkisto puolestaan on opetus- ja kulttuuriministeriön Tampereen yliopistolle osoittama palvelutehtävä ja yliopiston erillisyksikkö.

Erilaisista taustoista huolimatta meitä kaikkia kuitenkin yhdistää se, että luovutamme aineistoja jatkokäyttöön oman kotiorganisaation ulkopuolelle. Aineistojen valmistelu arkistoitavaksi ja jatkokäyttöön tapahtui myös pääosin samojen periaatteiden mukaan, mutta aineistojen hankintatavat eroavat jonkin verran. Japanissa ja Taiwanissa osa aineistoista tulee suoraan isäntäorganisaation tutkijoilta ja osa hankitaan samaan tapaan kuin pääosa aineistoista meillä Suomessa: ottamalla yhteyttä suoraan tutkijoihin ja tutkimusorganisaatioihin. KOSSDAssa hankinta perustuu pitkälti eri organisaatioiden ja järjestöjen kanssa tehtyihin jäsenyyssopimuksiin. Lisäksi sen kumppanit toimittavat KOSSDAlle aineistoja selvästi enemmän kuin KOSSDA pystyy käsittelemään. Suomalaisen tietoarkistolaisen silmissä tämä vaikutti lähinnä positiiviselta ongelmalta.

Kaikki seminaariin osallistuneet arkistot toimittavat aineistoja oman kotimaansa ulkopuolelle. Myös suomalaiset tutkijat voivat saada esimerkiksi Japanin tietoarkiston aineistoja käyttöönsä. Kieli tosin saattaa muodostua ongelmaksi – kaikkea ei ole saatavilla englanniksi.

En itse ollut aiemmin käynyt Japanissa, joten seminaarin lisäksi kaikki muukin oli hyvin kiinnostavaa. Tokio on valtava kaupunki, ja on uskomatonta kuinka hyvin kaikki siellä toimii. Japanilaiset ovat kohteliaita ja avuliaita.

Tietoarkistojen kanssakäyminen on hyvin vilkasta. Eurooppalaisten arkistojen yhteistyön painopiste on kuitenkin Euroopassa ja eurooppalaisuus varmasti painottuu edelleen CESSDA ERICin myötä. Oli hyvin mielenkiintoista tavata myös aasialaisten tietoarkistojen edustajia ja kuulla näiden toiminnasta.

Matti Heinonen
ATK-erikoistutkija
etunimi.sukunimi [at] uta.fi

Juhlatunnelmia

Keskiviikko syyskuun 24. päivä oli tietoarkistossa ikimuistoinen: meille oli myönnetty Data Seal of Approval -sertifikaatti, tuttavallisemmin DSA. Se voidaan myöntää organisaatiolle, joka säilyttää sähköisiä aineistoja luotettavasti ja joka mahdollistaa aineistojen jatkokäytön. Tietoarkisto sai DSA:n ensimmäisenä suomalaisena organisaationa. Tällaista ei tapahdu ihan joka päivä eikä edes joka vuosi – oli siis kakkukahvien paikka!

Sertifikaatin saadaksemme meidän oli osoitettava, että toimimme mahdollisimman läpinäkyvästi, että noudatamme soveltuvia standardeja ja parhaita käytäntöjä ja että ymmärrämme ja hallitsemme toimintaamme liittyvät uhat ja riskit. Arviointikohtia oli yhteensä kuusitoista, ja kaikkien niiden osalta oli selitettävä toimintaperiaatteemme ja -käytäntömme. Pelkästään selittämällä DSA:ta ei kuitenkaan saa: väitteiden tueksi on esitettävä riittävä dokumentaatio. Menestyksekkään DSA-hakemuksemme kulmakivi oli arkistonmuodostussuunnitelmamme eli AMS. Sitä täydensi sisäinen käsikirjamme. Molemmat ovat tietoarkiston asiantuntijoiden pitkäjänteisen, jatkuvan, huolellisen ja innovatiivisen työn tuloksia.

DSA-sertifiointi oli samalla sekä omien toimintojemme kehittämistä ja vahvistamista että osa eurooppalaisen CESSDA ERIC -tutkimusinfrastruktuurin rakentamisprosessia. CESSDA-ERIC voi toimia tehokkaasti ja tarkoituksenmukaisesti vain, jos kaikki osapuolet toimivat yhteisten sääntöjen mukaan ja jos kaikki voivat luottaa toisiinsa.

Luottamusta rakentaakseen CESSDA käynnisti vuonna 2013 hankkeen, jossa jokainen palveluntuottaja teki itsearvioinnin DSA:ta käyttäen. Olin mukana hankkeen asiantuntijaryhmässä, joka kävi läpi kaikki itsearvioinnit ja valmisteli kehittämisraportin. Sen lisäksi, että työ oli äärimmäisen mielenkiintoista, se antoi vahvan luottamuksen siihen, että tietoarkiston käytännöt ja dokumentaatio ovat DSA-kunnossa.

Innostuneen juhlakahvittelun lomassa keskustelumme kääntyi tulevaisuuteen. DSA on vasta ensimmäinen taso kolmiportaisessa eurooppalaisessa sähköisen säilyttämisen arvioinnin viitekehyksessä. Toinen taso on ISO 16363 -standardiin perustuva itsearviointi ja kolmas taso ISO-standardin mukainen ulkoinen auditointi. Kakkunälkämme on jo kasvanut.

Lisätietoja:
» Tietoarkiston DSA-arviointi
» Työtä on tehty Suomen Akatemian rahoittamissa hankkeissa: VERIC ja TA15
» Tietoarkiston DSA-tiedote
» Tietoarkiston arkistonmuodostussuunnitelma

Mari Kleemola
tietopalvelupäällikkö
etunimi.sukunimi [at] uta.fi

Juhlatunnelmia

Keskiviikko syyskuun 24. päivä oli tietoarkistossa ikimuistoinen: meille oli myönnetty Data Seal of Approval -sertifikaatti, tuttavallisemmin DSA. Se voidaan myöntää organisaatiolle, joka säilyttää sähköisiä aineistoja luotettavasti ja joka mahdollistaa aineistojen jatkokäytön. Tietoarkisto sai DSA:n ensimmäisenä suomalaisena organisaationa. Tällaista ei tapahdu ihan joka päivä eikä edes joka vuosi – oli siis kakkukahvien paikka!

Sertifikaatin saadaksemme meidän oli osoitettava, että toimimme mahdollisimman läpinäkyvästi, että noudatamme soveltuvia standardeja ja parhaita käytäntöjä ja että ymmärrämme ja hallitsemme toimintaamme liittyvät uhat ja riskit. Arviointikohtia oli yhteensä kuusitoista, ja kaikkien niiden osalta oli selitettävä toimintaperiaatteemme ja -käytäntömme. Pelkästään selittämällä DSA:ta ei kuitenkaan saa: väitteiden tueksi on esitettävä riittävä dokumentaatio. Menestyksekkään DSA-hakemuksemme kulmakivi oli arkistonmuodostussuunnitelmamme eli AMS. Sitä täydensi sisäinen käsikirjamme. Molemmat ovat tietoarkiston asiantuntijoiden pitkäjänteisen, jatkuvan, huolellisen ja innovatiivisen työn tuloksia.

DSA-sertifiointi oli samalla sekä omien toimintojemme kehittämistä ja vahvistamista että osa eurooppalaisen CESSDA ERIC -tutkimusinfrastruktuurin rakentamisprosessia. CESSDA-ERIC voi toimia tehokkaasti ja tarkoituksenmukaisesti vain, jos kaikki osapuolet toimivat yhteisten sääntöjen mukaan ja jos kaikki voivat luottaa toisiinsa.

Luottamusta rakentaakseen CESSDA käynnisti vuonna 2013 hankkeen, jossa jokainen palveluntuottaja teki itsearvioinnin DSA:ta käyttäen. Olin mukana hankkeen asiantuntijaryhmässä, joka kävi läpi kaikki itsearvioinnit ja valmisteli kehittämisraportin. Sen lisäksi, että työ oli äärimmäisen mielenkiintoista, se antoi vahvan luottamuksen siihen, että tietoarkiston käytännöt ja dokumentaatio ovat DSA-kunnossa.

Innostuneen juhlakahvittelun lomassa keskustelumme kääntyi tulevaisuuteen. DSA on vasta ensimmäinen taso kolmiportaisessa eurooppalaisessa sähköisen säilyttämisen arvioinnin viitekehyksessä. Toinen taso on ISO 16363 -standardiin perustuva itsearviointi ja kolmas taso ISO-standardin mukainen ulkoinen auditointi. Kakkunälkämme on jo kasvanut.

Lisätietoja:
» Tietoarkiston DSA-arviointi
» Työtä on tehty Suomen Akatemian rahoittamissa hankkeissa: VERIC ja TA15
» Tietoarkiston DSA-tiedote
» Tietoarkiston arkistonmuodostussuunnitelma

Mari Kleemola
tietopalvelupäällikkö
etunimi.sukunimi [at] uta.fi

Teekkarin näkemys aineistojen luokittelusta

Teksti käsittelee kvalitatiivisen ja kvantitatiivisen datan rajanvetoa teknis-luonnontieteelliseltä alalta tietoarkistoon siirtyneen henkilön näkökulmasta. Kirjoittaja Jani Hautamäki on toiminut aiemmin paikannus- ja navigointitekniikoiden tutkimusryhmässä.

Kvalitatiivista ja kvantitatiivista dataa

Yhteiskuntatieteissä aineistoja luokitellaan kvalitatiivisiksi ja kvantitatiivisiksi. Määrälliset aineistot, kuten surveyt, luokitellaan kvantiksi. Vastaavasti laadulliset aineistot, kuten haastattelut, luokitellaan kvaliksi. Luokittelu vaikuttaa selkeältä ja dikotomiselta, mutta onnistuuko sen soveltaminen aina yhtä helposti?

Fysikaaliset mittaukset ovat yksi aineistotyyppi, johon yhteiskuntatieteissä ei törmää, mutta joka on teknisillä aloilla arkipäiväistä. Tällaista dataa syntyy, kun mitataan fysikaalista suuretta, esimerkiksi kulmanopeutta tai lämpötilaa. Vaikka fysikaalinen mittausdata ei ole yhteiskuntatieteille kovin tuttua, onnistuu sen luokittelu vaivatta. Fysikaaliset mittaukset ovat epäilyksettä kvantitatiivista dataa.

Joidenkin aineistojen luokittelu suoralta kädeltä yhteen kategoriaan ei ole yhtä helppoa. Esimerkiksi runsaasti avokysymyksiä sisältävän surveydatan luokittelisi mieluusti molemmiksi, sekä kvanti- että kvalidataksi. Toinen hankalasti luokiteltava aineistotyyppi on kartat. Mikä tekee kartoista niin hankalia luokittelun kannalta?

Varhaiset kartat tehtiin käsityönä. Ne esittivät pääasiassa kartantekijän subjektiivista kokemusta, näkemystä ja uskomusta ympäröivästä maailmasta. Subjektiivisuutensa takia varhaiset kartat voidaan helposti luokitella kvalitatiiviseksi dataksi. Nykyaikaisten karttojen luonti sen sijaan perustuu mittaamiselle (toinen merkitys survey-sanalle).

Suosittu digitaalisen paikkatiedon tallennusformaatti muodostaa karttakuvan käyttäen yksittäisiä pisteitä, murtoviivoja ja monikulmioita. Murtoviivat ja monikulmiot rakennetaan yhdistämällä yksittäisiä pisteitä suorilla viivoilla. Murtoviivoilla voidaan esittää vaikka jokia ja teitä, ja monikulmioilla voidaan esittää esimerkiksi järviä, peltoja ja taloja.

Nykyaikaisen karttadatan luokittelussa ongelmaksi muodostuu, että data näyttää koostuvan osaksi fysikaalisesta mittausdatasta (yksittäiset pisteet), ja osaksi ihmisten subjektiivisesti päättämistä piirteistä kuten mitkä pisteet yhteen liitettyinä muodostavat järven, tien tai talon. Onko kyseessä kvali vai kvanti? Vai olisiko tällainen karttadata jotenkin sama asia kuin runsaasti avokysymyksiä sisältävä surveydata eli sekä–että?

Mihin ”datalla” viitataan?

Kun puhumme, että data on kvalitatiivista tai kvantitatiivista, mitä oikein tarkoitamme datalla? Mihin tarkalleen ottaen viittaamme?

Yhteiskuntatieteellinen tietoarkisto on muistiorganisaatio, joka arkistoi pelkästään digitaalista aineistoa. Tämä tarkoittaa käytännössä sitä, että mitä ikinä aineisto onkaan alun perin sisältänyt, suodattuu tietoarkistoon alkuperäisestä aineistosta vain bitteinä tallennettavissa oleva osa. Esimerkiksi tyypilistä kvaliaineistoa edustava avoin haastattelu arkistoidaan tavallisesti äänitallenteena tai sen pohjalta tehtynä litteraationa.

Aineiston jatkokäyttäjän ja toisaalta myös tietoarkiston näkökulmasta haastattelu on lähes yhtä kuin siitä luotu digitaalinen tallenne eli teksti-ja äänitiedosto. Nämä kaksi, itse haastattelu ja siitä syntynyt digitaalinen muistijälki, eivät tietenkään ole samoja asioita. Niiden välinen ero olisikin hyvä palauttaa mieleen aina silloin tällöin, kun digitaalisia aineistoja käsittelee. Helppoa se ei välttämättä ole, ainakaan aloittelijalle.

Tekniseltä alalta tulleena on saanut henkilökohtaisesti kokea, kuinka sujuvasti ja huomaamattomasti mieli käsittelee näitä kahta lähtökohtaisesti enemmän tai vähemmän samoina, toisiinsa kietoutuneina ja sekoittuneina asioina. Niiden erottaminen toisistaan on vaatinut eron oivaltamista ja aktiivista poisoppimista entisistä ajattelutavoista.

Mihin datalla oikein viitataan? Yllä eroteltiin toisistaan itse tapahtuma ja siitä syntynyt digitaalinen muistijälki. Erottelun seurauksena tarjolla on nyt ainakin kaksi selvää vaihtoehtoa sille, mihin datalla viitataan. Oma suosikkini vaihtoehdoista on, että datalla viitataan digitaaliseen muistijälkeen eli tiedostoihin ja bitteihin. Se on vaihtoehdoista konkreettisempi. Luultavasti samasta syystä se myös tuntuu luonnollisemmalta vaihtoehdolta.

Kvalitatiivinen data = fysikaalinen mittausdata

Tehty valinta johtaa radikaalilta tuntuvaan väittämään, että tyypillinen kvalidata eli digitaaliset ääni- ja kuvatallenteet ovat oikeastaan luonnontieteiden fysikaalista mittausdataa. Kuinka tähän väittämään on päädytty?

Tarkastellaan dataa suurennuslasilla ja selvitetään, mistä datan yksittäiset tavut ja tavujen bitit tulevat. Digitaalisen tallenteen bitit syntyvät karkeasti ottaen kaksivaiheisen prosessin tuloksena. Ensimmäisessä vaiheessa on fysikaalista suuretta aistiva anturi, joka muuttaa mittauksen sähköjännitteeksi tai -virraksi. Toisessa vaiheessa on muunnin, joka likimääräistää jännitteen tai virran digitaaliseksi arvoksi, esimerkiksi kokonaisluvuksi välille 0–65535.

Kaikki digitaaliset tallenteet eivät suinkaan ole fysikaalista mittausdataa. Esimerkiksi sävellysohjelmalla luodut musiikkikappaleet tai suunnitteluohjelmalla piirretyt kuvat ovat digitaalisena syntyneitä. Siitä huolimatta suurin osa laadullisista aineistoista on digitaalisia ääni-, kuva- ja videotallenteita eli fysikaalista mittausdataa. Vaikka data olisikin synteettistä ja digitaalisena syntynyttä, sillä on usein mielekäs fysikaalinen tulkinta, jota käytetään datan esittämiseen esimerkiksi äänenä tai kuvana. Tämä hämärtää kvali- ja kvantidatan rajanvetoa, ja aiheuttaa ihmettelyä, kuinka data tulisi luokitella.

Laadullisten aineistojen digitaaliset tallenteet vaikuttavat todella olevan fysikaalista mittausdataa. Voisiko tekniikan ja luonnontieteiden käyttämillä aineistoilla olla muutakin samaa yhteiskuntatieteiden laadullisten aineistojen kanssa kuin pelkkä aineistotyyppi? Vastaus on kyllä. Valmistautukaa kohtaamaan tuttu data uudesta, vieraasta ja ehkä yllättävästäkin näkökulmasta!

Sekä teknis-luonnontieteellisillä että yhteiskuntatieteellisillä aloilla käytetään samankaltaista, ellei peräti täysin samaa dataa. Digitoitua ääntä, kuvaa ja videokuvaa erilaisista asioista, ilmiöistä, tilanteista, ihmisistä ja paikoista. Seuraavat esimerkit näyttävät, kuinka samaa kvalidataa voidaan käyttää teknis-luonnontieteellisillä aloilla tarkoituksiin, joita ei ole ehkä aikaisemmin tullut ajatelleeksi.

Esimerkiksi turvakameran videokuva soveltuu yhtä hyvin käytettäväksi niin teknis-luonnontieteelliseen kuin yhteiskuntatieteelliseen tutkimukseen.

Samoin on erään tosi-tv-ohjelman laita.

Luultavasti sisätiloissa otetut valokuvatkin kelpaavat dataksi tieteenalaan katsomatta.

Tekniikan alalla kuvien ja äänen tarkastelu fysikaalisena mittausdatana ja kvantitatiivinen käsittely on arkipäivää. Asiaa opiskellaan tavallisesti signaalinkäsittelyn kursseilla. Jos teknis-luonnontieteellisen alan ihmiseltä kysyttäisiin, luokittelisiko hän käyttämänsä ääni- ja kuvadatan laadullisiksi, veikkaisin vastauksen olevan kielteinen. Laadullisia aineistotyyppejä edustavat ääni, kuva ja videokuva koetaan teknisillä aloilla kvantitatiivisena datana. Uskon, että datan kvantitatiivinen käsittely vahvistaa kokemusta myös itse datan kvantitatiivisuudesta. Miksei sama pätisi datalle kvalitatiivisenkin käsittelyn suhteen?

Tutkimusmenetelmä: datan ja informaation välinen prosessi

Näiden esimerkkien ja pohdintojen perusteella datassa itsessään ei vaikuta olevan mitään sellaisia sisäisiä ominaisuuksia, joihin nojautuen datan luokittelu joko kvantitatiiviseksi tai kvalitatiiviseksi kävisi mahdolliseksi. Luokittelu kvantiin ja kvaliin tapahtuu pikemminkin sen perusteella, mihin dataa aiotaan käyttää, mitä informaatiota siitä halutaan saada irti tai kuinka dataa kuvitellaan analysoitavan tulevaisuudessa. Se, että luokittelemme datan, kertoo oikeastaan enemmän itsestämme kuin datasta!

Datan sijasta luokitteluperiaatteen keskiöön näyttääkin nousevan datan ja siitä tuotetun informaation välinen prosessi, tutkimusmenetelmä.

Esimerkiksi surveydatasta hankitaan informaatiota käyttäen matemaattista koneistoa. Tilastomatematiikan menetelmät käsittelevät datamatriiseja siinä mielessä objektiivisesti, että prosessi koostuu ennalta määrätyistä askelista ja on toistettavissa. Samalla tavalla esimerkiksi kuvasta tapahtuva hahmontunnistus hyödyntää matemaattista koneistoa ja tuottaa samalla syötteellä aina saman lopputuloksen. Kummassakin tapauksessa data koetaan luultavasti enemmän kvantitatiivisena.

Jos ihminen tulkitsee dataa ja tuottaa siitä informaatiota, syntyy informaatio enemmän tai vähemmän subjektiivisella prosessilla. Tällöin data koetaan luultavasti mieluummin kvalitatiivisena. Ihmisen tuottama informaatio voi olla luonteeltaan sellaista, että se olisi voitu tuottaa myös matemaattisella koneistolla, esimerkiksi kasvojen tunnistaminen kuvasta. Vaikka ihminen tuottaa tällaista informaatiota, niin ihmisen keskeinen rooli prosessissa vaikuttaa siihen, että informaation luonteesta ja prosessin objektiivisuudesta huolimatta data koetaan mieluummin kvalitatiivsena.

Vaikuttaa siltä, että mitä subjektiivisempi matka datasta informaatioksi on, sitä kernaammin data luokitellaan kvalitatiiviseksi. Vastaavasti mitä objektiivisemmin informaatio voidaan tuottaa datasta, sitä helpommin data nähdään kvantitatiivisena. Vaikka luokittelu soveltuu tutkimusmenetelmiin paremmin kuin dataan, näyttää tutkimusmenetelmien luokittelu tarttuvan aiheettomasti itse dataan. Tartunta tapahtuu mahdollisten jatkokäyttäjien kustannuksella. Datan luokittelu yhteen kategoriaan saattaa rajata pois toisen kategorian menetelmiä hyödyntäviä jatkokäyttäjiä.

Koska datan luokittelu kertoo enemmän meistä ja menetelmistämme kuin itse datasta, ehkä siitä voidaan hiljalleen luopua. Lopulta meillä on kuitenkin vain yksi data, monta tulkintaa.

Jani Hautamäki,
järjestelmäsuunnittelija
etunimi.sukunimi [at] uta.fi

Teekkarin näkemys aineistojen luokittelusta

Teksti käsittelee kvalitatiivisen ja kvantitatiivisen datan rajanvetoa teknis-luonnontieteelliseltä alalta tietoarkistoon siirtyneen henkilön näkökulmasta. Kirjoittaja Jani Hautamäki on toiminut aiemmin paikannus- ja navigointitekniikoiden tutkimusryhmässä.

Kvalitatiivista ja kvantitatiivista dataa

Yhteiskuntatieteissä aineistoja luokitellaan kvalitatiivisiksi ja kvantitatiivisiksi. Määrälliset aineistot, kuten surveyt, luokitellaan kvantiksi. Vastaavasti laadulliset aineistot, kuten haastattelut, luokitellaan kvaliksi. Luokittelu vaikuttaa selkeältä ja dikotomiselta, mutta onnistuuko sen soveltaminen aina yhtä helposti?

Fysikaaliset mittaukset ovat yksi aineistotyyppi, johon yhteiskuntatieteissä ei törmää, mutta joka on teknisillä aloilla arkipäiväistä. Tällaista dataa syntyy, kun mitataan fysikaalista suuretta, esimerkiksi kulmanopeutta tai lämpötilaa. Vaikka fysikaalinen mittausdata ei ole yhteiskuntatieteille kovin tuttua, onnistuu sen luokittelu vaivatta. Fysikaaliset mittaukset ovat epäilyksettä kvantitatiivista dataa.

Joidenkin aineistojen luokittelu suoralta kädeltä yhteen kategoriaan ei ole yhtä helppoa. Esimerkiksi runsaasti avokysymyksiä sisältävän surveydatan luokittelisi mieluusti molemmiksi, sekä kvanti- että kvalidataksi. Toinen hankalasti luokiteltava aineistotyyppi on kartat. Mikä tekee kartoista niin hankalia luokittelun kannalta?

Varhaiset kartat tehtiin käsityönä. Ne esittivät pääasiassa kartantekijän subjektiivista kokemusta, näkemystä ja uskomusta ympäröivästä maailmasta. Subjektiivisuutensa takia varhaiset kartat voidaan helposti luokitella kvalitatiiviseksi dataksi. Nykyaikaisten karttojen luonti sen sijaan perustuu mittaamiselle (toinen merkitys survey-sanalle).

Suosittu digitaalisen paikkatiedon tallennusformaatti muodostaa karttakuvan käyttäen yksittäisiä pisteitä, murtoviivoja ja monikulmioita. Murtoviivat ja monikulmiot rakennetaan yhdistämällä yksittäisiä pisteitä suorilla viivoilla. Murtoviivoilla voidaan esittää vaikka jokia ja teitä, ja monikulmioilla voidaan esittää esimerkiksi järviä, peltoja ja taloja.

Nykyaikaisen karttadatan luokittelussa ongelmaksi muodostuu, että data näyttää koostuvan osaksi fysikaalisesta mittausdatasta (yksittäiset pisteet), ja osaksi ihmisten subjektiivisesti päättämistä piirteistä kuten mitkä pisteet yhteen liitettyinä muodostavat järven, tien tai talon. Onko kyseessä kvali vai kvanti? Vai olisiko tällainen karttadata jotenkin sama asia kuin runsaasti avokysymyksiä sisältävä surveydata eli sekä–että?

Mihin ”datalla” viitataan?

Kun puhumme, että data on kvalitatiivista tai kvantitatiivista, mitä oikein tarkoitamme datalla? Mihin tarkalleen ottaen viittaamme?

Yhteiskuntatieteellinen tietoarkisto on muistiorganisaatio, joka arkistoi pelkästään digitaalista aineistoa. Tämä tarkoittaa käytännössä sitä, että mitä ikinä aineisto onkaan alun perin sisältänyt, suodattuu tietoarkistoon alkuperäisestä aineistosta vain bitteinä tallennettavissa oleva osa. Esimerkiksi tyypilistä kvaliaineistoa edustava avoin haastattelu arkistoidaan tavallisesti äänitallenteena tai sen pohjalta tehtynä litteraationa.

Aineiston jatkokäyttäjän ja toisaalta myös tietoarkiston näkökulmasta haastattelu on lähes yhtä kuin siitä luotu digitaalinen tallenne eli teksti-ja äänitiedosto. Nämä kaksi, itse haastattelu ja siitä syntynyt digitaalinen muistijälki, eivät tietenkään ole samoja asioita. Niiden välinen ero olisikin hyvä palauttaa mieleen aina silloin tällöin, kun digitaalisia aineistoja käsittelee. Helppoa se ei välttämättä ole, ainakaan aloittelijalle.

Tekniseltä alalta tulleena on saanut henkilökohtaisesti kokea, kuinka sujuvasti ja huomaamattomasti mieli käsittelee näitä kahta lähtökohtaisesti enemmän tai vähemmän samoina, toisiinsa kietoutuneina ja sekoittuneina asioina. Niiden erottaminen toisistaan on vaatinut eron oivaltamista ja aktiivista poisoppimista entisistä ajattelutavoista.

Mihin datalla oikein viitataan? Yllä eroteltiin toisistaan itse tapahtuma ja siitä syntynyt digitaalinen muistijälki. Erottelun seurauksena tarjolla on nyt ainakin kaksi selvää vaihtoehtoa sille, mihin datalla viitataan. Oma suosikkini vaihtoehdoista on, että datalla viitataan digitaaliseen muistijälkeen eli tiedostoihin ja bitteihin. Se on vaihtoehdoista konkreettisempi. Luultavasti samasta syystä se myös tuntuu luonnollisemmalta vaihtoehdolta.

Kvalitatiivinen data = fysikaalinen mittausdata

Tehty valinta johtaa radikaalilta tuntuvaan väittämään, että tyypillinen kvalidata eli digitaaliset ääni- ja kuvatallenteet ovat oikeastaan luonnontieteiden fysikaalista mittausdataa. Kuinka tähän väittämään on päädytty?

Tarkastellaan dataa suurennuslasilla ja selvitetään, mistä datan yksittäiset tavut ja tavujen bitit tulevat. Digitaalisen tallenteen bitit syntyvät karkeasti ottaen kaksivaiheisen prosessin tuloksena. Ensimmäisessä vaiheessa on fysikaalista suuretta aistiva anturi, joka muuttaa mittauksen sähköjännitteeksi tai -virraksi. Toisessa vaiheessa on muunnin, joka likimääräistää jännitteen tai virran digitaaliseksi arvoksi, esimerkiksi kokonaisluvuksi välille 0–65535.

Kaikki digitaaliset tallenteet eivät suinkaan ole fysikaalista mittausdataa. Esimerkiksi sävellysohjelmalla luodut musiikkikappaleet tai suunnitteluohjelmalla piirretyt kuvat ovat digitaalisena syntyneitä. Siitä huolimatta suurin osa laadullisista aineistoista on digitaalisia ääni-, kuva- ja videotallenteita eli fysikaalista mittausdataa. Vaikka data olisikin synteettistä ja digitaalisena syntynyttä, sillä on usein mielekäs fysikaalinen tulkinta, jota käytetään datan esittämiseen esimerkiksi äänenä tai kuvana. Tämä hämärtää kvali- ja kvantidatan rajanvetoa, ja aiheuttaa ihmettelyä, kuinka data tulisi luokitella.

Laadullisten aineistojen digitaaliset tallenteet vaikuttavat todella olevan fysikaalista mittausdataa. Voisiko tekniikan ja luonnontieteiden käyttämillä aineistoilla olla muutakin samaa yhteiskuntatieteiden laadullisten aineistojen kanssa kuin pelkkä aineistotyyppi? Vastaus on kyllä. Valmistautukaa kohtaamaan tuttu data uudesta, vieraasta ja ehkä yllättävästäkin näkökulmasta!

Sekä teknis-luonnontieteellisillä että yhteiskuntatieteellisillä aloilla käytetään samankaltaista, ellei peräti täysin samaa dataa. Digitoitua ääntä, kuvaa ja videokuvaa erilaisista asioista, ilmiöistä, tilanteista, ihmisistä ja paikoista. Seuraavat esimerkit näyttävät, kuinka samaa kvalidataa voidaan käyttää teknis-luonnontieteellisillä aloilla tarkoituksiin, joita ei ole ehkä aikaisemmin tullut ajatelleeksi.

Esimerkiksi turvakameran videokuva soveltuu yhtä hyvin käytettäväksi niin teknis-luonnontieteelliseen kuin yhteiskuntatieteelliseen tutkimukseen.

Samoin on erään tosi-tv-ohjelman laita.

Luultavasti sisätiloissa otetut valokuvatkin kelpaavat dataksi tieteenalaan katsomatta.

Tekniikan alalla kuvien ja äänen tarkastelu fysikaalisena mittausdatana ja kvantitatiivinen käsittely on arkipäivää. Asiaa opiskellaan tavallisesti signaalinkäsittelyn kursseilla. Jos teknis-luonnontieteellisen alan ihmiseltä kysyttäisiin, luokittelisiko hän käyttämänsä ääni- ja kuvadatan laadullisiksi, veikkaisin vastauksen olevan kielteinen. Laadullisia aineistotyyppejä edustavat ääni, kuva ja videokuva koetaan teknisillä aloilla kvantitatiivisena datana. Uskon, että datan kvantitatiivinen käsittely vahvistaa kokemusta myös itse datan kvantitatiivisuudesta. Miksei sama pätisi datalle kvalitatiivisenkin käsittelyn suhteen?

Tutkimusmenetelmä: datan ja informaation välinen prosessi

Näiden esimerkkien ja pohdintojen perusteella datassa itsessään ei vaikuta olevan mitään sellaisia sisäisiä ominaisuuksia, joihin nojautuen datan luokittelu joko kvantitatiiviseksi tai kvalitatiiviseksi kävisi mahdolliseksi. Luokittelu kvantiin ja kvaliin tapahtuu pikemminkin sen perusteella, mihin dataa aiotaan käyttää, mitä informaatiota siitä halutaan saada irti tai kuinka dataa kuvitellaan analysoitavan tulevaisuudessa. Se, että luokittelemme datan, kertoo oikeastaan enemmän itsestämme kuin datasta!

Datan sijasta luokitteluperiaatteen keskiöön näyttääkin nousevan datan ja siitä tuotetun informaation välinen prosessi, tutkimusmenetelmä.

Esimerkiksi surveydatasta hankitaan informaatiota käyttäen matemaattista koneistoa. Tilastomatematiikan menetelmät käsittelevät datamatriiseja siinä mielessä objektiivisesti, että prosessi koostuu ennalta määrätyistä askelista ja on toistettavissa. Samalla tavalla esimerkiksi kuvasta tapahtuva hahmontunnistus hyödyntää matemaattista koneistoa ja tuottaa samalla syötteellä aina saman lopputuloksen. Kummassakin tapauksessa data koetaan luultavasti enemmän kvantitatiivisena.

Jos ihminen tulkitsee dataa ja tuottaa siitä informaatiota, syntyy informaatio enemmän tai vähemmän subjektiivisella prosessilla. Tällöin data koetaan luultavasti mieluummin kvalitatiivisena. Ihmisen tuottama informaatio voi olla luonteeltaan sellaista, että se olisi voitu tuottaa myös matemaattisella koneistolla, esimerkiksi kasvojen tunnistaminen kuvasta. Vaikka ihminen tuottaa tällaista informaatiota, niin ihmisen keskeinen rooli prosessissa vaikuttaa siihen, että informaation luonteesta ja prosessin objektiivisuudesta huolimatta data koetaan mieluummin kvalitatiivsena.

Vaikuttaa siltä, että mitä subjektiivisempi matka datasta informaatioksi on, sitä kernaammin data luokitellaan kvalitatiiviseksi. Vastaavasti mitä objektiivisemmin informaatio voidaan tuottaa datasta, sitä helpommin data nähdään kvantitatiivisena. Vaikka luokittelu soveltuu tutkimusmenetelmiin paremmin kuin dataan, näyttää tutkimusmenetelmien luokittelu tarttuvan aiheettomasti itse dataan. Tartunta tapahtuu mahdollisten jatkokäyttäjien kustannuksella. Datan luokittelu yhteen kategoriaan saattaa rajata pois toisen kategorian menetelmiä hyödyntäviä jatkokäyttäjiä.

Koska datan luokittelu kertoo enemmän meistä ja menetelmistämme kuin itse datasta, ehkä siitä voidaan hiljalleen luopua. Lopulta meillä on kuitenkin vain yksi data, monta tulkintaa.

Jani Hautamäki,
järjestelmäsuunnittelija
etunimi.sukunimi [at] uta.fi

Tekninen kehitys laajentaa tietoarkistojen toimintaa

Ensimmäiset yhteiskuntatieteelliset data-arkistot aloittivat toimintansa 1960-luvulla Yhdysvalloissa ja Euroopassa. Niiden syntyyn vaikutti keskeisesti tietokoneiden ja laajoihin surveyaineistoihin perustuvien tutkimusmenetelmien kehittyminen sekä näiden suosion nopea kasvu useilla ihmistieteellisillä aloilla. Data-arkistoja ryhdyttiin perustamaan myös kaupallisten mielipidetutkimuslaitosten yhteyteen erityisesti Yhdysvalloissa.

Data-arkistot toimivat kolme ensimmäistä vuosikymmentään ja osin vielä 1990-luvullakin keskustietokoneympäristöissä. Varsinkin tästä syystä niiden säilyttämien henkilötason tutkimusaineistojen käyttäjät olivat lähes yksinomaan tutkijoita. Sähköiset datatiedostot haettiin joko paikan päältä arkistoista tai ne kuljetettiin eri tallennevälineillä käyttäjilleen.

Kun itse tilasin 90-luvun alkupuolella Saksan yhteiskuntatieteellisestä data-arkistosta Kölnistä Eurobarometrien data-aineistoja, ne toimitettiin työhuoneeseeni Tampereelle postitse kelanauhoina. Sitten marssin tavaran kanssa yliopistomme tietokonekeskukseen, jossa tiedostot siirrettiin (maksutta) keskuskoneen käyttäjätunnukselleni. Tämän jälkeen vuorossa olivat ascii-muotoisten tiedostojen määrittelyt sellaiseen muotoon, että tilastollinen tietojenkäsittelyohjelma sai datasta tolkkua. Keskuskone oli sen verran ruuhkainen, että suurimmat tietokoneajot piti suosiolla ajoittaa suoritettavaksi illemmalla eikä työpäivän aikana.

Toisin on tänään. Vaikka en edes kuulu varhaiseen reikäkortti- ja lajittelijasukupolveen enkä ole siis värjötellyt tietojenkäsittelyn Siperiassa, olen silti todistanut mikrotietokoneiden ja Internetin vallankumouksen koko tähänastisen polun. Data-arkistoalalle teknologian nopea kehitys on tuonut useita muutoksia ja isoja haasteita. Aikaisemmin ala keskittyi data-aineistojen arkistointiin, pitkäaikaissäilytykseen ja jakeluun erityisesti tutkimuskäyttöä ajatellen. Kansainvälisessä yhteistyössä arkistot toimivat data-aineistojen välittäjinä tutkijoille siten, että kansalliset data-arkistot toimivat oman maansa tutkijoille ulkomaisten aineistojen välittäjinä.

Internet-sukupolvelle ajatus välikäsistä ja pitkistä toimitusajoista on vieras. Yhä useamman tutkijankin mielestä tutkimuksen tietoaineistojen tulisi olla ladattavissa suoraan omalle tietokoneelle luotettavista lähteistä heti ja lähtökohtaisesti myös maksutta. Lisäksi tietojen pitäisi olla vaivattomasti yhdisteltävissä muihin tietoihin ja niiden tulisi muutoinkin olla helppokäyttöisiä. Hyvä näin, sillä todellinen edistys edellyttää aina sitä, että joku vaatii muutosta. Näihin haasteisiin vastaaminen edellyttää toimivia palveluinfrastruktuureja.

Data-arkistoalalla teknologian kehitys on jo avartanut suunnattomasti tutkimusaineistojen käyttötapoja ja -mahdollisuuksia. Avoimet datatietokannat ovat lisänneet huomattavasti soveltuvien tutkimusaineistojen löytymistä ja saatavuutta. Joskus suunniteltu uusi tutkimusaineisto on jäänyt kokonaan keräämättä. Omassa toiminnassamme meitä on ilahduttanut erityisesti se, että perustutkinto-opiskelijat käyttävät tietoarkistoon arkistoituja aineistoja kasvavassa määrin omiin opinnäytetöihinsä.

Myös tietoaineistojen opetuskäytön erilaisia mahdollisuuksia tulisi oppia hyödyntämään täysipainoisesti. Data-projektori ja Internet opetustilassa mahdollistavat jo nyt eri aiheisiin liittyvien dataperustaisten online-palvelujen käytön kontaktiopetuksessa. Näin opetus perustuu ajantasaisimpaan tietoon.

Tietoarkisto on laajentamassa palvelujaan tähän suuntaan. Jo nyt muun muassa Menetelmäopetuksen tietovarannon harjoitusaineistot ovat vapaasti heti käytettävissä. Tavoitteena on myös uusia aineistojen toimitusjärjestelmä vuoden 2012 loppuun mennessä. Uudistuksen valmistuttua rekisteröityneet asiakkaat voivat hyödyntää tietoarkiston koko aineistovarantoa datatiedostoineen suoraan verkossa.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi