Tag Archives: matkakertomus

Tulevaisuuden vaihtoehdot suurten datamäärien käsittelyyn: DRAS-TIC ja Brown Dog

Suuret datamassat ja niiden tarjoamat mahdollisuudet ja haasteet liitetään yleensä suurten internetjättien, kuten Googlen tai Amazonin, keräämään dataan. Mutta mielenkiintoisia laajoja datoja löytyy myös useiden arkistojen hallusta. Niiden käsittely on kuitenkin hankalaa ja riskinä on, että mahdollisuudet jäävät hyödyntämättä ja käteen jäävät vain haasteet.

Tietomassat ja formaattivelka haasteina

Ensimmäisenä haasteena vastaan tulee todennäköisesti varantojen skaalautuminen. Eli miten infra pysyy perässä, kun tiedostomäärät kasvavat dramaattisesti. Toinen haaste on formaattivelka. Formaattivelalla tarkoitetaan sitä työmäärää tai rahasummaa, joka tulevaisuudessa joudutaan käyttämään tiedostojen jatkokäyttämiseen, kun niiden lukeminen ja prosessointi on muuttunut vaikeaksi tai mahdottomaksi teknologian vanhenemisen myötä. Jos aineistoja hallinoivat tahot eivät aktiivisesti ota huomioon pitkäaikaissäilytystä, ne kerryttävät itselleen hyvin todennäköisesti formaattivelkaa.

Osallistuin helmikuussa Barcelonassa IDCC18-konferenssiin, joka on digitaalisten aineistojen kuratointiin erikoistunut vuosittainen tapahtuma. Konferenssissa Marylandin yliopiston Digital Curation Innovation Centerin johtaja Richard Marciano esitteli näihin ongelmiin vastaavaa kahta eri teknologiapakettia: DRAS-TIC:ia (Digital Repository at Scale that Invites Computation) ja Brown Dogia.

Skaalautuvat tietovarannot

DRAS-TIC on avoimen lähdekoodin horisontaalisesti skaalautuva varanto, jonka ei pitäisi kärsiä lainkaan tiedostomäärän kasvusta – jos kehittäjien mainospuheita on uskominen. Luonnollisesti palvelun ylläpitäjän täytyy pystyä kasvattamaan taustalla pyörivien palvelinten määrää. Akronyymihirviön mielenkiintoisin osa on ”that Invites Computation”, eli DRAS-TIC varannot on viritetty valmiiksi laskennallista arkistointia (computational archival science) varten, mikä tekee datasta löydettävämpää ja mahdollistaa uuden tiedon johtamisen helpommin jo olemassa olevista aineistoista.

Formaattimuutoksiin uusia työkaluja

Brown Dog on avoimen lähdekoodin työkalukokoelma, jolla prosessoidaan tiedostoja. Sen ydintoiminnot ovat tiedostojen muuntaminen formaatista toiseen ja metadatan kerääminen ja sijoittaminen hakuindeksiin. Formaattimuunnokset toteutetaan erilaisilla muuntimilla, joita tällä hetkellä on Brown Dogin työkalukatalogiin listattuna yhteensä 30.

Brown Dog -esittelyvideo

Ideana on ketjuttaa formaattimuunnoksia erilaisiksi poluiksi. Marcianon käyttämässä esimerkissä käyttäjä lähettää järjestelmään PSD 2.0 tiedoston, joka on tarkoitus muuntaa nykylaitteille sopivampaan muotoon. PSD 2.0 on vuoden 1991 PhotoShop 2.0:n työtiedostoformaatti, joten sen käsittely nykylaitteilla olisi todennäköisesti vähintäänkin hankalaa. Muuntamisen Brown Dog aloittaa käyttämällä Windows 3.0 virtuaalikonetta, johon on asennettu PhotoShop 2.0. PSD muunnetaan ensin TIFF:iksi, joka syötetään Docker-kontissa pyörivälle Linux-koneelle, ja se muuttaa kuvan ImageMagik-muuntimella JPEG 2000 -formaattiin. Esimerkissä polku on lineaarinen, mutta mikään ei estä haaroittamasta polkua ja tekemästä useita rinnakkaisia muunnoksia.

Metadatan kerääminen tiedostoista

Näillä kahdella työkalulla tiedostoista voidaan myös haravoida erilaista metadataa ja näin kartoittaa syntyvää tiedostovarantoa. Esimerkkinä voidaan käyttää tavallisen PDF-tiedoston tallettamista DRAS-TIC:ia ja Brown Dogia hyödyntävään varantoon.

Tallennus tapahtuu vaiheittain:

  1. PDF-tiedosto lähetetään tiedostovarantoon, jolloin siitä kerätään talteen tiedoston nimi, koko ja sijainti tiedostovarannossa.
  2. Tiedostosta otetaan irti sen PDF-versionumero.
  3. Tiedostosta otetaan erilleen tekstisisältö.
  4. PDF-tiedoston sisältämät kuvat skannataan tekstisisällön varalta OCR-ohjelmalla (Optical Character Recognition). Lisäksi muilla kuva-analyysityökaluilla kerätään esimerkiksi tiedot siitä, kuinka monta ihmistä kuvissa esiintyy ja minkälaisissa ympäristöissä he ovat.

Näin yhdestä PDF-tiedostosta on kerätty kohtuullisen suuri määrä metadataa, ja kun kaikki tämä metadata indeksoidaan hakuindeksiin, on tiedosto ja sen eri osat helposti löydettävissä usealla eri tavalla.

Brown Dogissa on panostettu siihen, että se on tarvittaessa laajennettavissa omilla työkaluilla, jotka voidaan sovittaa johonkin tiettyyn tehtävään. Jos esimerkiksi tiedostojen tekstisisällöt halutaan avainsanoittaa ja visualisoida varantoa niiden perusteella, voidaan nämä työvaiheet lisätä Brown Dogiin omilla työkaluilla. Näin eri tahot voivat kehittää omiin tarkoituksiinsa sopivan työvuon.

Brown Dog ja DRAS-TIC ovat vielä kehitysvaiheessa, joten aika näyttää, mitä niille lopulta käy. Onnistuessaan ne loisivat mielenkiintoisen pohjan suurten datavarantojen hallintaan ja laskennallisen arkistoinnin soveltamiseen.

Lisätietoa:

» Marciano et al., esitysdiat IDCC2018-konferenssista: Building Open‐Source Digital Curation Services & Repositories at Scale
» CNI Fall 2016 Project Briefings: DRASTIC Measures: Digital Repository at Scale that Invites Computation (To Improve Collections)
» NSCA Brown Dog
» 13th International Digital Curation Conference (IDCC)

Valtteri Kostiainen
sovelluskehittäjä
etunimi.sukunimi [at] uta.fi

Tietoarkisto vei Länsi-Balkaniin osaamista laadullisten aineistojen arkistoinnista

Sain tilaisuuden vierailla Sloveniassa Ljubljanassa laadullisten aineistojen arkisto-osaajan roolissa. Kolmipäiväisen työpajan (9.–11.2.2016) tavoitteena oli perehtyä tutkimusaineistojen arkistointiin. Esitysten ohessa työpajassa käsiteltiin oikeita aineistoja, jotka on tuotettu RRPP-projektissa.

Työpajan osallistujat olivat Albaniasta, Kosovosta, Serbiasta, Makedoniasta, Montenegrosta ja Kroatiasta. Aineistojen kotimaat ja kielet olivat samat kuin osallistujien. Kouluttajia oli minun lisäkseni Slovenian ja Sveitsin tietoarkistoista.

Se että laadulliset aineistot olivat vieraskielisiä, tuotti omat pulmansa niistä keskustelemiseen. Apuna toimi Google-kääntäjä, jonka avulla minun oli mahdollista kurkistella erikielisten aineistojen sisältöihin myös englanniksi jo ennen työpajaa. Koneellisesti tuotetut pikakäännökset ovat tietysti epätarkkoja ja osin virheellisiä. Ne kuitenkin auttoivat oleellisesti arkistointia koskevissa keskusteluissa. Analyysiin Google-kääntäjällä tuotetut aineistot tuskin sopisivat täysin varauksitta.

Kulttuuriset ja historialliset erityispiirteet puolestaan tuovat eri maiden laadullisiin aineistoihin omat eettiset ja lainsäädännöllisetkin haasteensa. Etukäteen oletin, että niistä keskusteltaisiin eniten. Mutta toisin kävi. Olennaisimmat kysymykset arkistoinnin näkökulmasta olivat samat kuin meillä Suomessa: Onko aineistojen sisältämistä henkilöistä ja aineiston tuottamistilanteista riittävästi tietoa? Ovatko haastattelujen kysymykset tai ryhmäkeskustelujen teemat tallessa? Ovatko litteraatit yhdenmukaisia läpi koko aineiston? Mitä aineistojen käytöstä ja erityisesti jatkokäytöstä on sovittu tutkittavien kanssa? Miten laadullista aineistoa voi anonymisoida?

Niin Länsi-Balkanilla kuin meillä Suomessakin laadullisen aineiston arkistointi onnistuu parhaiten, kun ajatus aineiston säilyttämisestä jatkokäyttöä varten on ollut tutkijalla mielessä alusta saakka. Vaikka työpajassa käsiteltyjen aineistojen joukossa oli muutama tällainen valopilkku, harmillisen usein aineistoista puuttuivat tiedot tutkittavien suostumuksesta. Keskusteluissamme tulimme siihen tulokseen, että kirjallisten suostumusten ohella tai niiden sijaan olisi hyvä saada äänitallenteiden alkuun tallennetuksi tutkijan selostus aineiston käytöstä ja säilyttämisestä ja tutkittavien suostumus osallistua annetuin ehdoin. Näin tutkimussuostumukset olisivat mukana itse aineistotiedostoissa ja niistä tehdyissä litteraateissa.

Toisinaan tutkijalla oli kadonnut alkuperäinen haastattelurunko, ja muutamista aineistoista puuttui osa, kun tiedostoja oli hävinnyt tutkijan työkoneen vaihtamisen yhteydessä. Tällaiset riskit ovat mahdollisia kaikilla tutkijoilla maasta riippumatta. Olinkin iloinen voidessani esitellä Tietoarkiston aineistonhallinnan käsikirjaa, josta suurin osa on käännetty myös englanniksi.

Työpajan osallistujat suunnittelevat perustavansa tietoarkistoja omiin kotimaihinsa. Jo karttuneen tietotaidon saavutettavuus auttaa heitä siinä huomattavasti. CESSDA-arkistoista laadullisten aineistojen ylivertaisia osaajia ovat Ison-Britannian UKDA ja pienen Suomen Tietoarkisto.

Lisätietoa:
» SEEDS workshop in Ljubljana
» Aineistonhallinnan käsikirja
» Data Management Guidelines

Arja Kuula-Luumi
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi

Tietoarkisto vei Länsi-Balkaniin osaamista laadullisten aineistojen arkistoinnista

Sain tilaisuuden vierailla Sloveniassa Ljubljanassa laadullisten aineistojen arkisto-osaajan roolissa. Kolmipäiväisen työpajan (9.–11.2.2016) tavoitteena oli perehtyä tutkimusaineistojen arkistointiin. Esitysten ohessa työpajassa käsiteltiin oikeita aineistoja, jotka on tuotettu RRPP-projektissa.

Työpajan osallistujat olivat Albaniasta, Kosovosta, Serbiasta, Makedoniasta, Montenegrosta ja Kroatiasta. Aineistojen kotimaat ja kielet olivat samat kuin osallistujien. Kouluttajia oli minun lisäkseni Slovenian ja Sveitsin tietoarkistoista.

Se että laadulliset aineistot olivat vieraskielisiä, tuotti omat pulmansa niistä keskustelemiseen. Apuna toimi Google-kääntäjä, jonka avulla minun oli mahdollista kurkistella erikielisten aineistojen sisältöihin myös englanniksi jo ennen työpajaa. Koneellisesti tuotetut pikakäännökset ovat tietysti epätarkkoja ja osin virheellisiä. Ne kuitenkin auttoivat oleellisesti arkistointia koskevissa keskusteluissa. Analyysiin Google-kääntäjällä tuotetut aineistot tuskin sopisivat täysin varauksitta.

Kulttuuriset ja historialliset erityispiirteet puolestaan tuovat eri maiden laadullisiin aineistoihin omat eettiset ja lainsäädännöllisetkin haasteensa. Etukäteen oletin, että niistä keskusteltaisiin eniten. Mutta toisin kävi. Olennaisimmat kysymykset arkistoinnin näkökulmasta olivat samat kuin meillä Suomessa: Onko aineistojen sisältämistä henkilöistä ja aineiston tuottamistilanteista riittävästi tietoa? Ovatko haastattelujen kysymykset tai ryhmäkeskustelujen teemat tallessa? Ovatko litteraatit yhdenmukaisia läpi koko aineiston? Mitä aineistojen käytöstä ja erityisesti jatkokäytöstä on sovittu tutkittavien kanssa? Miten laadullista aineistoa voi anonymisoida?

Niin Länsi-Balkanilla kuin meillä Suomessakin laadullisen aineiston arkistointi onnistuu parhaiten, kun ajatus aineiston säilyttämisestä jatkokäyttöä varten on ollut tutkijalla mielessä alusta saakka. Vaikka työpajassa käsiteltyjen aineistojen joukossa oli muutama tällainen valopilkku, harmillisen usein aineistoista puuttuivat tiedot tutkittavien suostumuksesta. Keskusteluissamme tulimme siihen tulokseen, että kirjallisten suostumusten ohella tai niiden sijaan olisi hyvä saada äänitallenteiden alkuun tallennetuksi tutkijan selostus aineiston käytöstä ja säilyttämisestä ja tutkittavien suostumus osallistua annetuin ehdoin. Näin tutkimussuostumukset olisivat mukana itse aineistotiedostoissa ja niistä tehdyissä litteraateissa.

Toisinaan tutkijalla oli kadonnut alkuperäinen haastattelurunko, ja muutamista aineistoista puuttui osa, kun tiedostoja oli hävinnyt tutkijan työkoneen vaihtamisen yhteydessä. Tällaiset riskit ovat mahdollisia kaikilla tutkijoilla maasta riippumatta. Olinkin iloinen voidessani esitellä Tietoarkiston aineistonhallinnan käsikirjaa, josta suurin osa on käännetty myös englanniksi.

Työpajan osallistujat suunnittelevat perustavansa tietoarkistoja omiin kotimaihinsa. Jo karttuneen tietotaidon saavutettavuus auttaa heitä siinä huomattavasti. CESSDA-arkistoista laadullisten aineistojen ylivertaisia osaajia ovat Ison-Britannian UKDA ja pienen Suomen Tietoarkisto.

Lisätietoa:
» SEEDS workshop in Ljubljana
» Aineistonhallinnan käsikirja
» Data Management Guidelines

Arja Kuula-Luumi
kehittämispäällikkö
etunimi.sukunimi [at] uta.fi

Arkistoinnista poliittiseen päätöksentekoon

Tutkimusaineistojen arkistointi parantaa yhteiskunnasta kaikki taudit ja vaivat. Ei ole niin pientä tai isoa huolta, ettei siihen löytyisi helpotusta jo arkistoidusta aineistosta. Vai kuinka se nyt menikään? Ehkä on sittenkin syytä palata vähän taaksepäin ja aloittaa alusta.

Terveydenhuoltotutkimuksen päivillä Liina-Kaisa Tynkkynen Tampereen yliopistosta piti erinomaisen esitelmän aiheesta, miten saada tutkimustulokset nousemaan akateemisen kiinnostuksen tasolta poliittisen päätöksenteon pohjatiedoksi. Erityisesti nyt, kun yhteiskunnassa tehdään isoja muutoksia rakenteisiin, soisi päätösten pohjautuvan tutkittuun tietoon, ei pelkästään poliittisiin agendoihin.

Tärkein viesti Tynkkysen puheessa oli tutkimustiedon esiin tuomisen oikea ajankohta. Jokaisessa päätösprosessissa on olemassa tietty vaihe, mahdollisuuksien ikkuna, jonka aikana päättäjille tuotu tieto vaikuttaa.

Tärkeää on myös osata viestiä asiastansa oikein. Viestin sisältöä pohtiessa on syytä kiinnittää huomiota siihen, mikä viesti itse asiassa on. Keneen halutaan vaikuttaa: poliittisiin päättäjiin, yleiseen mielipiteeseen vai esimerkiksi terveydenhuollon tuottajiin? Entä mikä olisi hyvä viestintäkanava, ja kenen kannattaisi viedä viestiä päättäjille? Tutkija itse ei ole aina paras mahdollinen valinta. Olennaista on myös tehdä itsellensä selväksi, mitä haluaa saada aikaan: onko tarkoitus tarjota ratkaisuja tai antaa päätöksentekoprosessiin uutta tietoa vai tuoda päättäjille esiin ongelma?

Toki tutkijan vaikuttamisen tiellä on monia haasteita. Esimerkiksi poliittinen ilmapiiri ei ehkä juuri nyt ole kaikkein otollisin – Suomessa tuntuu olevan vallalla kulttuuri, jossa tehdään mieluummin kokeiluja kuin tutkimustietoon nojaavia päätöksiä. Realisti ymmärtää, että yksittäisellä tutkimuksella tuskin pystyy muuttamaan politiikan suuntaa. Toisaalta kannattaa muistaa, että mitä enemmän luotettavaa tutkimustietoa kertyy, sitä vahvempi paino sillä on.

Ja miten tämä kaikki taas liittyy tutkimusaineistojen arkistointiin? Tutkimuksen ei tarvitse jäädä yksittäiseksi tähdenlennoksi, jonka mahdollisuus päästä vaikuttamaan asioihin jää pieneksi, vaan tutkimusaineiston voi arkistoida ja saattaa muiden tutkijoiden käyttöön. Tällöin kenties toinen, samaa ilmiötä tutkiva henkilö, voi käyttää sitä oman aineistonsa lisänä tai löytää ilmiöön uuden tutkimusnäkökulman, ja viesti pääsee vahvistumaan. Myös jo unohtuneet tutkimustulokset voidaan ottaa vertailukohdaksi ja parhaimmillaan kahden aineiston avulla verrata tilannetta ennen ja jälkeen tapahtuneen muutoksen.

Tietoarkistokin muuten oli esillä Terveydenhuoltotutkimuksen päivillä. Ensimmäisen päivän rinnakkaissessiossa pääsin itse pitämään esitelmän terveystietoja sisältävien aineistojen arkistoinnista. Lisäksi tapahtumassa oli esillä Tietoarkiston palveluportaali Ailasta kertova rollup.

Lisätietoa:
» Terveydenhuoltotutkimuksen päivät 2015
» Tietoarkiston palveluportaali Aila

Annaleena Okuloff
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi

Arkistoinnista poliittiseen päätöksentekoon

Tutkimusaineistojen arkistointi parantaa yhteiskunnasta kaikki taudit ja vaivat. Ei ole niin pientä tai isoa huolta, ettei siihen löytyisi helpotusta jo arkistoidusta aineistosta. Vai kuinka se nyt menikään? Ehkä on sittenkin syytä palata vähän taaksepäin ja aloittaa alusta.

Terveydenhuoltotutkimuksen päivillä Liina-Kaisa Tynkkynen Tampereen yliopistosta piti erinomaisen esitelmän aiheesta, miten saada tutkimustulokset nousemaan akateemisen kiinnostuksen tasolta poliittisen päätöksenteon pohjatiedoksi. Erityisesti nyt, kun yhteiskunnassa tehdään isoja muutoksia rakenteisiin, soisi päätösten pohjautuvan tutkittuun tietoon, ei pelkästään poliittisiin agendoihin.

Tärkein viesti Tynkkysen puheessa oli tutkimustiedon esiin tuomisen oikea ajankohta. Jokaisessa päätösprosessissa on olemassa tietty vaihe, mahdollisuuksien ikkuna, jonka aikana päättäjille tuotu tieto vaikuttaa.

Tärkeää on myös osata viestiä asiastansa oikein. Viestin sisältöä pohtiessa on syytä kiinnittää huomiota siihen, mikä viesti itse asiassa on. Keneen halutaan vaikuttaa: poliittisiin päättäjiin, yleiseen mielipiteeseen vai esimerkiksi terveydenhuollon tuottajiin? Entä mikä olisi hyvä viestintäkanava, ja kenen kannattaisi viedä viestiä päättäjille? Tutkija itse ei ole aina paras mahdollinen valinta. Olennaista on myös tehdä itsellensä selväksi, mitä haluaa saada aikaan: onko tarkoitus tarjota ratkaisuja tai antaa päätöksentekoprosessiin uutta tietoa vai tuoda päättäjille esiin ongelma?

Toki tutkijan vaikuttamisen tiellä on monia haasteita. Esimerkiksi poliittinen ilmapiiri ei ehkä juuri nyt ole kaikkein otollisin – Suomessa tuntuu olevan vallalla kulttuuri, jossa tehdään mieluummin kokeiluja kuin tutkimustietoon nojaavia päätöksiä. Realisti ymmärtää, että yksittäisellä tutkimuksella tuskin pystyy muuttamaan politiikan suuntaa. Toisaalta kannattaa muistaa, että mitä enemmän luotettavaa tutkimustietoa kertyy, sitä vahvempi paino sillä on.

Ja miten tämä kaikki taas liittyy tutkimusaineistojen arkistointiin? Tutkimuksen ei tarvitse jäädä yksittäiseksi tähdenlennoksi, jonka mahdollisuus päästä vaikuttamaan asioihin jää pieneksi, vaan tutkimusaineiston voi arkistoida ja saattaa muiden tutkijoiden käyttöön. Tällöin kenties toinen, samaa ilmiötä tutkiva henkilö, voi käyttää sitä oman aineistonsa lisänä tai löytää ilmiöön uuden tutkimusnäkökulman, ja viesti pääsee vahvistumaan. Myös jo unohtuneet tutkimustulokset voidaan ottaa vertailukohdaksi ja parhaimmillaan kahden aineiston avulla verrata tilannetta ennen ja jälkeen tapahtuneen muutoksen.

Tietoarkistokin muuten oli esillä Terveydenhuoltotutkimuksen päivillä. Ensimmäisen päivän rinnakkaissessiossa pääsin itse pitämään esitelmän terveystietoja sisältävien aineistojen arkistoinnista. Lisäksi tapahtumassa oli esillä Tietoarkiston palveluportaali Ailasta kertova rollup.

Lisätietoa:
» Terveydenhuoltotutkimuksen päivät 2015
» Tietoarkiston palveluportaali Aila

Annaleena Okuloff
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi

Kun historiantutkijat vaelsivat Joensuuhun – Historiantutkimuksen päivät 22.–24.10.2015 Itä-Suomen yliopistossa

Olo oli oudolla tapaa nostalginen, kun juna kolisutteli pimeää rataosuutta Pieksämäeltä kohti Joensuuta. Vielä hetken on Pohjois-Karjalan maakuntakeskus tavoitettavissa junaillen; maaliskuun 2016 jälkeen sinne ei enää pääse Tampereelta Jyväskylän ja Pieksämäen kautta. Käsillä olivat siis viimeiset hetket vierailla junantuomana Pielisjoen suulle asettuneessa kaupungissa.

Joensuun vierailun syynä olivat 22.–24.10.2015 järjestetyt Historiantutkimuksen päivät, jotka keräsivät kokoon Itä-Suomen yliopiston kampukselle noin 260 historioitsijaa Suomen kaikista historian laitoksista – ja kirsikkana kakun päällä yhden tietoarkistolaisen. Sessioita ja työryhmiä oli kolmen päivän aikana noin seitsemänkymmentä ja esitykset kattoivat aikakausia antiikista nykypäivään. Lisäksi ohjelmaan sisältyi kaksi keynote-luentoa sekä seurustelun ja verkostoitumisen mahdollistavia iltatilaisuuksia. Otolliset ainekset jossain vaiheessa yleensä iskevälle konferenssikoomalle olivat siis lupaavasti kasassa.

Tietoarkistolaisen näkökulmasta päiville osallistumisella oli selkeä tarkoitus: Digitaalisten tutkimusaineistojen avoimuuden ja jatkokäytön edistäminen ei ole vielä vakiintunut humanististen alojen tutkimuskäytöntöihin. Tietoarkiston laajentaessa palveluitaan humanistisille aloille tutkijoiden joukkoon jalkautuminen ja tutkimusaineistojen avoimuuden ilosanoman julistaminen ovat siten ensiarvoisen tärkeitä asioita. Parin päivän aikana käymistäni keskusteluista kävi kuitenkin selväksi, että historiantutkijat alkavat olla enenevässä määrin selvillä avoimen tieteen vaatimuksista tutkimusaineistojen suhteen, ja moni tuntui suhtautuvan asiaan pohjimmiltaan myönteisesti. Tutkimusrahoittajien, kuten Suomen Akatemian suositukset tutkimusaineistojen avaamisesta ovat vaikuttaneet ja vaikuttavat jatkossakin siihen, että tutkijat joutuvat aiempaa aktiivisemmin pohtimaan aineistojen arkistoimiseen ja jatkokäyttöön liittyvää tematiikkaa.

Niinä aikoina, kun en päivystänyt Tietoarkiston pöydän takana, kävin kuuntelemassa esityksiä. Sessioiden valintaan vaikuttivat omat intressini sekä tietoarkistolaisena että keskiajan taiteen tutkijana. Taidehistorian koulutuksen saaneena kuvien tutkijana minua kiinnosti kovasti kuulla, miten historioitsijat käsittelevät ja tutkivat visuaalista aineistoa. Valitsin siten ensimmäiseksi session, jossa käsiteltiin sosiaalisen median kuvamateriaalia, kotialbumien sota-ajan kuvia sekä SA-kuva-arkiston sotavalokuvia digitaalisen humanismin näkökulmasta. Historioitsijat ovat tyypillisesti tottuneet suuntaamaan analyyttisen katseensa ensisijaisesti kohti tekstejä, mutta visuaalinen aines on ehkä historian tutkimuksessa pikkuhiljaa liikahtamassa kuriositeetin tai kuvituksen roolistaan kohti tutkimuksellista keskiötä – tai ainakin sen liepeitä. Historian tutkijat ovat perinteisesti herkkiä kontekstille, ja tämä näkyi onneksi myös esityksissä, vaikka taiteen tutkimuksen näkökulmasta paljon on vielä opittavaa.

Nosteessa olevan digitaalisen humanismin tai tuttavallisemmin digihumanismin tuotteena luodaan usein erilaisia datan visualisointeja ja esimerkiksi esitellyn SA-kuva-arkiston sisällön analyysit olivat muuntuneet kuvapilven muotoon. Erilaiset kuvapilvet havainnollistivat tässä tapauksessa graafisesti eri valokuvien kuvateksteistä poimittujen käsitteiden merkitystä. Datan visualisointi on eittämättä kiinnostava ja havainnollistava tapa esittää kerättyä tietoa, mutta valokuviin liittyvien kuvatekstien muodostamat visualisoinnit nostavat väistämättä sanat merkityksellisempään asemaan kuin varsinaiset kuvat. Tekstintutkija ei tässä välttämättä näe mitään ongelmaa, kuvantutkija kylläkin.

Listalleni päätyi seuraavaksi perinteisempää historiantutkimuksen metodiikkaa kuten keskiajan ja uuden ajan lähdetutkimusta Turun tuomiokirkon Mustasta kirjasta voudintileihin ja Flemingien maakirjoihin. Suuri osa historiantutkijoiden työajasta kuluu edelleen kirjallisen lähdeaineiston analysointiin, eikä sen keskeisyys ole katoamassa. Itselleni kiinnostavaa oli kuulla muun muassa lähdeteoksissa käytetyn paperin vesileima-ajoituksista, joiden perusteella on mahdollista hahmottaa käsikirjojen alkuperäinen kokonaisuus sekä tehdä esimerkiksi melko tarkkoja ajoituksia sen suhteen, milloin jonkin tietyn käsikirjoituksen jokin osa on kirjoitettu tai kuinka monta kirjuria työtä on ollut tekemässä. Toisaalta perinteinen lähdetutkimus voi nykyään kiinnittyä luontevasti digitaaliseen alustaan ja muuntua tietokannaksi, kuten digihumanismin ja perinteikkään historiantutkimuksen ristipaineessa tempoileva voudintilien tutkija aprikoi.

Tässä yhteydessä mainittiin myös itselleni aikaisemmin tuntematon termi ”small big data”, joka viittaa määrällisesti pieneen mutta luonteeltaan ”suureen” dataan, siis eräänlaiseen big datan miniversioon. Puhe big datasta sisältää usein eräänlaisen eeppisen mittasuhteen; määritelläänhän se tyypillisesti valtavista, osin järjestäytymättömistä ja jatkuvasti lisääntyvistä tietomassoista koostuvaksi datamassaksi. Tiedonkeruun kannalta yksittäinen tutkija voi tuntea kauhua määrällisesti valtaisan ja alati laajentuvan tietovarannon kanssa, joten lienee tarpeen pilkkoa käsitettä pienempiin ja paremmin hallittaviin kokonaisuuksiin.

Viimeinen sessio, johon minun oli mahdollista osallistua, käsitteli historiantutkimuksen sähköisiä tutkimusinfrastruktuureja. Esitykset keskittyivät Kansallisarkiston erilaisiin sähköisiin palveluihin, erityisesti digitoitujen karttojen paikkatietojärjestelmän kehittämiseen, heraldisten kokoelmien tietokannan luomiseen ja Suomen keskiajan käsikirjoitusten sähköisen kokoelmatietokannan, Diplomatarium Fennicumin kehittämiseen. Näiden erilaisten sähköisten palvelujen kehittäminen on osa Kansallisarkiston laajempaa tutkimuspalvelustrategiaa, jonka avulla pyritään paremmin vastaamaan erilaisten käyttäjien toiveisiin.

Kuulemieni esitysten perusteella historiantutkimuksen nykytilasta jäi ehkä päällimmäisenä pinnalle digitalisaation haasteet ja sen mukanaan tuomat uudet sovellukset, joita hyödyntämällä tieteenalan on mahdollista suunnata hyvinkin kiinnostaville urille – unohtamatta kuitenkaan perusydintään, lähdekriittistä ja kontekstiherkkää tutkimusotetta.

Historiantutkimuksen päivistä muualla blogosfäärissä:
» Kaisa Kyläkoski: Historiantutkimuksen päivät
» Susanna Ånäs: Olemmeko kaikki historioitsijoita?
» Maria Lähteenmäki: Minne menet historiantutkijoiden ammattikunta tekno-oligarkkien paineen alla?

Lisätietoa:
» SA-kuva-arkisto
» Historiantutkimuksen päivät 2015

Katja Fält
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi

Kun historiantutkijat vaelsivat Joensuuhun – Historiantutkimuksen päivät 22.–24.10.2015 Itä-Suomen yliopistossa

Olo oli oudolla tapaa nostalginen, kun juna kolisutteli pimeää rataosuutta Pieksämäeltä kohti Joensuuta. Vielä hetken on Pohjois-Karjalan maakuntakeskus tavoitettavissa junaillen; maaliskuun 2016 jälkeen sinne ei enää pääse Tampereelta Jyväskylän ja Pieksämäen kautta. Käsillä olivat siis viimeiset hetket vierailla junantuomana Pielisjoen suulle asettuneessa kaupungissa.

Joensuun vierailun syynä olivat 22.–24.10.2015 järjestetyt Historiantutkimuksen päivät, jotka keräsivät kokoon Itä-Suomen yliopiston kampukselle noin 260 historioitsijaa Suomen kaikista historian laitoksista – ja kirsikkana kakun päällä yhden tietoarkistolaisen. Sessioita ja työryhmiä oli kolmen päivän aikana noin seitsemänkymmentä ja esitykset kattoivat aikakausia antiikista nykypäivään. Lisäksi ohjelmaan sisältyi kaksi keynote-luentoa sekä seurustelun ja verkostoitumisen mahdollistavia iltatilaisuuksia. Otolliset ainekset jossain vaiheessa yleensä iskevälle konferenssikoomalle olivat siis lupaavasti kasassa.

Tietoarkistolaisen näkökulmasta päiville osallistumisella oli selkeä tarkoitus: Digitaalisten tutkimusaineistojen avoimuuden ja jatkokäytön edistäminen ei ole vielä vakiintunut humanististen alojen tutkimuskäytöntöihin. Tietoarkiston laajentaessa palveluitaan humanistisille aloille tutkijoiden joukkoon jalkautuminen ja tutkimusaineistojen avoimuuden ilosanoman julistaminen ovat siten ensiarvoisen tärkeitä asioita. Parin päivän aikana käymistäni keskusteluista kävi kuitenkin selväksi, että historiantutkijat alkavat olla enenevässä määrin selvillä avoimen tieteen vaatimuksista tutkimusaineistojen suhteen, ja moni tuntui suhtautuvan asiaan pohjimmiltaan myönteisesti. Tutkimusrahoittajien, kuten Suomen Akatemian suositukset tutkimusaineistojen avaamisesta ovat vaikuttaneet ja vaikuttavat jatkossakin siihen, että tutkijat joutuvat aiempaa aktiivisemmin pohtimaan aineistojen arkistoimiseen ja jatkokäyttöön liittyvää tematiikkaa.

Niinä aikoina, kun en päivystänyt Tietoarkiston pöydän takana, kävin kuuntelemassa esityksiä. Sessioiden valintaan vaikuttivat omat intressini sekä tietoarkistolaisena että keskiajan taiteen tutkijana. Taidehistorian koulutuksen saaneena kuvien tutkijana minua kiinnosti kovasti kuulla, miten historioitsijat käsittelevät ja tutkivat visuaalista aineistoa. Valitsin siten ensimmäiseksi session, jossa käsiteltiin sosiaalisen median kuvamateriaalia, kotialbumien sota-ajan kuvia sekä SA-kuva-arkiston sotavalokuvia digitaalisen humanismin näkökulmasta. Historioitsijat ovat tyypillisesti tottuneet suuntaamaan analyyttisen katseensa ensisijaisesti kohti tekstejä, mutta visuaalinen aines on ehkä historian tutkimuksessa pikkuhiljaa liikahtamassa kuriositeetin tai kuvituksen roolistaan kohti tutkimuksellista keskiötä – tai ainakin sen liepeitä. Historian tutkijat ovat perinteisesti herkkiä kontekstille, ja tämä näkyi onneksi myös esityksissä, vaikka taiteen tutkimuksen näkökulmasta paljon on vielä opittavaa.

Nosteessa olevan digitaalisen humanismin tai tuttavallisemmin digihumanismin tuotteena luodaan usein erilaisia datan visualisointeja ja esimerkiksi esitellyn SA-kuva-arkiston sisällön analyysit olivat muuntuneet kuvapilven muotoon. Erilaiset kuvapilvet havainnollistivat tässä tapauksessa graafisesti eri valokuvien kuvateksteistä poimittujen käsitteiden merkitystä. Datan visualisointi on eittämättä kiinnostava ja havainnollistava tapa esittää kerättyä tietoa, mutta valokuviin liittyvien kuvatekstien muodostamat visualisoinnit nostavat väistämättä sanat merkityksellisempään asemaan kuin varsinaiset kuvat. Tekstintutkija ei tässä välttämättä näe mitään ongelmaa, kuvantutkija kylläkin.

Listalleni päätyi seuraavaksi perinteisempää historiantutkimuksen metodiikkaa kuten keskiajan ja uuden ajan lähdetutkimusta Turun tuomiokirkon Mustasta kirjasta voudintileihin ja Flemingien maakirjoihin. Suuri osa historiantutkijoiden työajasta kuluu edelleen kirjallisen lähdeaineiston analysointiin, eikä sen keskeisyys ole katoamassa. Itselleni kiinnostavaa oli kuulla muun muassa lähdeteoksissa käytetyn paperin vesileima-ajoituksista, joiden perusteella on mahdollista hahmottaa käsikirjojen alkuperäinen kokonaisuus sekä tehdä esimerkiksi melko tarkkoja ajoituksia sen suhteen, milloin jonkin tietyn käsikirjoituksen jokin osa on kirjoitettu tai kuinka monta kirjuria työtä on ollut tekemässä. Toisaalta perinteinen lähdetutkimus voi nykyään kiinnittyä luontevasti digitaaliseen alustaan ja muuntua tietokannaksi, kuten digihumanismin ja perinteikkään historiantutkimuksen ristipaineessa tempoileva voudintilien tutkija aprikoi.

Tässä yhteydessä mainittiin myös itselleni aikaisemmin tuntematon termi ”small big data”, joka viittaa määrällisesti pieneen mutta luonteeltaan ”suureen” dataan, siis eräänlaiseen big datan miniversioon. Puhe big datasta sisältää usein eräänlaisen eeppisen mittasuhteen; määritelläänhän se tyypillisesti valtavista, osin järjestäytymättömistä ja jatkuvasti lisääntyvistä tietomassoista koostuvaksi datamassaksi. Tiedonkeruun kannalta yksittäinen tutkija voi tuntea kauhua määrällisesti valtaisan ja alati laajentuvan tietovarannon kanssa, joten lienee tarpeen pilkkoa käsitettä pienempiin ja paremmin hallittaviin kokonaisuuksiin.

Viimeinen sessio, johon minun oli mahdollista osallistua, käsitteli historiantutkimuksen sähköisiä tutkimusinfrastruktuureja. Esitykset keskittyivät Kansallisarkiston erilaisiin sähköisiin palveluihin, erityisesti digitoitujen karttojen paikkatietojärjestelmän kehittämiseen, heraldisten kokoelmien tietokannan luomiseen ja Suomen keskiajan käsikirjoitusten sähköisen kokoelmatietokannan, Diplomatarium Fennicumin kehittämiseen. Näiden erilaisten sähköisten palvelujen kehittäminen on osa Kansallisarkiston laajempaa tutkimuspalvelustrategiaa, jonka avulla pyritään paremmin vastaamaan erilaisten käyttäjien toiveisiin.

Kuulemieni esitysten perusteella historiantutkimuksen nykytilasta jäi ehkä päällimmäisenä pinnalle digitalisaation haasteet ja sen mukanaan tuomat uudet sovellukset, joita hyödyntämällä tieteenalan on mahdollista suunnata hyvinkin kiinnostaville urille – unohtamatta kuitenkaan perusydintään, lähdekriittistä ja kontekstiherkkää tutkimusotetta.

Historiantutkimuksen päivistä muualla blogosfäärissä:
» Kaisa Kyläkoski: Historiantutkimuksen päivät
» Susanna Ånäs: Olemmeko kaikki historioitsijoita?
» Maria Lähteenmäki: Minne menet historiantutkijoiden ammattikunta tekno-oligarkkien paineen alla?

Lisätietoa:
» SA-kuva-arkisto
» Historiantutkimuksen päivät 2015

Katja Fält
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi

Sähköistä säilyttämistä ja sporttista tunnelmaa Dublinissa

Gaelilaisten urheilulajien suorituspaikka, Dublinin Croke Park –stadion saattaa aluksi tuntua melko erikoiselta paikalta järjestää digitaaliseen säilyttämiseen keskittyvä konferenssi. Onko tauoilla kenties tarkoitus pelata hurlingia tai gaelilaista käsipalloa? Pitääkö varoa, ettei joudu lounasjonossa taklatuksi? Nämä huolet osoittautuivat turhiksi, sillä sporttisesta ympäristöstään huolimatta kesäkuun lopulla stadionilla järjestetyssä The 1st Annual Conference on Digital Preservation for the Arts, Social Sciences and Humanities –konferenssissa (DPASSH) ei tarvinnut pelätä, että hiki nousisi pintaan ainakaan liikkumisesta. Ainoat lihaksetkin, jotka rasittuivat, olivat lähinnä istumalihaksia, sillä kaksipäiväisen konferenssin ohjelma oli tiivis.

Konferenssin tarkoituksena oli keskittyä erityisesti sellaisiin digitaalisen säilyttämisen haasteisiin, jotka ovat tyypillisiä humanistisille ja yhteiskuntatieteellisille aloille sekä taiteen tutkimukselle. Sen sponsorina toimi The Digital Repository of Ireland (DRI), joka oli näkyvässä roolissa koko konferenssin ajan. DRI on kansallinen infrastruktuuri, joka pyrkii säilyttämään, hoitamaan ja välittämään Irlannin kulttuuriperintöaineistoja sekä humanistista ja yhteiskuntatieteellistä dataa. Säilyttämisperiaate nousee aivan uuteen valoon, kun otetaan huomioon, että vuonna 1922 sisällissodan melskeissä tapahtunut asiakirja-arkiston (The Public Record Office of Ireland) tulipalo tuhosi suurimman osan Irlannin historiallisesta asiakirja-aineistosta 1200-luvun taitteesta vuoteen 1922. DRI:n tarkoituksena onkin kootusti kerätä yhteen olemassa olevat historian ja nykypäivän tietoaineistot tutkimuksen, opiskelun ja suuren yleisön saataville. DRI:lle on lisäksi heinäkuun alussa myönnetty arvostettu Data Seal of Approval –sertifikaatti, joka myönnetään organisaatioille, jotka säilyttävät sähköisiä aineistoja luotettavasti sekä mahdollistavat niiden jatkokäytön.

Konferenssin osallistujalista oli melko irlantilaisvoittoinen, mutta ilokseni mukaan oli eksynyt myös pohjoismainen kollega, Ruotsin tietoarkiston eli SND:n kieliaineistoista vastaava Caspar Jordan. Myös CSC oli lähettänyt paikalle KDK-PAS-hankkeen (Kansallinen Digitaalinen Kirjasto – Pitkäaikaissäilytys) kehitystyössä mukana olleen it-puolen edustajan. KDK:n perusideahan on hyvin samankaltainen kuin DRI:n, toisin sanoen digitaalisten kulttuuriperintöaineistojen keskitetyn pitkäaikaissäilytyspalvelun suunnittelu ja toteuttaminen.

Konferenssin punaisena lankana toimikin huoli ja vastuu valtavien aineistomassojen säilymisestä ja säilyttämisestä. Kun jo puhtaasti analogista historiallista, taiteellista, yhteiskuntatieteellistä ja kulttuuriperintöön liittyvää aineistoa on valmiina kilometrikaupalla, tuo omat haasteensa nykyinen digitaalinen aika, joka tuottaa jatkuvalla syötöllä valtavia, yli ymmärryksen käyviä aineistomassoja. Osa esityksistä pohdiskelikin erityisesti sitä, miten sovittaa analogiset aineistot digitaalisiin työnkulkuihin. Toisaalta taas osa esityksistä keskittyi nimenomaisesti jatkuvasti tuotettuun digitaaliseen materiaaliin ja sen mielekkääseen säilyttämiseen. Kuinka alati karttuvaa aineistoa (esimerkiksi Facebookissa, Twitterissä, e-lehdissä, jne.) saa talteen sitä vauhtia kuin sitä tuotetaan ja onko kaiken säilyttäminen ylipäätään mielekästä? Nykyisen digitalisoitumisen myötä erilaiset aineistot ovat lisäksi varsin hyvin saatavilla, mutta haasteita luo niiden pitkäaikaissäilytyksen turvaaminen, omistajuuteen niveltyvät kysymykset tai teknisiin ratkaisuihin liittyvät seikat.

Pääosassa olivat aineistot ja sisällöt, paikoin myös teoreettiset lähestymistavat tai aineiston hallinnan kysymykset. Melko monen esityksenpitäjän taustaorganisaatio tai projekti oli sellainen, jossa arkistoinnin lisäksi myös aktiivisesti digitoidaan aineistoja. Erilaisten esimerkkitapausten avulla avattiin sisällöllisiä ja käytännöllisiä ratkaisuja säilyttämiskysymyksiin. Muuan esitys viihdytti yleisöä esittelemällä varhaisen, 1990-lopun online-taideprojektin, The Bono Probability Positioning Systemin, joka toimi eräällä tapaa Google Street View -sovelluksen edeltäjänä. Sen ideana oli liittää erinäisiin Dublinin karttakohteisiin todennäköisyyslaskelma siitä, miten suurella todennäköisyydellä paikassa saattoi törmätä U2-yhtyeen nokkamieheen Bonoon. Projekti oli kieli poskessa luotu ja todennäköisyyslaskelmat täysin hatusta temmattuja. Projekti toimi kuitenkin hyvänä esimerkkinä siitä, millaisia haasteita on pyrkimyksessä säilyttää vanhempaa nettiin luotua digitaalista sisältöä, jota ei alun perin ole ajateltu säilytettäväksi. Perinteisempää ja arkistoalalle tyypillisempiä ongelmia pohdittiin muun muassa esityksissä, jossa esiteltiin arkaluontoiseen aineistoon liittyviä eettisiä ongelmia tai metadatan käsittelyä.

Kodikasta humanistihenkeä ja yhdessä tekemisen ilosanomaa huokunut konferenssi oli leppoisa kokemus, joka kuitenkin tarjosi melko monipuolisen kattauksen digitaalisten aineistojen kirjavaan maailmaan. Konferenssin irlantilaiset järjestäjät toivoivatkin, että DPASSH muodostuisi jokavuotiseksi. Tämän toiveen allekirjoitan mielihyvin.

Lisätietoa:
» DPASSH 2015
» The Digital Repository of Ireland
» The Bono Probability Positioning System

Katja Fält
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi

Sähköistä säilyttämistä ja sporttista tunnelmaa Dublinissa

Gaelilaisten urheilulajien suorituspaikka, Dublinin Croke Park –stadion saattaa aluksi tuntua melko erikoiselta paikalta järjestää digitaaliseen säilyttämiseen keskittyvä konferenssi. Onko tauoilla kenties tarkoitus pelata hurlingia tai gaelilaista käsipalloa? Pitääkö varoa, ettei joudu lounasjonossa taklatuksi? Nämä huolet osoittautuivat turhiksi, sillä sporttisesta ympäristöstään huolimatta kesäkuun lopulla stadionilla järjestetyssä The 1st Annual Conference on Digital Preservation for the Arts, Social Sciences and Humanities –konferenssissa (DPASSH) ei tarvinnut pelätä, että hiki nousisi pintaan ainakaan liikkumisesta. Ainoat lihaksetkin, jotka rasittuivat, olivat lähinnä istumalihaksia, sillä kaksipäiväisen konferenssin ohjelma oli tiivis.

Konferenssin tarkoituksena oli keskittyä erityisesti sellaisiin digitaalisen säilyttämisen haasteisiin, jotka ovat tyypillisiä humanistisille ja yhteiskuntatieteellisille aloille sekä taiteen tutkimukselle. Sen sponsorina toimi The Digital Repository of Ireland (DRI), joka oli näkyvässä roolissa koko konferenssin ajan. DRI on kansallinen infrastruktuuri, joka pyrkii säilyttämään, hoitamaan ja välittämään Irlannin kulttuuriperintöaineistoja sekä humanistista ja yhteiskuntatieteellistä dataa. Säilyttämisperiaate nousee aivan uuteen valoon, kun otetaan huomioon, että vuonna 1922 sisällissodan melskeissä tapahtunut asiakirja-arkiston (The Public Record Office of Ireland) tulipalo tuhosi suurimman osan Irlannin historiallisesta asiakirja-aineistosta 1200-luvun taitteesta vuoteen 1922. DRI:n tarkoituksena onkin kootusti kerätä yhteen olemassa olevat historian ja nykypäivän tietoaineistot tutkimuksen, opiskelun ja suuren yleisön saataville. DRI:lle on lisäksi heinäkuun alussa myönnetty arvostettu Data Seal of Approval –sertifikaatti, joka myönnetään organisaatioille, jotka säilyttävät sähköisiä aineistoja luotettavasti sekä mahdollistavat niiden jatkokäytön.

Konferenssin osallistujalista oli melko irlantilaisvoittoinen, mutta ilokseni mukaan oli eksynyt myös pohjoismainen kollega, Ruotsin tietoarkiston eli SND:n kieliaineistoista vastaava Caspar Jordan. Myös CSC oli lähettänyt paikalle KDK-PAS-hankkeen (Kansallinen Digitaalinen Kirjasto – Pitkäaikaissäilytys) kehitystyössä mukana olleen it-puolen edustajan. KDK:n perusideahan on hyvin samankaltainen kuin DRI:n, toisin sanoen digitaalisten kulttuuriperintöaineistojen keskitetyn pitkäaikaissäilytyspalvelun suunnittelu ja toteuttaminen.

Konferenssin punaisena lankana toimikin huoli ja vastuu valtavien aineistomassojen säilymisestä ja säilyttämisestä. Kun jo puhtaasti analogista historiallista, taiteellista, yhteiskuntatieteellistä ja kulttuuriperintöön liittyvää aineistoa on valmiina kilometrikaupalla, tuo omat haasteensa nykyinen digitaalinen aika, joka tuottaa jatkuvalla syötöllä valtavia, yli ymmärryksen käyviä aineistomassoja. Osa esityksistä pohdiskelikin erityisesti sitä, miten sovittaa analogiset aineistot digitaalisiin työnkulkuihin. Toisaalta taas osa esityksistä keskittyi nimenomaisesti jatkuvasti tuotettuun digitaaliseen materiaaliin ja sen mielekkääseen säilyttämiseen. Kuinka alati karttuvaa aineistoa (esimerkiksi Facebookissa, Twitterissä, e-lehdissä, jne.) saa talteen sitä vauhtia kuin sitä tuotetaan ja onko kaiken säilyttäminen ylipäätään mielekästä? Nykyisen digitalisoitumisen myötä erilaiset aineistot ovat lisäksi varsin hyvin saatavilla, mutta haasteita luo niiden pitkäaikaissäilytyksen turvaaminen, omistajuuteen niveltyvät kysymykset tai teknisiin ratkaisuihin liittyvät seikat.

Pääosassa olivat aineistot ja sisällöt, paikoin myös teoreettiset lähestymistavat tai aineiston hallinnan kysymykset. Melko monen esityksenpitäjän taustaorganisaatio tai projekti oli sellainen, jossa arkistoinnin lisäksi myös aktiivisesti digitoidaan aineistoja. Erilaisten esimerkkitapausten avulla avattiin sisällöllisiä ja käytännöllisiä ratkaisuja säilyttämiskysymyksiin. Muuan esitys viihdytti yleisöä esittelemällä varhaisen, 1990-lopun online-taideprojektin, The Bono Probability Positioning Systemin, joka toimi eräällä tapaa Google Street View -sovelluksen edeltäjänä. Sen ideana oli liittää erinäisiin Dublinin karttakohteisiin todennäköisyyslaskelma siitä, miten suurella todennäköisyydellä paikassa saattoi törmätä U2-yhtyeen nokkamieheen Bonoon. Projekti oli kieli poskessa luotu ja todennäköisyyslaskelmat täysin hatusta temmattuja. Projekti toimi kuitenkin hyvänä esimerkkinä siitä, millaisia haasteita on pyrkimyksessä säilyttää vanhempaa nettiin luotua digitaalista sisältöä, jota ei alun perin ole ajateltu säilytettäväksi. Perinteisempää ja arkistoalalle tyypillisempiä ongelmia pohdittiin muun muassa esityksissä, jossa esiteltiin arkaluontoiseen aineistoon liittyviä eettisiä ongelmia tai metadatan käsittelyä.

Kodikasta humanistihenkeä ja yhdessä tekemisen ilosanomaa huokunut konferenssi oli leppoisa kokemus, joka kuitenkin tarjosi melko monipuolisen kattauksen digitaalisten aineistojen kirjavaan maailmaan. Konferenssin irlantilaiset järjestäjät toivoivatkin, että DPASSH muodostuisi jokavuotiseksi. Tämän toiveen allekirjoitan mielihyvin.

Lisätietoa:
» DPASSH 2015
» The Digital Repository of Ireland
» The Bono Probability Positioning System

Katja Fält
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi

Laadulliset aineistot saivat IASSIST-konferenssissa aiempaa enemmän huomiota

IASSIST (International Association of Social Science Information Service & Technology) on yhteiskuntatieteellistä tutkimusta tukevien yksiköiden, kuten tietoarkistojen ja datakirjastojen, työntekijöiden kansainvälinen järjestö. Sen tärkein toimintamuoto on vuosittain järjestettävä kansainvälinen konferenssi. Tänä vuonna konferenssi järjestettiin Yhdysvaltojen Minneapolisissa kesäkuun ensimmäisellä viikolla. Konferenssiin osallistui myös neljä tietoarkistolaista.

Neljä päivää kestänyt konferenssi tarjosi runsaasti kiinnostavia aihepiiriin liittyviä luentoja ja työpajoja. Työpajat oli sijoitettu tapahtuman ensimmäiselle päivälle tiistaille. Loput kolme päivää oli pyhitetty luennoille ja paneelikeskusteluille. Kymmenestä valittavana olleesta työpajasta osallistuin itse kahteen, jotka molemmat liittyivät laadullisten aineistojen käsittelyyn. Perinteisesti laadulliset aineistot ovat saaneet IASSIST-konferensseissa selvästi kvantitatiivisia sisariaan vähemmän näkyvyyttä, joten kaksi erityisesti kvalitatiivisiin aineistoihin keskittyvää työpajaa olivat tervetullut uudistus.

Työpajoista ensimmäisessä tutustuttiin laadullisten aineistojen analysointityökaluun NVivoon (Using NVivo 10 for Qualitative Data Analysis). Vaikka työkalun perusajatus olikin monelle osallistujalle jo ennestään tuttu, sai kurssilta hyviä vinkkejä NVivon erilaisista käyttömahdollisuuksista. Työpajassa NVivoa lähestyttiin nimenomaan käytännön tasolla. Jokainen osallistuja sai koodata testiaineistoja ja kokeilla ohjelman tarjoamia työkaluja aineistojen analysoinnin helpottamiseksi.

Toinen työpaja käsitteli laadullisten aineistojen arkistoinnin ja jatkokäytön erityispiirteitä (Managing and Sharing Qualitative Data). Tutun aihepiirin teki työpajassa kiinnostavaksi muun muassa se, että sen järjesti yhdysvaltalaiseen Syracusen yliopistoon vasta hiljattain perustettu laadullisten arkistointiin erikoistunut Qualitative Data Repository (QDR).

Työpajan keskusteluissa sain huomata, että laadullisten aineistojen arkistoimisen haasteet ovat samoja maasta ja maanosasta riippumatta. Nämä haasteet liittyvät usein esimerkiksi tutkimuseettisiin ja tekijänoikeuskysymyksiin, arkistointia hankaloittavaan lainsäädäntöön sekä tutkijoiden haluttomuuteen luovuttaa keräämänsä, ja usein kovin henkilökohtaisina pitämänsä, tutkimusaineistot jatkokäyttöön. Kävikin varsin selväksi, että niin esimerkiksi Yhdysvaltojen, Euroopan kuin Afrikankin data-arkistoissa arkistotyöntekijät saavat vakuutella aineistoja kerääviä tutkijoita arkistoinnin hyödyistä ja hälventää aineistojen arkistointiin liittyviä epäluuloja.

Positiivisena muutoksena työpajan osallistujat kertoivat havainneensa sen, että kun aikaisemmin tutkijat tulivat ensimmäisen kerran kysymään arkistointiin liittyviä neuvoja vasta aineistot kerättyään, ottavat he nykyään arkistointimahdollisuuden huomioon yhä useammin jo aineistonhallintasuunnitelmaa laatiessaan. Tämä mahdollistaa sen, että tutkittavilta voidaan pyytää asianmukainen suostumus aineiston arkistointiin jo aineistoa kerättäessä.

IASSISTin varsinaiset luentosessiot oli jaettu teemansa perusteella kolmeen eri ryhmään. Tämä auttoi runsaudenpulasta kärsiviä konferenssiosallistujia valitsemaan monista päällekkäisistä sessioista itselle sopivimmat sen perusteella, kiinnostivatko häntä aineistonhallintaan liittyvät kysymykset, aineistopalvelujen ammatillinen kehittäminen vai datainfrastruktuuri ja -sovellukset. Itse osallistuin pääasiassa kahden ensimmäisen ryhmän luentosessioihin.

Luennot vahvistivat jo työpajassa tekemääni havaintoa siitä, että tutkimusaineistojen arkistointiin liittyvät kysymykset ovat pitkälti samanlaisia maasta ja arkistosta riippumatta. IASSIST tarjoaakin hienon tilaisuuden keskustella yhteisistä haasteista ja kehityssuunnista eri maista tulevien saman alan asiantuntijoiden kanssa. Samalla se tarjoaa vuosittain hyvän katsauksen siitä, mihin suuntaan eri maiden data-arkistot ovat kehittäneet toimintaansa ja palvelujansa edellisen vuoden aikana.

Ammatillisen verkostoitumismahdollisuuden lisäämiseksi IASSIST-konferenssiin kuuluu myös vapaamuotoisempaa ohjelmaa, kuten perinteinen ensimmäisen konferenssipäivän iltavastaanotto. Tällä kertaa vastaanotto järjestettiin Frank Gehryn suunnittelemassa upeassa Weisman Art Museumissa. Vastaanoton ohella perinteisesti yksi IASSISTin odotetuimpia tilaisuuksia varsinaisen konferenssiohjelman ulkopuolella on torstai-illan juhlaillallinen, jossa kansainvälisiä arkistokuulumisia voi vaihtaa hyvän ruoan ja juoman parissa.

IASSIST tarjosi siis jälleen kerran kattavan paketin tutkimusaineistojen arkistointiin ja jatkokäyttöön liittyviä näkökulmia. Seuraavan kerran IASSIST järjestetään Norjan Bergenissä touko-kesäkuun vaihteessa vuonna 2016. Osallistumista voin suositella kaikille tutkimusaineistojen arkistoinnin parissa työskenteleville, tieteenalaan katsomatta.

Lisätietoa:
» IASSIST
» IASSIST 2015 -konferenssi
» NVivo
» Qualitative Data Repository

Jarkko Päivärinta
tietopalveluasiantuntija
etunimi.sukunimi [at] uta.fi