Tag Archives: datanhallinta

Tulevaisuuden vaihtoehdot suurten datamäärien käsittelyyn: DRAS-TIC ja Brown Dog

Suuret datamassat ja niiden tarjoamat mahdollisuudet ja haasteet liitetään yleensä suurten internetjättien, kuten Googlen tai Amazonin, keräämään dataan. Mutta mielenkiintoisia laajoja datoja löytyy myös useiden arkistojen hallusta. Niiden käsittely on kuitenkin hankalaa ja riskinä on, että mahdollisuudet jäävät hyödyntämättä ja käteen jäävät vain haasteet.

Tietomassat ja formaattivelka haasteina

Ensimmäisenä haasteena vastaan tulee todennäköisesti varantojen skaalautuminen. Eli miten infra pysyy perässä, kun tiedostomäärät kasvavat dramaattisesti. Toinen haaste on formaattivelka. Formaattivelalla tarkoitetaan sitä työmäärää tai rahasummaa, joka tulevaisuudessa joudutaan käyttämään tiedostojen jatkokäyttämiseen, kun niiden lukeminen ja prosessointi on muuttunut vaikeaksi tai mahdottomaksi teknologian vanhenemisen myötä. Jos aineistoja hallinoivat tahot eivät aktiivisesti ota huomioon pitkäaikaissäilytystä, ne kerryttävät itselleen hyvin todennäköisesti formaattivelkaa.

Osallistuin helmikuussa Barcelonassa IDCC18-konferenssiin, joka on digitaalisten aineistojen kuratointiin erikoistunut vuosittainen tapahtuma. Konferenssissa Marylandin yliopiston Digital Curation Innovation Centerin johtaja Richard Marciano esitteli näihin ongelmiin vastaavaa kahta eri teknologiapakettia: DRAS-TIC:ia (Digital Repository at Scale that Invites Computation) ja Brown Dogia.

Skaalautuvat tietovarannot

DRAS-TIC on avoimen lähdekoodin horisontaalisesti skaalautuva varanto, jonka ei pitäisi kärsiä lainkaan tiedostomäärän kasvusta – jos kehittäjien mainospuheita on uskominen. Luonnollisesti palvelun ylläpitäjän täytyy pystyä kasvattamaan taustalla pyörivien palvelinten määrää. Akronyymihirviön mielenkiintoisin osa on ”that Invites Computation”, eli DRAS-TIC varannot on viritetty valmiiksi laskennallista arkistointia (computational archival science) varten, mikä tekee datasta löydettävämpää ja mahdollistaa uuden tiedon johtamisen helpommin jo olemassa olevista aineistoista.

Formaattimuutoksiin uusia työkaluja

Brown Dog on avoimen lähdekoodin työkalukokoelma, jolla prosessoidaan tiedostoja. Sen ydintoiminnot ovat tiedostojen muuntaminen formaatista toiseen ja metadatan kerääminen ja sijoittaminen hakuindeksiin. Formaattimuunnokset toteutetaan erilaisilla muuntimilla, joita tällä hetkellä on Brown Dogin työkalukatalogiin listattuna yhteensä 30.

Brown Dog -esittelyvideo

Ideana on ketjuttaa formaattimuunnoksia erilaisiksi poluiksi. Marcianon käyttämässä esimerkissä käyttäjä lähettää järjestelmään PSD 2.0 tiedoston, joka on tarkoitus muuntaa nykylaitteille sopivampaan muotoon. PSD 2.0 on vuoden 1991 PhotoShop 2.0:n työtiedostoformaatti, joten sen käsittely nykylaitteilla olisi todennäköisesti vähintäänkin hankalaa. Muuntamisen Brown Dog aloittaa käyttämällä Windows 3.0 virtuaalikonetta, johon on asennettu PhotoShop 2.0. PSD muunnetaan ensin TIFF:iksi, joka syötetään Docker-kontissa pyörivälle Linux-koneelle, ja se muuttaa kuvan ImageMagik-muuntimella JPEG 2000 -formaattiin. Esimerkissä polku on lineaarinen, mutta mikään ei estä haaroittamasta polkua ja tekemästä useita rinnakkaisia muunnoksia.

Metadatan kerääminen tiedostoista

Näillä kahdella työkalulla tiedostoista voidaan myös haravoida erilaista metadataa ja näin kartoittaa syntyvää tiedostovarantoa. Esimerkkinä voidaan käyttää tavallisen PDF-tiedoston tallettamista DRAS-TIC:ia ja Brown Dogia hyödyntävään varantoon.

Tallennus tapahtuu vaiheittain:

  1. PDF-tiedosto lähetetään tiedostovarantoon, jolloin siitä kerätään talteen tiedoston nimi, koko ja sijainti tiedostovarannossa.
  2. Tiedostosta otetaan irti sen PDF-versionumero.
  3. Tiedostosta otetaan erilleen tekstisisältö.
  4. PDF-tiedoston sisältämät kuvat skannataan tekstisisällön varalta OCR-ohjelmalla (Optical Character Recognition). Lisäksi muilla kuva-analyysityökaluilla kerätään esimerkiksi tiedot siitä, kuinka monta ihmistä kuvissa esiintyy ja minkälaisissa ympäristöissä he ovat.

Näin yhdestä PDF-tiedostosta on kerätty kohtuullisen suuri määrä metadataa, ja kun kaikki tämä metadata indeksoidaan hakuindeksiin, on tiedosto ja sen eri osat helposti löydettävissä usealla eri tavalla.

Brown Dogissa on panostettu siihen, että se on tarvittaessa laajennettavissa omilla työkaluilla, jotka voidaan sovittaa johonkin tiettyyn tehtävään. Jos esimerkiksi tiedostojen tekstisisällöt halutaan avainsanoittaa ja visualisoida varantoa niiden perusteella, voidaan nämä työvaiheet lisätä Brown Dogiin omilla työkaluilla. Näin eri tahot voivat kehittää omiin tarkoituksiinsa sopivan työvuon.

Brown Dog ja DRAS-TIC ovat vielä kehitysvaiheessa, joten aika näyttää, mitä niille lopulta käy. Onnistuessaan ne loisivat mielenkiintoisen pohjan suurten datavarantojen hallintaan ja laskennallisen arkistoinnin soveltamiseen.

Lisätietoa:

» Marciano et al., esitysdiat IDCC2018-konferenssista: Building Open‐Source Digital Curation Services & Repositories at Scale
» CNI Fall 2016 Project Briefings: DRASTIC Measures: Digital Repository at Scale that Invites Computation (To Improve Collections)
» NSCA Brown Dog
» 13th International Digital Curation Conference (IDCC)

Valtteri Kostiainen
sovelluskehittäjä
etunimi.sukunimi [at] uta.fi

Let There Be Digital Preservation – A View from the Data Archive

For the most part, November 6 this year was just an ordinary day. What was different about it was a tiny SIP1, neatly wrapped in a METS2-container that digitally travelled from the Finnish Social Science Data Archive to the National Long Term Digital Preservation Service.

Confused? No worries. So were we a number of times before we got this far. Taking our digital preservation to the level described above required planning and hard work from both research data curators and programmers. In addition to simply preserving bits in a reliable way, we aim to make sure that the digital objects are also understandable by humans and machines in the future. This requires collecting metadata, harmonising file formats, managing versions, and preparing for the change.

I have often said that preserving digital research data is like preserving a moving train. You cannot stop it. If you do, you are not preserving a moving train anymore, only a snapshot. There is a lot to preserve and it may hit you hard, and a lot quicker than you think. The train also has different cars – one can add more, or take some away. Like file formats, cars are different too – from passenger cars to freight cars. There are containers, with hundreds of objects. You need to know what is in each one, and who should have access to those. Some cars contain goods, some people. While goods may last for a long time, people need to be refreshed regularly or they will not survive the journey.

The long road to preservation is paved with obstacles and opportunities

The train analogy should show that digital preservation is an active duty. You cannot put a lid on it and wait until someone asks what is in the box. Because by then, you do not know anymore. Everyone in the preservation business recognises this. At the Data Archive, we preserve research data for long-term access. That means that we actively keep on adding new information too. We make the metadata better, we may find errors in the data and fix them, or at very least we add information on where the data has been used. Moving train, remember!

Since 2008, we have been involved in building a national digital preservation solution for cultural heritage materials and research data. For our purposes, a secure, highly reliable document store is a crucial element for building a sustainable and scalable long-term preservation solution. It will add an additional preservation layer for the data we keep for our users. In a country about the size of Finland, it is feasible to provide a preservation platform nationally to a number of organisations.

We started piloting the service in 2015 and in November we finally transferred out first packages to the preservation service. It has been a long road. We have yet to pop the sparkling wine since there are a number of short-term goals to address. Piloting a service means that there have been moments when the envisioned services are not yet fully operational, specifications need tweaking before one can proceed, or something has simply appeared out of the blue.

Tools are needed to handle the data deluge

The greatest benefit of the exercise thus far has been the internal harmonisation of file formats and data processing workflows. The Data Archive has been around since 1999. While that is a relatively short time, it is a lifetime for many file formats or their versions. We have combed through the most – about 50 000 files – and defined what will be preserved and what are the acceptable file formats. While this is good, it is crystal clear that a constant technology watch is needed in the future. It is also apparent that very soon the magnitude of this will get out of hand. We cannot manually keep an eye on all files, versions and processes.

Therefore, we have built a specific data processing pipeline. It is a collection of tools that fulfil the requirements of the National Long Term Digital Preservation Service specification. It has individual parts that are responsible of standardising the character sets of all files to UTF-8, combining technical metadata with study level metadata, and creating a METS document as well as creating a submission information packet (SIP), and sending it to the preservation service provider.

Commit to constantly challenge the current practices

It is often the case that the ideal format for digital preservation may not be ideal for scientific use. This is no new dilemma. We need to carefully assess not only the formats and their feasibility for digital preservation, but also the costs of maintaining the system of archive formats and actively used formats. Any organisation that joins the national digital preservation service must have an interest in challenging the current best practises and bringing their specific user perspective into the discussion. Because in the end, everything is kept for future use, not for storage only.

The other corner stone is commitment. Once you start with digital preservation, you cannot easily stop. It means the knowhow and resources need to be there in the future too. We believe that a national solution will be beneficial for us. We are able to transfer some of our knowhow requirements to the digital preservation specialists, and focus on serving researchers better. However, we do need to keep monitoring the specialists’ performance like our own. Any outsourced activity in the digital preservation chain cannot be the weakest link. Therefore, further standardisation and auditing are crucial steps in the future.

Notes:
1 Submission Information Package (Information sent from the producer to the preservation service)
2 The Metadata Encoding and Transmission Standard (METS) (Container format and metadata standard for encoding descriptive, administrative, and structural metadata regarding objects)

Why today?
» This year, the first ever International Digital Preservation Day on 30th November 2017 will draw together individuals and institutions from across the world to celebrate the collections preserved, the access maintained and the understanding fostered by preserving digital materials. The aim of the day is to create greater awareness of digital preservation that will translate into a wider understanding which permeates all aspects of society – business, policy making, personal good practice.

Further reading:
» The National Digital Library – Digital Preservation
» Digital Preservation Solution for Research Data (PAS)

Tuomas J. Alaterä
IT Services Specialist
firstname.surname [at] uta.fi

Tutkimusdatan hallinnan asiantuntijapalvelut edellyttävät koulutuksen vahvistamista

Tietoarkisto järjesti joulukuun 2014 alussa seminaarin erityisesti kirjastoasiantuntijoille. Otsikkona oli Avoin tutkimusdata ja aineistonhallinta ihmistieteissä. Päivän tavoitteita olivat yleiskuva tutkimusrahoittajien ja -organisaatioiden tutkimusdatapolitiikoista Suomessa sekä perehtyminen tutkimusaineistojen hallintaan ja sen valtakunnallisiin tuki-infrastruktuureihin.

Kiinnostusta piisasi ja keskustelua heräsi. Onhan akateemisilla kirjastoilla jo orastava rooli myös datanhallinnan tietopalveluissa. Esimerkiksi Helsingin yliopiston tulevan tutkimusdatapolitiikan toimeenpanosuunnitelmissa yliopistokirjastolle on kaavailtu keskeisiä tehtäviä.

Väkeä tuli seminaariin mukaan hyvin eri yliopistoista ja paikalla oli kuutisenkymmentä asiantuntijaa. Uskoakseni osallistujat myös saivat mitä olivat tulleet hakemaan. Seminaaritallenteisiin ja esitysten dioihin voi tutustua seminaarisivustolla.

Jatkan tässä kirjoituksessa pohdintaa datapalvelualan koulutustarpeista ja -mahdollisuuksista, joista keskusteltiin seminaarin päättäneessä paneelissa. Näkökannoissa korostuivat sekä tutkimusdatapalvelualan täydennyskoulutuksen että alan tutkintokoulutuksen vahvistamistarpeet.

Millaiset ovat tutkimusdatan hallinnan asiantuntijoiden koulutustarpeiden peruslähtökohdat? Alan koulutuksen sisällöt, tarjonnan kohdeyleisöt sekä vastuut ja työnjako ovat sidoksissa etenkin siihen, miten tutkimusdatan hallinta ja keskeiset tietopalvelut järjestetään eri organisaatioissa ja mikä on valtakunnallinen työnjako. Tässä on tilaa useille toimijoille – sekä palvelujen tuottamisessa että osaamista vahvistavassa koulutuksessa. Luultavasti datanhallinnan tukipalvelumallit tulevat kehittymään ajan mittaan ja vaihtelemaan organisaatioittain.

Yksi toimivimmista on malli, jossa valtakunnalliset tukipalvelut (Tietoarkisto, CSC, ja muut valtakunnallisesti keskitetyt toimijat) tarjoavat suurelta osin tutkimusdatan dokumentointi-, arkistointi-, pitkäaikaissäilytys- ja jatkokäyttöpalvelut sekä täsmällistä erityisasiantuntemusta vaativia aineistohallintapalveluja. Jossakin määrin tällaisia palveluja tulevat luultavasti organisoimaan myös suurimmat valtion asiantuntijaorganisaatiot, ainakin itselleen.

Tutkimusympäristöjen muuttuessa tarvitaan paljon muutakin asiantuntemusta. On hyvä, jos tutkija löytää lähitietopalvelut paikan päältä, esimerkiksi juuri kirjastosta tai muista paikallisista tutkimuksen tukipalveluista. Sekä yliopistojen että muiden tutkimusorganisaatioiden informaatiopalveluissa on nyt ja tulevaisuudessa tarvetta tietopalvelualan asiantuntijoille, jotka erikoistuvat tutkimusdatan hallinnan, elinkaaren ja saatavuuden edistämisen tukeen.

Yhdysvalloissa tällaisia ammattilaisia kuvataan esimerkiksi ammattinimikeellä ”data librarian” tai yleiskäsitteellä ”research data professional”. He auttavat tutkijoita paikallistamaan tutkimusongelmiin soveltuvia, olemassa olevia aineistoja sekä osaavat jakaa tietoa tutkimusrahoittajien ja tutkimuksen julkaisijoiden ehdoista ja suosituksista tutkimusdatan avaamisen suhteen. Lisäksi heidän tulee olla luonnollisesti perillä oman tutkimusorganisaation käytännöistä datan hallinnassa tutkimusprojektien aikana ja tutkimusaineistojen avaamisessa hankkeiden päätyttyä. Tämä tehtävä korostuu organisaatiokohtaisten tutkimusdatapolitiikkojen yleistyessä.

Suomessa on akuutti tarve vahvistaa tutkimusdatapalveluihin erikoistuvien asiantuntijoiden koulutusta. Luonteva areena asian pikaiseen edistämiseen olisi yhteistyöfoorumi, jossa toimintaa voitaisiin suunnitella alustavasti ainakin alan valtakunnallisten tukipalvelujen ja kirjastoalan asiantuntijoiden ja heidän järjestöjensä ja verkostojensa voimin. Mukaan olisi hyvä saada myös informaatiotutkimuksen ja arkistoalan koulutuksen asiantuntijoita eri yliopistoista.

Missä tapaamme työpajan merkeissä vuonna 2015?

Lisätietoja:
» Seminaariesitysten diat ja AV-tallenteet

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Tutkimusdatan hallinnan asiantuntijapalvelut edellyttävät koulutuksen vahvistamista

Tietoarkisto järjesti joulukuun 2014 alussa seminaarin erityisesti kirjastoasiantuntijoille. Otsikkona oli Avoin tutkimusdata ja aineistonhallinta ihmistieteissä. Päivän tavoitteita olivat yleiskuva tutkimusrahoittajien ja -organisaatioiden tutkimusdatapolitiikoista Suomessa sekä perehtyminen tutkimusaineistojen hallintaan ja sen valtakunnallisiin tuki-infrastruktuureihin.

Kiinnostusta piisasi ja keskustelua heräsi. Onhan akateemisilla kirjastoilla jo orastava rooli myös datanhallinnan tietopalveluissa. Esimerkiksi Helsingin yliopiston tulevan tutkimusdatapolitiikan toimeenpanosuunnitelmissa yliopistokirjastolle on kaavailtu keskeisiä tehtäviä.

Väkeä tuli seminaariin mukaan hyvin eri yliopistoista ja paikalla oli kuutisenkymmentä asiantuntijaa. Uskoakseni osallistujat myös saivat mitä olivat tulleet hakemaan. Seminaaritallenteisiin ja esitysten dioihin voi tutustua seminaarisivustolla.

Jatkan tässä kirjoituksessa pohdintaa datapalvelualan koulutustarpeista ja -mahdollisuuksista, joista keskusteltiin seminaarin päättäneessä paneelissa. Näkökannoissa korostuivat sekä tutkimusdatapalvelualan täydennyskoulutuksen että alan tutkintokoulutuksen vahvistamistarpeet.

Millaiset ovat tutkimusdatan hallinnan asiantuntijoiden koulutustarpeiden peruslähtökohdat? Alan koulutuksen sisällöt, tarjonnan kohdeyleisöt sekä vastuut ja työnjako ovat sidoksissa etenkin siihen, miten tutkimusdatan hallinta ja keskeiset tietopalvelut järjestetään eri organisaatioissa ja mikä on valtakunnallinen työnjako. Tässä on tilaa useille toimijoille – sekä palvelujen tuottamisessa että osaamista vahvistavassa koulutuksessa. Luultavasti datanhallinnan tukipalvelumallit tulevat kehittymään ajan mittaan ja vaihtelemaan organisaatioittain.

Yksi toimivimmista on malli, jossa valtakunnalliset tukipalvelut (Tietoarkisto, CSC, ja muut valtakunnallisesti keskitetyt toimijat) tarjoavat suurelta osin tutkimusdatan dokumentointi-, arkistointi-, pitkäaikaissäilytys- ja jatkokäyttöpalvelut sekä täsmällistä erityisasiantuntemusta vaativia aineistohallintapalveluja. Jossakin määrin tällaisia palveluja tulevat luultavasti organisoimaan myös suurimmat valtion asiantuntijaorganisaatiot, ainakin itselleen.

Tutkimusympäristöjen muuttuessa tarvitaan paljon muutakin asiantuntemusta. On hyvä, jos tutkija löytää lähitietopalvelut paikan päältä, esimerkiksi juuri kirjastosta tai muista paikallisista tutkimuksen tukipalveluista. Sekä yliopistojen että muiden tutkimusorganisaatioiden informaatiopalveluissa on nyt ja tulevaisuudessa tarvetta tietopalvelualan asiantuntijoille, jotka erikoistuvat tutkimusdatan hallinnan, elinkaaren ja saatavuuden edistämisen tukeen.

Yhdysvalloissa tällaisia ammattilaisia kuvataan esimerkiksi ammattinimikeellä ”data librarian” tai yleiskäsitteellä ”research data professional”. He auttavat tutkijoita paikallistamaan tutkimusongelmiin soveltuvia, olemassa olevia aineistoja sekä osaavat jakaa tietoa tutkimusrahoittajien ja tutkimuksen julkaisijoiden ehdoista ja suosituksista tutkimusdatan avaamisen suhteen. Lisäksi heidän tulee olla luonnollisesti perillä oman tutkimusorganisaation käytännöistä datan hallinnassa tutkimusprojektien aikana ja tutkimusaineistojen avaamisessa hankkeiden päätyttyä. Tämä tehtävä korostuu organisaatiokohtaisten tutkimusdatapolitiikkojen yleistyessä.

Suomessa on akuutti tarve vahvistaa tutkimusdatapalveluihin erikoistuvien asiantuntijoiden koulutusta. Luonteva areena asian pikaiseen edistämiseen olisi yhteistyöfoorumi, jossa toimintaa voitaisiin suunnitella alustavasti ainakin alan valtakunnallisten tukipalvelujen ja kirjastoalan asiantuntijoiden ja heidän järjestöjensä ja verkostojensa voimin. Mukaan olisi hyvä saada myös informaatiotutkimuksen ja arkistoalan koulutuksen asiantuntijoita eri yliopistoista.

Missä tapaamme työpajan merkeissä vuonna 2015?

Lisätietoja:
» Seminaariesitysten diat ja AV-tallenteet

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

IFDO tutki tutkimusrahoittajien datasuosituksia

Olen toiminut viitisen vuotta pienen kansainvälisen järjestön puheenjohtajana. International Federation of Data Organizations eli IFDO on hiljattain toteuttanut hankkeen, jossa vertailtiin eri maiden keskeisten tutkimusrahoittajien datapolitiikkoja kulttuurin ja yhteiskunnan tutkimuksen aloilla. IFDOn suunnittelemaan hankkeeseen ja Vigdis Kvalheimin ja Trond Kvammen pääosin kirjoittamaan selvitysraporttiin voi tutustua IFDOn verkkosivuilla (www.ifdo.org).

Raportin tiedot koottiin enimmäkseen vuonna 2012. Alan asiantuntijoille suunnattiin verkkokysely, johon tuli vastauksia 32 maasta. Kunkin maan asiantuntija raportoi ja arvioi tilannetta oman maansa osalta. Vastaajat eivät olleet tutkimusrahoittajien edustajia vaan tutkittujen alojen datapalveluammattilaisia ja tutkijoita. Vastaajajoukko edustaa maita, jotka ovat tavalla tai toisella aktiivisesti mukana data-arkistoalan kansainvälisessä yhteistyössä tai osallistuvat laajoihin kansainvälisiin vertailututkimuksiin. Vastaajajoukossa ovat aliedustettuina tutkimusjärjestelmiltään kehittymättömimmät maat.

Yksityiskohtaisimmat tutkimusaineistojen avointa saatavuutta tukevat politiikkasuositukset löytyvät yleensä maista, joiden tutkimusinfrastruktuurit ovat tutkituista maista kehittyneimpiä. Tällaisia ovat Pohjois-Amerikan ja useat Länsi-Euroopan maat. Näidenkin kesken on tosin suuria eroavuuksia tutkimusdatan avoimuutta koskevissa tutkimusrahoittajien avoimuusohjeissa.

Isossa-Britanniassa keskeiset tutkimusrahoittajat ovat edellyttäneet jo pitkään rahoittamiltaan tutkimusprojekteilta, että ne tarjoavat kokoamansa tutkimusdatat hankkeen päätyttyä arkistoitavaksi alan kansalliseen data-arkistoon UKDAan. Samantyyppiseen ratkaisuun ovat päätyneet epäsuoremmin kehotuksin useat pohjoisamerikkalaiset tutkimusrahoittajat.

Suomessa Suomen Akatemia suosittaa mutta ei edellytä yhteiskuntatieteellisten aineistojen arkistointia Yhteiskuntatieteelliseen tietoarkistoon. Edistyksellistä Suomessa on vaatimus aineistonhallintasuunnitelmasta osana tutkimussuunnitelmaa. IFDOn kyselyn kattamista maista vain joka neljännessä maan keskeisin kulttuurin ja yhteiskunnan tutkimuksen alan tutkimusrahoittaja edellyttää aineistonhallintasuunnitelmaa (8/32).

Tutkituista maista noin kahdessa kolmesta tutkimusrahoittajat suosittivat jollakin tavalla uusien tutkimusdatojen avaamista tiedeyhteisön käyttöön hankkeiden päättymisen jälkeen. Vaatimattomimmillaan edellytys voi täyttyä, kun tutkimusryhmä varmistaa itse minimitasoisesti aineiston avaamisen ja jatkokäyttömahdollisuudet.

Kunnolliset jatkokäyttömahdollisuudet muodostuvat todennäköisimmin datan avaamisen kansainvälisiin toimintastandardeihin sitoutuneiden palveluyksikköjen tuella. Data-arkistopalvelujen käyttöä koskevia rahoittajien suosituksia tai edellytyksiä löytyi kuitenkin vain harvemmassa kuin joka toisessa tutkitussa maassa.

Yksi huolestuttavimmista havainnoista oli datan avoimuutta tukevien toimintaohjeiden ylimalkaisuus. Useimmiten tutkimusrahoittajien politiikkaohjeet eivät olleet vahvasti joitakin toimia edellyttäviä vaan ne olivat suosituksia. Lisäksi ne ottivat ani harvoin kantaa esimerkiksi kansainvälisten kuvailustandardien hyödyntämiseen tutkimusaineiston dokumentoinnissa. Nämä ovat aineistojen tietojen löydettävyyden ja datan informoidun jatkokäytön kannalta erittäin tärkeitä seikkoja.

IFDOn selvityksen yleiset johtopäätökset korostavat tarvetta muutokseen tutkimusrahoittajien datapolitiikoissa. Monista ja varsinkin tutkimatta jääneistä maista tutkimusdatan avoimuutta tukevat rahoittajapolitiikat puuttuvat kokonaan. Yleistymisestään huolimatta datapolitiikkojen puute koskee edelleen myös monia tutkimusjärjestelmiltään kehittyneimpiä maita.

Ensimmäisiä askeleita oikeaan suuntaan ovat tutkimusdatan avaamista tukevien infrastruktuurien perustaminen ja vahvistaminen sekä tällaisten tukipalvelujen käyttöä korostavien datapolitiikkojen käyttöönotto.

Raportin toinen pääsuositus koskee politiikkasuositusten sisältöä. Yleisluonteisuuden sijasta tutkimusrahoittajien politiikkaohjeiden tulisi osoittaa nykyistä täsmällisemmin se, milloin, minne ja miten tutkimusaineistot arkistoidaan avoimeen käyttöön tutkimushankkeiden päättymisen jälkeen. Tätä tavoitetta tukisivat esimerkiksi nykyistä laajempi aineistonhallintasuunnitelmien edellyttäminen osana tutkimussuunnitelmia ja aineistonhallintasuunnitelmien tarkempi ohjeistus. Onhan hyvin suunniteltu jo puoliksi tehty.

Lisätietoja:
» Policies for Sharing Research Data in Social Sciences and Humanities (2014)
» IFDO Data Sharing Policies Fact Sheet

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

IFDO tutki tutkimusrahoittajien datasuosituksia

Olen toiminut viitisen vuotta pienen kansainvälisen järjestön puheenjohtajana. International Federation of Data Organizations eli IFDO on hiljattain toteuttanut hankkeen, jossa vertailtiin eri maiden keskeisten tutkimusrahoittajien datapolitiikkoja kulttuurin ja yhteiskunnan tutkimuksen aloilla. IFDOn suunnittelemaan hankkeeseen ja Vigdis Kvalheimin ja Trond Kvammen pääosin kirjoittamaan selvitysraporttiin voi tutustua IFDOn verkkosivuilla (www.ifdo.org).

Raportin tiedot koottiin enimmäkseen vuonna 2012. Alan asiantuntijoille suunnattiin verkkokysely, johon tuli vastauksia 32 maasta. Kunkin maan asiantuntija raportoi ja arvioi tilannetta oman maansa osalta. Vastaajat eivät olleet tutkimusrahoittajien edustajia vaan tutkittujen alojen datapalveluammattilaisia ja tutkijoita. Vastaajajoukko edustaa maita, jotka ovat tavalla tai toisella aktiivisesti mukana data-arkistoalan kansainvälisessä yhteistyössä tai osallistuvat laajoihin kansainvälisiin vertailututkimuksiin. Vastaajajoukossa ovat aliedustettuina tutkimusjärjestelmiltään kehittymättömimmät maat.

Yksityiskohtaisimmat tutkimusaineistojen avointa saatavuutta tukevat politiikkasuositukset löytyvät yleensä maista, joiden tutkimusinfrastruktuurit ovat tutkituista maista kehittyneimpiä. Tällaisia ovat Pohjois-Amerikan ja useat Länsi-Euroopan maat. Näidenkin kesken on tosin suuria eroavuuksia tutkimusdatan avoimuutta koskevissa tutkimusrahoittajien avoimuusohjeissa.

Isossa-Britanniassa keskeiset tutkimusrahoittajat ovat edellyttäneet jo pitkään rahoittamiltaan tutkimusprojekteilta, että ne tarjoavat kokoamansa tutkimusdatat hankkeen päätyttyä arkistoitavaksi alan kansalliseen data-arkistoon UKDAan. Samantyyppiseen ratkaisuun ovat päätyneet epäsuoremmin kehotuksin useat pohjoisamerikkalaiset tutkimusrahoittajat.

Suomessa Suomen Akatemia suosittaa mutta ei edellytä yhteiskuntatieteellisten aineistojen arkistointia Yhteiskuntatieteelliseen tietoarkistoon. Edistyksellistä Suomessa on vaatimus aineistonhallintasuunnitelmasta osana tutkimussuunnitelmaa. IFDOn kyselyn kattamista maista vain joka neljännessä maan keskeisin kulttuurin ja yhteiskunnan tutkimuksen alan tutkimusrahoittaja edellyttää aineistonhallintasuunnitelmaa (8/32).

Tutkituista maista noin kahdessa kolmesta tutkimusrahoittajat suosittivat jollakin tavalla uusien tutkimusdatojen avaamista tiedeyhteisön käyttöön hankkeiden päättymisen jälkeen. Vaatimattomimmillaan edellytys voi täyttyä, kun tutkimusryhmä varmistaa itse minimitasoisesti aineiston avaamisen ja jatkokäyttömahdollisuudet.

Kunnolliset jatkokäyttömahdollisuudet muodostuvat todennäköisimmin datan avaamisen kansainvälisiin toimintastandardeihin sitoutuneiden palveluyksikköjen tuella. Data-arkistopalvelujen käyttöä koskevia rahoittajien suosituksia tai edellytyksiä löytyi kuitenkin vain harvemmassa kuin joka toisessa tutkitussa maassa.

Yksi huolestuttavimmista havainnoista oli datan avoimuutta tukevien toimintaohjeiden ylimalkaisuus. Useimmiten tutkimusrahoittajien politiikkaohjeet eivät olleet vahvasti joitakin toimia edellyttäviä vaan ne olivat suosituksia. Lisäksi ne ottivat ani harvoin kantaa esimerkiksi kansainvälisten kuvailustandardien hyödyntämiseen tutkimusaineiston dokumentoinnissa. Nämä ovat aineistojen tietojen löydettävyyden ja datan informoidun jatkokäytön kannalta erittäin tärkeitä seikkoja.

IFDOn selvityksen yleiset johtopäätökset korostavat tarvetta muutokseen tutkimusrahoittajien datapolitiikoissa. Monista ja varsinkin tutkimatta jääneistä maista tutkimusdatan avoimuutta tukevat rahoittajapolitiikat puuttuvat kokonaan. Yleistymisestään huolimatta datapolitiikkojen puute koskee edelleen myös monia tutkimusjärjestelmiltään kehittyneimpiä maita.

Ensimmäisiä askeleita oikeaan suuntaan ovat tutkimusdatan avaamista tukevien infrastruktuurien perustaminen ja vahvistaminen sekä tällaisten tukipalvelujen käyttöä korostavien datapolitiikkojen käyttöönotto.

Raportin toinen pääsuositus koskee politiikkasuositusten sisältöä. Yleisluonteisuuden sijasta tutkimusrahoittajien politiikkaohjeiden tulisi osoittaa nykyistä täsmällisemmin se, milloin, minne ja miten tutkimusaineistot arkistoidaan avoimeen käyttöön tutkimushankkeiden päättymisen jälkeen. Tätä tavoitetta tukisivat esimerkiksi nykyistä laajempi aineistonhallintasuunnitelmien edellyttäminen osana tutkimussuunnitelmia ja aineistonhallintasuunnitelmien tarkempi ohjeistus. Onhan hyvin suunniteltu jo puoliksi tehty.

Lisätietoja:
» Policies for Sharing Research Data in Social Sciences and Humanities (2014)
» IFDO Data Sharing Policies Fact Sheet

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

ATT käynnistyi

Opetus- ja kulttuuriministeriö on käynnistänyt tiedon saatavuuden ja avoimen tieteen edistämiseksi Avoimen tieteen ja tutkimuksen hankkeen vuosille 2014–2017. Virallisena tavoitteenaan ATT-hanke ”määrittää kansallisen tahtotilan vuodelle 2017 ja edistää avointa tiedettä kolmella rintamalla: tutkimusjulkaisut, tutkimusdata ja menetelmät”.

Avausseminaari järjestettiin Helsingissä 19.3.2014. Ohjelman pääosan muodostivat kolme paneelia, joissa aiheina olivat hankkeen tavoitteiden mukaan avoimet julkaisut, avoin data ja avoimet menetelmät. Toimin puheenjohtajana tutkimusdatapaneelissa, johon osallistuivat panelisteina Pirjo-Leena Forsström CSC:stä, Laura Höijer Ympäristöhallinnosta, Tuuli Toivonen Helsingin yliopistosta sekä Jussi Simpura THL:stä. Kokoan seuraavassa paneelin antia kahdesta keskusteluteemasta.

Miksi avata tutkimusdataa? Keskustelussa nousi esiin demokratianäkökulma: avaamalla tutkimusdataa kaikki pääsevät käyttämään sitä. Datan avoimen saatavuuden koheneminen voi myös edesauttaa innovaatioita ja luovuutta, mikä edistää tutkimuksen tuottavuutta.

Vaikka datan avaaminen maksaa, se voi tuottaa uutta liiketoimintaa ja tuoda myös säästöjä muun muassa uusien aineistojen pienempinä keruukustannuksina. Suomea koskevan tutkimusdatan avaaminen kansainväliseen käyttöön saattaa myös luoda uudentyyppistä, maatamme hyödyttävää tutkimustoimintaa ulkomaille.

Tutkijoiden näkökulmasta datan avaamista pidettiin erittäin keskeisenä tavoitteena. Useat panelistit mainitsivat tarpeen tieteellisen toimintakulttuurin muutokseen siten, että tutkimusdatan julkaiseminen ymmärrettäisiin tieteellisenä meriittinä. Oman tutkimuksen aineistojen avaaminen on tutkijalle myös uskottavuuskysymys, koska datansa julkaisseen tutkijan tulokset voi aina tarkistaa.

Paneeli käsitteli myös tutkimusdatan avaamisen haasteita Suomessa. Mainittujen asioiden lista muodostui pitkäksi: miten viitata tutkimusdataan ja antaa siitä meriittiä; tekijyys- ja omistajuuskysymykset; datan lisensointi; tietosuojakysymykset ja tutkimusetiikka; julkaisujen, datan ja menetelmien yhdistäminen; tutkimustiedon hyödyntäminen yhteiskunnallisessa päätöksenteossa jne.

Avaamista tukevan toimintakulttuurimuutoksen haasteena on edelleen tutkimusdatan ymmärtäminen tutkijan (omana) pääomana. Liian usein datan jakaminen mielletään siitä luopumisena ja ehkä kilpailuedunkin menettämisenä. Juuri siksi tutkimusrahoittajien ja -organisaatioiden tulisi edellyttää ja ohjeistaa tutkimusdatan hallintaa ja sen suunnittelua riittävästi. Aineistonhallinnan suunnittelu ja toteuttaminen pitäisi saada itsestään selväksi osaksi tutkijoiden perustyönkuvaa.

Lisäksi paneeli totesi, että tietovarantojen avaamisessa on otettava huomioon riittävä jatkokäytön tuki. Monien tutkimusaineistojen järkevä jatkokäyttö vaatii vierihoitoa aineiston keränneeltä taholta. Tutkimusdatan jatkokäyttäjän ei siis pidä lähteä soitellen sotaan. Ei pidä laulaa virttä, jos ei tiedä sen numeroa.

Datapaneeli on nähtävissä kokonaisuudessaan seminaaritallenteesta, joka sisältää kaikki muutkin seminaariesitykset ja paneelit. Seminaari oli hyvä avaus ATT:lle.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

ATT käynnistyi

Opetus- ja kulttuuriministeriö on käynnistänyt tiedon saatavuuden ja avoimen tieteen edistämiseksi Avoimen tieteen ja tutkimuksen hankkeen vuosille 2014–2017. Virallisena tavoitteenaan ATT-hanke ”määrittää kansallisen tahtotilan vuodelle 2017 ja edistää avointa tiedettä kolmella rintamalla: tutkimusjulkaisut, tutkimusdata ja menetelmät”.

Avausseminaari järjestettiin Helsingissä 19.3.2014. Ohjelman pääosan muodostivat kolme paneelia, joissa aiheina olivat hankkeen tavoitteiden mukaan avoimet julkaisut, avoin data ja avoimet menetelmät. Toimin puheenjohtajana tutkimusdatapaneelissa, johon osallistuivat panelisteina Pirjo-Leena Forsström CSC:stä, Laura Höijer Ympäristöhallinnosta, Tuuli Toivonen Helsingin yliopistosta sekä Jussi Simpura THL:stä. Kokoan seuraavassa paneelin antia kahdesta keskusteluteemasta.

Miksi avata tutkimusdataa? Keskustelussa nousi esiin demokratianäkökulma: avaamalla tutkimusdataa kaikki pääsevät käyttämään sitä. Datan avoimen saatavuuden koheneminen voi myös edesauttaa innovaatioita ja luovuutta, mikä edistää tutkimuksen tuottavuutta.

Vaikka datan avaaminen maksaa, se voi tuottaa uutta liiketoimintaa ja tuoda myös säästöjä muun muassa uusien aineistojen pienempinä keruukustannuksina. Suomea koskevan tutkimusdatan avaaminen kansainväliseen käyttöön saattaa myös luoda uudentyyppistä, maatamme hyödyttävää tutkimustoimintaa ulkomaille.

Tutkijoiden näkökulmasta datan avaamista pidettiin erittäin keskeisenä tavoitteena. Useat panelistit mainitsivat tarpeen tieteellisen toimintakulttuurin muutokseen siten, että tutkimusdatan julkaiseminen ymmärrettäisiin tieteellisenä meriittinä. Oman tutkimuksen aineistojen avaaminen on tutkijalle myös uskottavuuskysymys, koska datansa julkaisseen tutkijan tulokset voi aina tarkistaa.

Paneeli käsitteli myös tutkimusdatan avaamisen haasteita Suomessa. Mainittujen asioiden lista muodostui pitkäksi: miten viitata tutkimusdataan ja antaa siitä meriittiä; tekijyys- ja omistajuuskysymykset; datan lisensointi; tietosuojakysymykset ja tutkimusetiikka; julkaisujen, datan ja menetelmien yhdistäminen; tutkimustiedon hyödyntäminen yhteiskunnallisessa päätöksenteossa jne.

Avaamista tukevan toimintakulttuurimuutoksen haasteena on edelleen tutkimusdatan ymmärtäminen tutkijan (omana) pääomana. Liian usein datan jakaminen mielletään siitä luopumisena ja ehkä kilpailuedunkin menettämisenä. Juuri siksi tutkimusrahoittajien ja -organisaatioiden tulisi edellyttää ja ohjeistaa tutkimusdatan hallintaa ja sen suunnittelua riittävästi. Aineistonhallinnan suunnittelu ja toteuttaminen pitäisi saada itsestään selväksi osaksi tutkijoiden perustyönkuvaa.

Lisäksi paneeli totesi, että tietovarantojen avaamisessa on otettava huomioon riittävä jatkokäytön tuki. Monien tutkimusaineistojen järkevä jatkokäyttö vaatii vierihoitoa aineiston keränneeltä taholta. Tutkimusdatan jatkokäyttäjän ei siis pidä lähteä soitellen sotaan. Ei pidä laulaa virttä, jos ei tiedä sen numeroa.

Datapaneeli on nähtävissä kokonaisuudessaan seminaaritallenteesta, joka sisältää kaikki muutkin seminaariesitykset ja paneelit. Seminaari oli hyvä avaus ATT:lle.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

ICPSR:n kesäkurssit arkistoijan opinahjona

Michiganin yliopiston yhteydessä Ann Arborissa toimiva data-arkisto ICPSR (Inter-university Consortium for Political and Social Research) järjestää vuosittain lukuisia erilaisia kesäkursseja, joiden kohderyhmänä ovat tutkijat ja arkistoalan työntekijät ympäri maailmaa. Silloin tällöin myös Yhteiskuntatieteellinen tietoarkisto lähettää työntekijöitänsä Ann Arboriin hankkimaan koulutusta ja uusia ideoita tutkimusaineistojen arkistointiin. Samalla tarjoutuu hyvä mahdollisuus vaihtaa kokemuksia muualta maailmasta tulleiden arkistoalan työntekijöiden kanssa. Tänä vuonna matka-arpa osui omalle kohdalleni.

ICPSR:n kesäkurssien pääpaino on ollut perinteisesti vahvasti kvantitatiivisten tutkimusaineistojen puolella, mutta heinä-elokuun vaihteessa järjestetty viisipäiväinen Curating and Managing Research Data for Re-Use tarjosi kiinnostavia näkökulmia myös kvalitatiivisten aineistojen käsittelyyn ja arkistointiin.

Kurssille osallistui 26 eri tavoin tutkimusaineistojen arkistoinnin parissa työskentelevää henkilöä. Suurin osa osallistujista tuli Yhdysvalloista, mutta joukossa oli kauempaa tulleita arkistotyöntekijöitä myös Kanadasta, Etelä-Afrikasta ja Ruotsista. Kurssin opettajina toimivat Jared Lyle ja Mary Vardigan ICPSR:stä sekä Ron Nakao Stanford Universitystä ja Jake Carlson Purdue Universitystä.

Kunkin päivän ohjelma oli rakennettu oman teeman ympärille. Päivittäisiä teemoja olivat tutkimusaineistojen elinkaari, arkistointipolitiikat, aineiston käsittely, aineistojen tietoturvallinen säilytys sekä jatkokäyttö. Kunkin päivän pääpuhuja oli kyseiseen teemaan erikoistunut asiantuntija. Luentojen lisäksi kurssi sisälsi paljon ryhmätöinä tehtyjä harjoituksia. Virallisen ohjelman ulkopuolella kurssin sisältöön kuului vierailu läheisessä Clarkin kirjastossa, jossa meille esiteltiin esimerkiksi kartta-aineistojen digitointia.

Kurssilla tutustuimme muun muassa erilaisiin teknisiin työkaluihin, jotka auttavat tutkimusaineistojen kuvailujen laatimisessa ja metadatan tallentamisessa. Opimme myös kuinka toimii pitkälle automatisoitu aineistojen talletusjärjestelmä, jossa tutkija voi luovuttaa tutkimusaineistonsa arkistoon suoraan verkossa. Tulevaisuudessa, kun rahoittajat uudistavat data-politiikkaansa ja arkistointivelvoitteet lisääntyvät myös Suomessa, vastaavaan järjestelmään siirtyminen on mitä todennäköisimmin edessä myös Yhteiskuntatieteellisessä tietoarkistossa.

Kokonaisuudessaan osallistuminen ICPSR:n kesäkurssille oli kaikin puolin hieno ja opettavainen kokemus. Opimme paljon ICPSR:n omista arkistointikäytännöistä ja aineistonkäsittelyntavoista. Lisäksi tutustuimme laajalti muihin mahdollisuuksiin käsitellä arkistoitavia tutkimusaineistoja ja saattaa niitä jatkokäyttäjien ulottuville. Uskallankin suositella nyt toista kertaa järjestettyä kurssia kaikille, jotka työskentelevät tutkimusaineistojen arkistoinnin parissa.

Lisätietoja: ICPSR:n kesäkurssien verkkosivusto.

Jarkko Päivärinta
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi

ICPSR:n kesäkurssit arkistoijan opinahjona

Michiganin yliopiston yhteydessä Ann Arborissa toimiva data-arkisto ICPSR (Inter-university Consortium for Political and Social Research) järjestää vuosittain lukuisia erilaisia kesäkursseja, joiden kohderyhmänä ovat tutkijat ja arkistoalan työntekijät ympäri maailmaa. Silloin tällöin myös Yhteiskuntatieteellinen tietoarkisto lähettää työntekijöitänsä Ann Arboriin hankkimaan koulutusta ja uusia ideoita tutkimusaineistojen arkistointiin. Samalla tarjoutuu hyvä mahdollisuus vaihtaa kokemuksia muualta maailmasta tulleiden arkistoalan työntekijöiden kanssa. Tänä vuonna matka-arpa osui omalle kohdalleni.

ICPSR:n kesäkurssien pääpaino on ollut perinteisesti vahvasti kvantitatiivisten tutkimusaineistojen puolella, mutta heinä-elokuun vaihteessa järjestetty viisipäiväinen Curating and Managing Research Data for Re-Use tarjosi kiinnostavia näkökulmia myös kvalitatiivisten aineistojen käsittelyyn ja arkistointiin.

Kurssille osallistui 26 eri tavoin tutkimusaineistojen arkistoinnin parissa työskentelevää henkilöä. Suurin osa osallistujista tuli Yhdysvalloista, mutta joukossa oli kauempaa tulleita arkistotyöntekijöitä myös Kanadasta, Etelä-Afrikasta ja Ruotsista. Kurssin opettajina toimivat Jared Lyle ja Mary Vardigan ICPSR:stä sekä Ron Nakao Stanford Universitystä ja Jake Carlson Purdue Universitystä.

Kunkin päivän ohjelma oli rakennettu oman teeman ympärille. Päivittäisiä teemoja olivat tutkimusaineistojen elinkaari, arkistointipolitiikat, aineiston käsittely, aineistojen tietoturvallinen säilytys sekä jatkokäyttö. Kunkin päivän pääpuhuja oli kyseiseen teemaan erikoistunut asiantuntija. Luentojen lisäksi kurssi sisälsi paljon ryhmätöinä tehtyjä harjoituksia. Virallisen ohjelman ulkopuolella kurssin sisältöön kuului vierailu läheisessä Clarkin kirjastossa, jossa meille esiteltiin esimerkiksi kartta-aineistojen digitointia.

Kurssilla tutustuimme muun muassa erilaisiin teknisiin työkaluihin, jotka auttavat tutkimusaineistojen kuvailujen laatimisessa ja metadatan tallentamisessa. Opimme myös kuinka toimii pitkälle automatisoitu aineistojen talletusjärjestelmä, jossa tutkija voi luovuttaa tutkimusaineistonsa arkistoon suoraan verkossa. Tulevaisuudessa, kun rahoittajat uudistavat data-politiikkaansa ja arkistointivelvoitteet lisääntyvät myös Suomessa, vastaavaan järjestelmään siirtyminen on mitä todennäköisimmin edessä myös Yhteiskuntatieteellisessä tietoarkistossa.

Kokonaisuudessaan osallistuminen ICPSR:n kesäkurssille oli kaikin puolin hieno ja opettavainen kokemus. Opimme paljon ICPSR:n omista arkistointikäytännöistä ja aineistonkäsittelyntavoista. Lisäksi tutustuimme laajalti muihin mahdollisuuksiin käsitellä arkistoitavia tutkimusaineistoja ja saattaa niitä jatkokäyttäjien ulottuville. Uskallankin suositella nyt toista kertaa järjestettyä kurssia kaikille, jotka työskentelevät tutkimusaineistojen arkistoinnin parissa.

Lisätietoja: ICPSR:n kesäkurssien verkkosivusto.

Jarkko Päivärinta
tutkimusamanuenssi
etunimi.sukunimi [at] uta.fi