Tag Archives: data

Being trustworthy and FAIR requires people, processes, technologies and collaboration

The Implementation Roadmap for the European Science Cloud (EOSC) puts focus on research data adhering to the FAIR principles of being findable, accessible, interoperable, and reusable. These are all excellent goals and the social science data archive community has been promoting similar ideas since at least the 1970’s. We know that managing, disseminating and preserving digital data for the long term is neither simple nor straightforward. Research data will not become nor stay FAIR by magic. We need skilled people, transparent processes, interoperable technologies and collaboration to build, operate and maintain research data infrastructures.

A key theme in digital preservation and thus in all FSD’s functions is trust. Data subjects need to be able to trust that data about them are handled in an appropriate way. Researchers need to have trust that FSD manages their data according to the agreements. FSD’s users need to be able to trust that they get access to reliable versions of data from FSD and that, for example, all changes made to the deposited datasets are documented. In short, FSD needs to be a trusted digital repository.

Shaping the trust landscape

Luckily, FSD is not alone. In addition to collaborating in national networks, FSD is the Finnish Service Provider for CESSDA ERIC (Consortium of European Social Science Data Archives). CESSDA requires that all its Service Providers adhere to the trustworthy digital repository requirements set by the CoreTrustSeal. In August 2017, FSD acquired the new CTS certification among the first CESSDA Service Providers.

FSD has been active in CESSDA’s trust work for several years and currently I am a member of the CESSDA Trust Working Group. The Group offers guidance and support to CESSDA members in understanding and acquiring the CoreTrustSeal and maintains an overview of the trust landscape including certification standards and the emergence of the FAIR data principles and the requirements of the EOSC. I am also a member of the CoreTrustSeal Board 2018–2021. These collaborations are essential for strengthening FSD’s expertise. They also provide unique insights to, and possibilities to be involved in, shaping the trust landscape.

Today is the World Digital Preservation Day. It brings together the digital preservation community to celebrate the collections preserved, the access maintained and the understanding fostered by preserving digital materials. I want to take this opportunity to celebrate FSD’s current and forthcoming collaborations and especially our staff’s great expertise and dedication. As the Chair of the CESSDA Trust Group Herve L’Hours has written: Technologies can be consolidated, and processes automated, but collection, creation, curation and research use/reuse of data is ultimately dependent on the domain and disciplinary expertise of the humans who know them best. (L’Hours 2018)

Happy Digital Preservation!

FSD’s work in CESSDA Trust Group and CoreTrustSeal are supported by CESSDA Trust Work Plan project and the Active FSD for CESSDA project funded by the Academy of Finland.

More information:

» Follow #WDPD2018 on Twitter
» CESSDA Trust Working Group
» CoreTrustSeal Board 2018-2021

Mari Kleemola
Development Manager
firstname.surname [at] uta.fi

On intelligent decision support systems, numbers, and narratives

Expectations regarding (big) data and the opportunities it offers are growing thanks to increased data-processing capacities and the proliferation of digital information. However, questions of where the data stems from,…

Let There Be Digital Preservation – A View from the Data Archive

For the most part, November 6 this year was just an ordinary day. What was different about it was a tiny SIP1, neatly wrapped in a METS2-container that digitally travelled from the Finnish Social Science Data Archive to the National Long Term Digital Preservation Service.

Confused? No worries. So were we a number of times before we got this far. Taking our digital preservation to the level described above required planning and hard work from both research data curators and programmers. In addition to simply preserving bits in a reliable way, we aim to make sure that the digital objects are also understandable by humans and machines in the future. This requires collecting metadata, harmonising file formats, managing versions, and preparing for the change.

I have often said that preserving digital research data is like preserving a moving train. You cannot stop it. If you do, you are not preserving a moving train anymore, only a snapshot. There is a lot to preserve and it may hit you hard, and a lot quicker than you think. The train also has different cars – one can add more, or take some away. Like file formats, cars are different too – from passenger cars to freight cars. There are containers, with hundreds of objects. You need to know what is in each one, and who should have access to those. Some cars contain goods, some people. While goods may last for a long time, people need to be refreshed regularly or they will not survive the journey.

The long road to preservation is paved with obstacles and opportunities

The train analogy should show that digital preservation is an active duty. You cannot put a lid on it and wait until someone asks what is in the box. Because by then, you do not know anymore. Everyone in the preservation business recognises this. At the Data Archive, we preserve research data for long-term access. That means that we actively keep on adding new information too. We make the metadata better, we may find errors in the data and fix them, or at very least we add information on where the data has been used. Moving train, remember!

Since 2008, we have been involved in building a national digital preservation solution for cultural heritage materials and research data. For our purposes, a secure, highly reliable document store is a crucial element for building a sustainable and scalable long-term preservation solution. It will add an additional preservation layer for the data we keep for our users. In a country about the size of Finland, it is feasible to provide a preservation platform nationally to a number of organisations.

We started piloting the service in 2015 and in November we finally transferred out first packages to the preservation service. It has been a long road. We have yet to pop the sparkling wine since there are a number of short-term goals to address. Piloting a service means that there have been moments when the envisioned services are not yet fully operational, specifications need tweaking before one can proceed, or something has simply appeared out of the blue.

Tools are needed to handle the data deluge

The greatest benefit of the exercise thus far has been the internal harmonisation of file formats and data processing workflows. The Data Archive has been around since 1999. While that is a relatively short time, it is a lifetime for many file formats or their versions. We have combed through the most – about 50 000 files – and defined what will be preserved and what are the acceptable file formats. While this is good, it is crystal clear that a constant technology watch is needed in the future. It is also apparent that very soon the magnitude of this will get out of hand. We cannot manually keep an eye on all files, versions and processes.

Therefore, we have built a specific data processing pipeline. It is a collection of tools that fulfil the requirements of the National Long Term Digital Preservation Service specification. It has individual parts that are responsible of standardising the character sets of all files to UTF-8, combining technical metadata with study level metadata, and creating a METS document as well as creating a submission information packet (SIP), and sending it to the preservation service provider.

Commit to constantly challenge the current practices

It is often the case that the ideal format for digital preservation may not be ideal for scientific use. This is no new dilemma. We need to carefully assess not only the formats and their feasibility for digital preservation, but also the costs of maintaining the system of archive formats and actively used formats. Any organisation that joins the national digital preservation service must have an interest in challenging the current best practises and bringing their specific user perspective into the discussion. Because in the end, everything is kept for future use, not for storage only.

The other corner stone is commitment. Once you start with digital preservation, you cannot easily stop. It means the knowhow and resources need to be there in the future too. We believe that a national solution will be beneficial for us. We are able to transfer some of our knowhow requirements to the digital preservation specialists, and focus on serving researchers better. However, we do need to keep monitoring the specialists’ performance like our own. Any outsourced activity in the digital preservation chain cannot be the weakest link. Therefore, further standardisation and auditing are crucial steps in the future.

Notes:
1 Submission Information Package (Information sent from the producer to the preservation service)
2 The Metadata Encoding and Transmission Standard (METS) (Container format and metadata standard for encoding descriptive, administrative, and structural metadata regarding objects)

Why today?
» This year, the first ever International Digital Preservation Day on 30th November 2017 will draw together individuals and institutions from across the world to celebrate the collections preserved, the access maintained and the understanding fostered by preserving digital materials. The aim of the day is to create greater awareness of digital preservation that will translate into a wider understanding which permeates all aspects of society – business, policy making, personal good practice.

Further reading:
» The National Digital Library – Digital Preservation
» Digital Preservation Solution for Research Data (PAS)

Tuomas J. Alaterä
IT Services Specialist
firstname.surname [at] uta.fi

Sosiaalisen median ja internetin aineistot – mitä voin arkistoida Tietoarkistoon?

Tietoarkistolta kysytään säännöllisin väliajoin voiko sosiaalisen median aineistoja ja erilaisia verkkoaineistoja arkistoida jatkokäyttöä varten. Sosiaalisen median ja verkon aineistot ovat varsin monimuotoisia, kuten niitä hyödyntävä tutkimuskin. Usein tutkijan onkin tarpeen eritellä, millaista aineistoa on keräämässä ja millaisilta alustoilta. Arkistointimahdollisuus riippuu nimittäin pitkälti siitä, tutkiiko verkkokeskusteluja, organisaatioiden nettisivuja vai esimerkiksi nettiblogeja. Lisäksi kysymykseen vaikuttavat muun muassa tekijänoikeuteen ja tietosuojaan liittyvät seikat. Asia ei siis ole yksinkertainen, mutta ei onneksi mahdotonkaan.

Aineistoista haasteellisimman kokonaisuuden muodostavat sosiaalisen median aineistot. Somedataa on yleensä mahdollista kerätä eri sosiaalisen median alustoilta ja käyttää tutkimustarkoituksiin. Ongelmaksi kuitenkin nousee aineistojen arkistointi ja jatkokäyttö, jota sosiaalisen median alustojen liiketoimintamalli ei pääsääntöisesti salli. Esimerkiksi Facebook, LinkedIn ja Google omistavat oikeuden ostaa ja myydä käyttäjiensä tuottamaa sisältöä, ja pidättävät siten sen omistusoikeuden. Käytännössä alustat haluavat siis ensisijaisesti hyödyntää käyttäjädataa itse, eivätkä antaa sitä kolmansille osapuolille jatkohyödynnettäväksi. Muun muassa tästä syystä sosiaalisen median aineistojen arkistointi jatkokäyttöä varten esimerkiksi Tietoarkistoon ei ole mahdollista.

Myös muualta verkosta kerätyissä aineistoissa on arkistoinnin näkökulmasta muutamia rajoitteita. Yksityisten henkilöiden välinen viestintä, joka tapahtuu keskustelupalstoilla, blogeissa tai muissa vastaavissa ei ole arkistoitavissa. Näin on etenkin sellaisissa tapauksissa, kun palstalle tai blogiin pääsy vaatii kirjautumisen. Arkistointi on yleensä mahdotonta myös silloin, kun verkkosivuilla on sisältöä, johon sivun ylläpitäjällä ei ole oikeuksia. Käytännössä tämä tarkoittaa esimerkiksi sivustoja, joiden sisältö on otettu jostain muualta tai sisällön ovat tuottaneet jotkut muut kuin sivuston ylläpitäjä. Asiaa monimutkaistaa vielä se, että kaikkien verkkosivujen kohdalla ei aina ole selvää, kenellä on tekijänoikeus sisältöön. Epäselvissä tapauksissa asiasta kannattaa aina kysyä sivuston ylläpitäjältä.

Vaikka rajoitteet saattavat aluksi tuntua lannistavilta, verkossa on runsaasti aineistoja, joita voi arkistoida jatkokäyttöön. Tietoarkiston ja Kopioston välinen sopimus mahdollistaa erilaisten verkkosisältöjen keräämisen ja arkistoimisen sivustoilta, jotka eivät edellytä kirjautumista tai lisenssin hankkimista. Jos kuva- tai tekstiaineisto on kerätty kaikille avoimilta nettisivuilta, esimerkiksi julkisten organisaatioiden sivuilta, sen voi arkistoida Tietoarkistoon. Tämä pätee myös yleisiin blogiteksteihin kuten lehtien ylläpitämiin tai muutoin toimitettuihin blogeihin. Kannattaa kuitenkin muistaa, että arkistoida saa vain varsinaisia blogitekstejä, ei mahdollista kommenttiosiota, jossa yksityishenkilöt viestivät keskenään.

Tietoarkistoon on mahdollista arkistoida myös sellaista verkkosivuilta kerättyä tekstiä, joka on lisensoitu CC-lisenssillä eli Creative Commons -lisenssillä. Tällä lisenssillä teoksen tekijä voi jakaa tekijänoikeuslain suomia yksinoikeuksia muille. Yleisin lisenssi on CC BY, jonka mukaisesti lisensoitua teosta ja sen pohjalta tehtyjä muokattuja versioita saa kopioida, levittää, näyttää ja esittää julkisesti. Lisäksi lisensoidun tekstiaineiston arkistointi edellyttää luvan pyytämistä tekijältä.

Verkko- ja someaineistoja keräävä tutkija voikin siis noudattaa peukalosääntönä seuraavaa:

Tietoarkistoon on mahdollista arkistoida

  • Vapaasti kaikkien saatavilla olevien verkkosivujen kuva- ja tekstiaineistoja
  • Yleisiä blogitekstejä kuten lehtien ylläpitämiä ja toimitettuja blogeja
  • CC-lisensoituja kuva- ja tekstiaineistoja verkkosivuilla, jos arkistointiin saa luvan tekijältä

Tietoarkistoon ei ole mahdollista arkistoida

  • Sosiaalisen median dataa
  • Yksityisten henkilöiden välistä viestintää keskustelupalstoilla, blogeissa tai muissa vastaavissa
  • Verkkosivustoilta kopioitua sisältöä silloin, kun osa sivusta on muualta otettua tai muiden tekemää sisältöä, joiden oikeuksien haltija ei ole verkkosivun ylläpitäjä

Lisäksi kannattaa muistaa, että AllerMedian ja Kielipankin sopimuksen mukaisesti Suomi24-aineistojen käyttö on mahdollista Kielipankin kautta. Kielipankin kautta on käytettävissä myös Helsingin Sanomien kotimaan uutisia ja niiden kommentteja sisältävä aineisto.

Mikäli et ohjeistuksesta huolimatta ole varma, soveltuuko aineistosi arkistoitavaksi, ota suoraan yhteyttä Tietoarkiston asiakaspalveluun ja kysy neuvoa!

Lisätietoa:
» Tietoarkiston asiakaspalvelu: asiakaspalvelu.fsd at uta.fi
» Kielipankki
» Tietoarkistolehti (45, 2/2016): Someaineistojen arkistointi ja jatkokäyttö kaatuvat useimpien alustojen käyttöehtoihin

Katja Fält
tieteenala-asiantuntija
etunimi.sukunimi [at] uta.fi

ATT käynnistyi

Opetus- ja kulttuuriministeriö on käynnistänyt tiedon saatavuuden ja avoimen tieteen edistämiseksi Avoimen tieteen ja tutkimuksen hankkeen vuosille 2014–2017. Virallisena tavoitteenaan ATT-hanke ”määrittää kansallisen tahtotilan vuodelle 2017 ja edistää avointa tiedettä kolmella rintamalla: tutkimusjulkaisut, tutkimusdata ja menetelmät”.

Avausseminaari järjestettiin Helsingissä 19.3.2014. Ohjelman pääosan muodostivat kolme paneelia, joissa aiheina olivat hankkeen tavoitteiden mukaan avoimet julkaisut, avoin data ja avoimet menetelmät. Toimin puheenjohtajana tutkimusdatapaneelissa, johon osallistuivat panelisteina Pirjo-Leena Forsström CSC:stä, Laura Höijer Ympäristöhallinnosta, Tuuli Toivonen Helsingin yliopistosta sekä Jussi Simpura THL:stä. Kokoan seuraavassa paneelin antia kahdesta keskusteluteemasta.

Miksi avata tutkimusdataa? Keskustelussa nousi esiin demokratianäkökulma: avaamalla tutkimusdataa kaikki pääsevät käyttämään sitä. Datan avoimen saatavuuden koheneminen voi myös edesauttaa innovaatioita ja luovuutta, mikä edistää tutkimuksen tuottavuutta.

Vaikka datan avaaminen maksaa, se voi tuottaa uutta liiketoimintaa ja tuoda myös säästöjä muun muassa uusien aineistojen pienempinä keruukustannuksina. Suomea koskevan tutkimusdatan avaaminen kansainväliseen käyttöön saattaa myös luoda uudentyyppistä, maatamme hyödyttävää tutkimustoimintaa ulkomaille.

Tutkijoiden näkökulmasta datan avaamista pidettiin erittäin keskeisenä tavoitteena. Useat panelistit mainitsivat tarpeen tieteellisen toimintakulttuurin muutokseen siten, että tutkimusdatan julkaiseminen ymmärrettäisiin tieteellisenä meriittinä. Oman tutkimuksen aineistojen avaaminen on tutkijalle myös uskottavuuskysymys, koska datansa julkaisseen tutkijan tulokset voi aina tarkistaa.

Paneeli käsitteli myös tutkimusdatan avaamisen haasteita Suomessa. Mainittujen asioiden lista muodostui pitkäksi: miten viitata tutkimusdataan ja antaa siitä meriittiä; tekijyys- ja omistajuuskysymykset; datan lisensointi; tietosuojakysymykset ja tutkimusetiikka; julkaisujen, datan ja menetelmien yhdistäminen; tutkimustiedon hyödyntäminen yhteiskunnallisessa päätöksenteossa jne.

Avaamista tukevan toimintakulttuurimuutoksen haasteena on edelleen tutkimusdatan ymmärtäminen tutkijan (omana) pääomana. Liian usein datan jakaminen mielletään siitä luopumisena ja ehkä kilpailuedunkin menettämisenä. Juuri siksi tutkimusrahoittajien ja -organisaatioiden tulisi edellyttää ja ohjeistaa tutkimusdatan hallintaa ja sen suunnittelua riittävästi. Aineistonhallinnan suunnittelu ja toteuttaminen pitäisi saada itsestään selväksi osaksi tutkijoiden perustyönkuvaa.

Lisäksi paneeli totesi, että tietovarantojen avaamisessa on otettava huomioon riittävä jatkokäytön tuki. Monien tutkimusaineistojen järkevä jatkokäyttö vaatii vierihoitoa aineiston keränneeltä taholta. Tutkimusdatan jatkokäyttäjän ei siis pidä lähteä soitellen sotaan. Ei pidä laulaa virttä, jos ei tiedä sen numeroa.

Datapaneeli on nähtävissä kokonaisuudessaan seminaaritallenteesta, joka sisältää kaikki muutkin seminaariesitykset ja paneelit. Seminaari oli hyvä avaus ATT:lle.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

ATT käynnistyi

Opetus- ja kulttuuriministeriö on käynnistänyt tiedon saatavuuden ja avoimen tieteen edistämiseksi Avoimen tieteen ja tutkimuksen hankkeen vuosille 2014–2017. Virallisena tavoitteenaan ATT-hanke ”määrittää kansallisen tahtotilan vuodelle 2017 ja edistää avointa tiedettä kolmella rintamalla: tutkimusjulkaisut, tutkimusdata ja menetelmät”.

Avausseminaari järjestettiin Helsingissä 19.3.2014. Ohjelman pääosan muodostivat kolme paneelia, joissa aiheina olivat hankkeen tavoitteiden mukaan avoimet julkaisut, avoin data ja avoimet menetelmät. Toimin puheenjohtajana tutkimusdatapaneelissa, johon osallistuivat panelisteina Pirjo-Leena Forsström CSC:stä, Laura Höijer Ympäristöhallinnosta, Tuuli Toivonen Helsingin yliopistosta sekä Jussi Simpura THL:stä. Kokoan seuraavassa paneelin antia kahdesta keskusteluteemasta.

Miksi avata tutkimusdataa? Keskustelussa nousi esiin demokratianäkökulma: avaamalla tutkimusdataa kaikki pääsevät käyttämään sitä. Datan avoimen saatavuuden koheneminen voi myös edesauttaa innovaatioita ja luovuutta, mikä edistää tutkimuksen tuottavuutta.

Vaikka datan avaaminen maksaa, se voi tuottaa uutta liiketoimintaa ja tuoda myös säästöjä muun muassa uusien aineistojen pienempinä keruukustannuksina. Suomea koskevan tutkimusdatan avaaminen kansainväliseen käyttöön saattaa myös luoda uudentyyppistä, maatamme hyödyttävää tutkimustoimintaa ulkomaille.

Tutkijoiden näkökulmasta datan avaamista pidettiin erittäin keskeisenä tavoitteena. Useat panelistit mainitsivat tarpeen tieteellisen toimintakulttuurin muutokseen siten, että tutkimusdatan julkaiseminen ymmärrettäisiin tieteellisenä meriittinä. Oman tutkimuksen aineistojen avaaminen on tutkijalle myös uskottavuuskysymys, koska datansa julkaisseen tutkijan tulokset voi aina tarkistaa.

Paneeli käsitteli myös tutkimusdatan avaamisen haasteita Suomessa. Mainittujen asioiden lista muodostui pitkäksi: miten viitata tutkimusdataan ja antaa siitä meriittiä; tekijyys- ja omistajuuskysymykset; datan lisensointi; tietosuojakysymykset ja tutkimusetiikka; julkaisujen, datan ja menetelmien yhdistäminen; tutkimustiedon hyödyntäminen yhteiskunnallisessa päätöksenteossa jne.

Avaamista tukevan toimintakulttuurimuutoksen haasteena on edelleen tutkimusdatan ymmärtäminen tutkijan (omana) pääomana. Liian usein datan jakaminen mielletään siitä luopumisena ja ehkä kilpailuedunkin menettämisenä. Juuri siksi tutkimusrahoittajien ja -organisaatioiden tulisi edellyttää ja ohjeistaa tutkimusdatan hallintaa ja sen suunnittelua riittävästi. Aineistonhallinnan suunnittelu ja toteuttaminen pitäisi saada itsestään selväksi osaksi tutkijoiden perustyönkuvaa.

Lisäksi paneeli totesi, että tietovarantojen avaamisessa on otettava huomioon riittävä jatkokäytön tuki. Monien tutkimusaineistojen järkevä jatkokäyttö vaatii vierihoitoa aineiston keränneeltä taholta. Tutkimusdatan jatkokäyttäjän ei siis pidä lähteä soitellen sotaan. Ei pidä laulaa virttä, jos ei tiedä sen numeroa.

Datapaneeli on nähtävissä kokonaisuudessaan seminaaritallenteesta, joka sisältää kaikki muutkin seminaariesitykset ja paneelit. Seminaari oli hyvä avaus ATT:lle.

Sami Borg
johtaja
etunimi.sukunimi [at] uta.fi

Teekkarin näkemys aineistojen luokittelusta

Teksti käsittelee kvalitatiivisen ja kvantitatiivisen datan rajanvetoa teknis-luonnontieteelliseltä alalta tietoarkistoon siirtyneen henkilön näkökulmasta. Kirjoittaja Jani Hautamäki on toiminut aiemmin paikannus- ja navigointitekniikoiden tutkimusryhmässä.

Kvalitatiivista ja kvantitatiivista dataa

Yhteiskuntatieteissä aineistoja luokitellaan kvalitatiivisiksi ja kvantitatiivisiksi. Määrälliset aineistot, kuten surveyt, luokitellaan kvantiksi. Vastaavasti laadulliset aineistot, kuten haastattelut, luokitellaan kvaliksi. Luokittelu vaikuttaa selkeältä ja dikotomiselta, mutta onnistuuko sen soveltaminen aina yhtä helposti?

Fysikaaliset mittaukset ovat yksi aineistotyyppi, johon yhteiskuntatieteissä ei törmää, mutta joka on teknisillä aloilla arkipäiväistä. Tällaista dataa syntyy, kun mitataan fysikaalista suuretta, esimerkiksi kulmanopeutta tai lämpötilaa. Vaikka fysikaalinen mittausdata ei ole yhteiskuntatieteille kovin tuttua, onnistuu sen luokittelu vaivatta. Fysikaaliset mittaukset ovat epäilyksettä kvantitatiivista dataa.

Joidenkin aineistojen luokittelu suoralta kädeltä yhteen kategoriaan ei ole yhtä helppoa. Esimerkiksi runsaasti avokysymyksiä sisältävän surveydatan luokittelisi mieluusti molemmiksi, sekä kvanti- että kvalidataksi. Toinen hankalasti luokiteltava aineistotyyppi on kartat. Mikä tekee kartoista niin hankalia luokittelun kannalta?

Varhaiset kartat tehtiin käsityönä. Ne esittivät pääasiassa kartantekijän subjektiivista kokemusta, näkemystä ja uskomusta ympäröivästä maailmasta. Subjektiivisuutensa takia varhaiset kartat voidaan helposti luokitella kvalitatiiviseksi dataksi. Nykyaikaisten karttojen luonti sen sijaan perustuu mittaamiselle (toinen merkitys survey-sanalle).

Suosittu digitaalisen paikkatiedon tallennusformaatti muodostaa karttakuvan käyttäen yksittäisiä pisteitä, murtoviivoja ja monikulmioita. Murtoviivat ja monikulmiot rakennetaan yhdistämällä yksittäisiä pisteitä suorilla viivoilla. Murtoviivoilla voidaan esittää vaikka jokia ja teitä, ja monikulmioilla voidaan esittää esimerkiksi järviä, peltoja ja taloja.

Nykyaikaisen karttadatan luokittelussa ongelmaksi muodostuu, että data näyttää koostuvan osaksi fysikaalisesta mittausdatasta (yksittäiset pisteet), ja osaksi ihmisten subjektiivisesti päättämistä piirteistä kuten mitkä pisteet yhteen liitettyinä muodostavat järven, tien tai talon. Onko kyseessä kvali vai kvanti? Vai olisiko tällainen karttadata jotenkin sama asia kuin runsaasti avokysymyksiä sisältävä surveydata eli sekä–että?

Mihin ”datalla” viitataan?

Kun puhumme, että data on kvalitatiivista tai kvantitatiivista, mitä oikein tarkoitamme datalla? Mihin tarkalleen ottaen viittaamme?

Yhteiskuntatieteellinen tietoarkisto on muistiorganisaatio, joka arkistoi pelkästään digitaalista aineistoa. Tämä tarkoittaa käytännössä sitä, että mitä ikinä aineisto onkaan alun perin sisältänyt, suodattuu tietoarkistoon alkuperäisestä aineistosta vain bitteinä tallennettavissa oleva osa. Esimerkiksi tyypilistä kvaliaineistoa edustava avoin haastattelu arkistoidaan tavallisesti äänitallenteena tai sen pohjalta tehtynä litteraationa.

Aineiston jatkokäyttäjän ja toisaalta myös tietoarkiston näkökulmasta haastattelu on lähes yhtä kuin siitä luotu digitaalinen tallenne eli teksti-ja äänitiedosto. Nämä kaksi, itse haastattelu ja siitä syntynyt digitaalinen muistijälki, eivät tietenkään ole samoja asioita. Niiden välinen ero olisikin hyvä palauttaa mieleen aina silloin tällöin, kun digitaalisia aineistoja käsittelee. Helppoa se ei välttämättä ole, ainakaan aloittelijalle.

Tekniseltä alalta tulleena on saanut henkilökohtaisesti kokea, kuinka sujuvasti ja huomaamattomasti mieli käsittelee näitä kahta lähtökohtaisesti enemmän tai vähemmän samoina, toisiinsa kietoutuneina ja sekoittuneina asioina. Niiden erottaminen toisistaan on vaatinut eron oivaltamista ja aktiivista poisoppimista entisistä ajattelutavoista.

Mihin datalla oikein viitataan? Yllä eroteltiin toisistaan itse tapahtuma ja siitä syntynyt digitaalinen muistijälki. Erottelun seurauksena tarjolla on nyt ainakin kaksi selvää vaihtoehtoa sille, mihin datalla viitataan. Oma suosikkini vaihtoehdoista on, että datalla viitataan digitaaliseen muistijälkeen eli tiedostoihin ja bitteihin. Se on vaihtoehdoista konkreettisempi. Luultavasti samasta syystä se myös tuntuu luonnollisemmalta vaihtoehdolta.

Kvalitatiivinen data = fysikaalinen mittausdata

Tehty valinta johtaa radikaalilta tuntuvaan väittämään, että tyypillinen kvalidata eli digitaaliset ääni- ja kuvatallenteet ovat oikeastaan luonnontieteiden fysikaalista mittausdataa. Kuinka tähän väittämään on päädytty?

Tarkastellaan dataa suurennuslasilla ja selvitetään, mistä datan yksittäiset tavut ja tavujen bitit tulevat. Digitaalisen tallenteen bitit syntyvät karkeasti ottaen kaksivaiheisen prosessin tuloksena. Ensimmäisessä vaiheessa on fysikaalista suuretta aistiva anturi, joka muuttaa mittauksen sähköjännitteeksi tai -virraksi. Toisessa vaiheessa on muunnin, joka likimääräistää jännitteen tai virran digitaaliseksi arvoksi, esimerkiksi kokonaisluvuksi välille 0–65535.

Kaikki digitaaliset tallenteet eivät suinkaan ole fysikaalista mittausdataa. Esimerkiksi sävellysohjelmalla luodut musiikkikappaleet tai suunnitteluohjelmalla piirretyt kuvat ovat digitaalisena syntyneitä. Siitä huolimatta suurin osa laadullisista aineistoista on digitaalisia ääni-, kuva- ja videotallenteita eli fysikaalista mittausdataa. Vaikka data olisikin synteettistä ja digitaalisena syntynyttä, sillä on usein mielekäs fysikaalinen tulkinta, jota käytetään datan esittämiseen esimerkiksi äänenä tai kuvana. Tämä hämärtää kvali- ja kvantidatan rajanvetoa, ja aiheuttaa ihmettelyä, kuinka data tulisi luokitella.

Laadullisten aineistojen digitaaliset tallenteet vaikuttavat todella olevan fysikaalista mittausdataa. Voisiko tekniikan ja luonnontieteiden käyttämillä aineistoilla olla muutakin samaa yhteiskuntatieteiden laadullisten aineistojen kanssa kuin pelkkä aineistotyyppi? Vastaus on kyllä. Valmistautukaa kohtaamaan tuttu data uudesta, vieraasta ja ehkä yllättävästäkin näkökulmasta!

Sekä teknis-luonnontieteellisillä että yhteiskuntatieteellisillä aloilla käytetään samankaltaista, ellei peräti täysin samaa dataa. Digitoitua ääntä, kuvaa ja videokuvaa erilaisista asioista, ilmiöistä, tilanteista, ihmisistä ja paikoista. Seuraavat esimerkit näyttävät, kuinka samaa kvalidataa voidaan käyttää teknis-luonnontieteellisillä aloilla tarkoituksiin, joita ei ole ehkä aikaisemmin tullut ajatelleeksi.

Esimerkiksi turvakameran videokuva soveltuu yhtä hyvin käytettäväksi niin teknis-luonnontieteelliseen kuin yhteiskuntatieteelliseen tutkimukseen.

Samoin on erään tosi-tv-ohjelman laita.

Luultavasti sisätiloissa otetut valokuvatkin kelpaavat dataksi tieteenalaan katsomatta.

Tekniikan alalla kuvien ja äänen tarkastelu fysikaalisena mittausdatana ja kvantitatiivinen käsittely on arkipäivää. Asiaa opiskellaan tavallisesti signaalinkäsittelyn kursseilla. Jos teknis-luonnontieteellisen alan ihmiseltä kysyttäisiin, luokittelisiko hän käyttämänsä ääni- ja kuvadatan laadullisiksi, veikkaisin vastauksen olevan kielteinen. Laadullisia aineistotyyppejä edustavat ääni, kuva ja videokuva koetaan teknisillä aloilla kvantitatiivisena datana. Uskon, että datan kvantitatiivinen käsittely vahvistaa kokemusta myös itse datan kvantitatiivisuudesta. Miksei sama pätisi datalle kvalitatiivisenkin käsittelyn suhteen?

Tutkimusmenetelmä: datan ja informaation välinen prosessi

Näiden esimerkkien ja pohdintojen perusteella datassa itsessään ei vaikuta olevan mitään sellaisia sisäisiä ominaisuuksia, joihin nojautuen datan luokittelu joko kvantitatiiviseksi tai kvalitatiiviseksi kävisi mahdolliseksi. Luokittelu kvantiin ja kvaliin tapahtuu pikemminkin sen perusteella, mihin dataa aiotaan käyttää, mitä informaatiota siitä halutaan saada irti tai kuinka dataa kuvitellaan analysoitavan tulevaisuudessa. Se, että luokittelemme datan, kertoo oikeastaan enemmän itsestämme kuin datasta!

Datan sijasta luokitteluperiaatteen keskiöön näyttääkin nousevan datan ja siitä tuotetun informaation välinen prosessi, tutkimusmenetelmä.

Esimerkiksi surveydatasta hankitaan informaatiota käyttäen matemaattista koneistoa. Tilastomatematiikan menetelmät käsittelevät datamatriiseja siinä mielessä objektiivisesti, että prosessi koostuu ennalta määrätyistä askelista ja on toistettavissa. Samalla tavalla esimerkiksi kuvasta tapahtuva hahmontunnistus hyödyntää matemaattista koneistoa ja tuottaa samalla syötteellä aina saman lopputuloksen. Kummassakin tapauksessa data koetaan luultavasti enemmän kvantitatiivisena.

Jos ihminen tulkitsee dataa ja tuottaa siitä informaatiota, syntyy informaatio enemmän tai vähemmän subjektiivisella prosessilla. Tällöin data koetaan luultavasti mieluummin kvalitatiivisena. Ihmisen tuottama informaatio voi olla luonteeltaan sellaista, että se olisi voitu tuottaa myös matemaattisella koneistolla, esimerkiksi kasvojen tunnistaminen kuvasta. Vaikka ihminen tuottaa tällaista informaatiota, niin ihmisen keskeinen rooli prosessissa vaikuttaa siihen, että informaation luonteesta ja prosessin objektiivisuudesta huolimatta data koetaan mieluummin kvalitatiivsena.

Vaikuttaa siltä, että mitä subjektiivisempi matka datasta informaatioksi on, sitä kernaammin data luokitellaan kvalitatiiviseksi. Vastaavasti mitä objektiivisemmin informaatio voidaan tuottaa datasta, sitä helpommin data nähdään kvantitatiivisena. Vaikka luokittelu soveltuu tutkimusmenetelmiin paremmin kuin dataan, näyttää tutkimusmenetelmien luokittelu tarttuvan aiheettomasti itse dataan. Tartunta tapahtuu mahdollisten jatkokäyttäjien kustannuksella. Datan luokittelu yhteen kategoriaan saattaa rajata pois toisen kategorian menetelmiä hyödyntäviä jatkokäyttäjiä.

Koska datan luokittelu kertoo enemmän meistä ja menetelmistämme kuin itse datasta, ehkä siitä voidaan hiljalleen luopua. Lopulta meillä on kuitenkin vain yksi data, monta tulkintaa.

Jani Hautamäki,
järjestelmäsuunnittelija
etunimi.sukunimi [at] uta.fi

Teekkarin näkemys aineistojen luokittelusta

Teksti käsittelee kvalitatiivisen ja kvantitatiivisen datan rajanvetoa teknis-luonnontieteelliseltä alalta tietoarkistoon siirtyneen henkilön näkökulmasta. Kirjoittaja Jani Hautamäki on toiminut aiemmin paikannus- ja navigointitekniikoiden tutkimusryhmässä.

Kvalitatiivista ja kvantitatiivista dataa

Yhteiskuntatieteissä aineistoja luokitellaan kvalitatiivisiksi ja kvantitatiivisiksi. Määrälliset aineistot, kuten surveyt, luokitellaan kvantiksi. Vastaavasti laadulliset aineistot, kuten haastattelut, luokitellaan kvaliksi. Luokittelu vaikuttaa selkeältä ja dikotomiselta, mutta onnistuuko sen soveltaminen aina yhtä helposti?

Fysikaaliset mittaukset ovat yksi aineistotyyppi, johon yhteiskuntatieteissä ei törmää, mutta joka on teknisillä aloilla arkipäiväistä. Tällaista dataa syntyy, kun mitataan fysikaalista suuretta, esimerkiksi kulmanopeutta tai lämpötilaa. Vaikka fysikaalinen mittausdata ei ole yhteiskuntatieteille kovin tuttua, onnistuu sen luokittelu vaivatta. Fysikaaliset mittaukset ovat epäilyksettä kvantitatiivista dataa.

Joidenkin aineistojen luokittelu suoralta kädeltä yhteen kategoriaan ei ole yhtä helppoa. Esimerkiksi runsaasti avokysymyksiä sisältävän surveydatan luokittelisi mieluusti molemmiksi, sekä kvanti- että kvalidataksi. Toinen hankalasti luokiteltava aineistotyyppi on kartat. Mikä tekee kartoista niin hankalia luokittelun kannalta?

Varhaiset kartat tehtiin käsityönä. Ne esittivät pääasiassa kartantekijän subjektiivista kokemusta, näkemystä ja uskomusta ympäröivästä maailmasta. Subjektiivisuutensa takia varhaiset kartat voidaan helposti luokitella kvalitatiiviseksi dataksi. Nykyaikaisten karttojen luonti sen sijaan perustuu mittaamiselle (toinen merkitys survey-sanalle).

Suosittu digitaalisen paikkatiedon tallennusformaatti muodostaa karttakuvan käyttäen yksittäisiä pisteitä, murtoviivoja ja monikulmioita. Murtoviivat ja monikulmiot rakennetaan yhdistämällä yksittäisiä pisteitä suorilla viivoilla. Murtoviivoilla voidaan esittää vaikka jokia ja teitä, ja monikulmioilla voidaan esittää esimerkiksi järviä, peltoja ja taloja.

Nykyaikaisen karttadatan luokittelussa ongelmaksi muodostuu, että data näyttää koostuvan osaksi fysikaalisesta mittausdatasta (yksittäiset pisteet), ja osaksi ihmisten subjektiivisesti päättämistä piirteistä kuten mitkä pisteet yhteen liitettyinä muodostavat järven, tien tai talon. Onko kyseessä kvali vai kvanti? Vai olisiko tällainen karttadata jotenkin sama asia kuin runsaasti avokysymyksiä sisältävä surveydata eli sekä–että?

Mihin ”datalla” viitataan?

Kun puhumme, että data on kvalitatiivista tai kvantitatiivista, mitä oikein tarkoitamme datalla? Mihin tarkalleen ottaen viittaamme?

Yhteiskuntatieteellinen tietoarkisto on muistiorganisaatio, joka arkistoi pelkästään digitaalista aineistoa. Tämä tarkoittaa käytännössä sitä, että mitä ikinä aineisto onkaan alun perin sisältänyt, suodattuu tietoarkistoon alkuperäisestä aineistosta vain bitteinä tallennettavissa oleva osa. Esimerkiksi tyypilistä kvaliaineistoa edustava avoin haastattelu arkistoidaan tavallisesti äänitallenteena tai sen pohjalta tehtynä litteraationa.

Aineiston jatkokäyttäjän ja toisaalta myös tietoarkiston näkökulmasta haastattelu on lähes yhtä kuin siitä luotu digitaalinen tallenne eli teksti-ja äänitiedosto. Nämä kaksi, itse haastattelu ja siitä syntynyt digitaalinen muistijälki, eivät tietenkään ole samoja asioita. Niiden välinen ero olisikin hyvä palauttaa mieleen aina silloin tällöin, kun digitaalisia aineistoja käsittelee. Helppoa se ei välttämättä ole, ainakaan aloittelijalle.

Tekniseltä alalta tulleena on saanut henkilökohtaisesti kokea, kuinka sujuvasti ja huomaamattomasti mieli käsittelee näitä kahta lähtökohtaisesti enemmän tai vähemmän samoina, toisiinsa kietoutuneina ja sekoittuneina asioina. Niiden erottaminen toisistaan on vaatinut eron oivaltamista ja aktiivista poisoppimista entisistä ajattelutavoista.

Mihin datalla oikein viitataan? Yllä eroteltiin toisistaan itse tapahtuma ja siitä syntynyt digitaalinen muistijälki. Erottelun seurauksena tarjolla on nyt ainakin kaksi selvää vaihtoehtoa sille, mihin datalla viitataan. Oma suosikkini vaihtoehdoista on, että datalla viitataan digitaaliseen muistijälkeen eli tiedostoihin ja bitteihin. Se on vaihtoehdoista konkreettisempi. Luultavasti samasta syystä se myös tuntuu luonnollisemmalta vaihtoehdolta.

Kvalitatiivinen data = fysikaalinen mittausdata

Tehty valinta johtaa radikaalilta tuntuvaan väittämään, että tyypillinen kvalidata eli digitaaliset ääni- ja kuvatallenteet ovat oikeastaan luonnontieteiden fysikaalista mittausdataa. Kuinka tähän väittämään on päädytty?

Tarkastellaan dataa suurennuslasilla ja selvitetään, mistä datan yksittäiset tavut ja tavujen bitit tulevat. Digitaalisen tallenteen bitit syntyvät karkeasti ottaen kaksivaiheisen prosessin tuloksena. Ensimmäisessä vaiheessa on fysikaalista suuretta aistiva anturi, joka muuttaa mittauksen sähköjännitteeksi tai -virraksi. Toisessa vaiheessa on muunnin, joka likimääräistää jännitteen tai virran digitaaliseksi arvoksi, esimerkiksi kokonaisluvuksi välille 0–65535.

Kaikki digitaaliset tallenteet eivät suinkaan ole fysikaalista mittausdataa. Esimerkiksi sävellysohjelmalla luodut musiikkikappaleet tai suunnitteluohjelmalla piirretyt kuvat ovat digitaalisena syntyneitä. Siitä huolimatta suurin osa laadullisista aineistoista on digitaalisia ääni-, kuva- ja videotallenteita eli fysikaalista mittausdataa. Vaikka data olisikin synteettistä ja digitaalisena syntynyttä, sillä on usein mielekäs fysikaalinen tulkinta, jota käytetään datan esittämiseen esimerkiksi äänenä tai kuvana. Tämä hämärtää kvali- ja kvantidatan rajanvetoa, ja aiheuttaa ihmettelyä, kuinka data tulisi luokitella.

Laadullisten aineistojen digitaaliset tallenteet vaikuttavat todella olevan fysikaalista mittausdataa. Voisiko tekniikan ja luonnontieteiden käyttämillä aineistoilla olla muutakin samaa yhteiskuntatieteiden laadullisten aineistojen kanssa kuin pelkkä aineistotyyppi? Vastaus on kyllä. Valmistautukaa kohtaamaan tuttu data uudesta, vieraasta ja ehkä yllättävästäkin näkökulmasta!

Sekä teknis-luonnontieteellisillä että yhteiskuntatieteellisillä aloilla käytetään samankaltaista, ellei peräti täysin samaa dataa. Digitoitua ääntä, kuvaa ja videokuvaa erilaisista asioista, ilmiöistä, tilanteista, ihmisistä ja paikoista. Seuraavat esimerkit näyttävät, kuinka samaa kvalidataa voidaan käyttää teknis-luonnontieteellisillä aloilla tarkoituksiin, joita ei ole ehkä aikaisemmin tullut ajatelleeksi.

Esimerkiksi turvakameran videokuva soveltuu yhtä hyvin käytettäväksi niin teknis-luonnontieteelliseen kuin yhteiskuntatieteelliseen tutkimukseen.

Samoin on erään tosi-tv-ohjelman laita.

Luultavasti sisätiloissa otetut valokuvatkin kelpaavat dataksi tieteenalaan katsomatta.

Tekniikan alalla kuvien ja äänen tarkastelu fysikaalisena mittausdatana ja kvantitatiivinen käsittely on arkipäivää. Asiaa opiskellaan tavallisesti signaalinkäsittelyn kursseilla. Jos teknis-luonnontieteellisen alan ihmiseltä kysyttäisiin, luokittelisiko hän käyttämänsä ääni- ja kuvadatan laadullisiksi, veikkaisin vastauksen olevan kielteinen. Laadullisia aineistotyyppejä edustavat ääni, kuva ja videokuva koetaan teknisillä aloilla kvantitatiivisena datana. Uskon, että datan kvantitatiivinen käsittely vahvistaa kokemusta myös itse datan kvantitatiivisuudesta. Miksei sama pätisi datalle kvalitatiivisenkin käsittelyn suhteen?

Tutkimusmenetelmä: datan ja informaation välinen prosessi

Näiden esimerkkien ja pohdintojen perusteella datassa itsessään ei vaikuta olevan mitään sellaisia sisäisiä ominaisuuksia, joihin nojautuen datan luokittelu joko kvantitatiiviseksi tai kvalitatiiviseksi kävisi mahdolliseksi. Luokittelu kvantiin ja kvaliin tapahtuu pikemminkin sen perusteella, mihin dataa aiotaan käyttää, mitä informaatiota siitä halutaan saada irti tai kuinka dataa kuvitellaan analysoitavan tulevaisuudessa. Se, että luokittelemme datan, kertoo oikeastaan enemmän itsestämme kuin datasta!

Datan sijasta luokitteluperiaatteen keskiöön näyttääkin nousevan datan ja siitä tuotetun informaation välinen prosessi, tutkimusmenetelmä.

Esimerkiksi surveydatasta hankitaan informaatiota käyttäen matemaattista koneistoa. Tilastomatematiikan menetelmät käsittelevät datamatriiseja siinä mielessä objektiivisesti, että prosessi koostuu ennalta määrätyistä askelista ja on toistettavissa. Samalla tavalla esimerkiksi kuvasta tapahtuva hahmontunnistus hyödyntää matemaattista koneistoa ja tuottaa samalla syötteellä aina saman lopputuloksen. Kummassakin tapauksessa data koetaan luultavasti enemmän kvantitatiivisena.

Jos ihminen tulkitsee dataa ja tuottaa siitä informaatiota, syntyy informaatio enemmän tai vähemmän subjektiivisella prosessilla. Tällöin data koetaan luultavasti mieluummin kvalitatiivisena. Ihmisen tuottama informaatio voi olla luonteeltaan sellaista, että se olisi voitu tuottaa myös matemaattisella koneistolla, esimerkiksi kasvojen tunnistaminen kuvasta. Vaikka ihminen tuottaa tällaista informaatiota, niin ihmisen keskeinen rooli prosessissa vaikuttaa siihen, että informaation luonteesta ja prosessin objektiivisuudesta huolimatta data koetaan mieluummin kvalitatiivsena.

Vaikuttaa siltä, että mitä subjektiivisempi matka datasta informaatioksi on, sitä kernaammin data luokitellaan kvalitatiiviseksi. Vastaavasti mitä objektiivisemmin informaatio voidaan tuottaa datasta, sitä helpommin data nähdään kvantitatiivisena. Vaikka luokittelu soveltuu tutkimusmenetelmiin paremmin kuin dataan, näyttää tutkimusmenetelmien luokittelu tarttuvan aiheettomasti itse dataan. Tartunta tapahtuu mahdollisten jatkokäyttäjien kustannuksella. Datan luokittelu yhteen kategoriaan saattaa rajata pois toisen kategorian menetelmiä hyödyntäviä jatkokäyttäjiä.

Koska datan luokittelu kertoo enemmän meistä ja menetelmistämme kuin itse datasta, ehkä siitä voidaan hiljalleen luopua. Lopulta meillä on kuitenkin vain yksi data, monta tulkintaa.

Jani Hautamäki,
järjestelmäsuunnittelija
etunimi.sukunimi [at] uta.fi