Avoin data

Suomessa on jo kohtuullisen runsaasti ns. avointa dataa, eli eri tahojen julkaisemia tietokantoja. Avoin data on määritelmänsä mukaan kenen tahansa vapaasti käytettävissä ja edelleen jaettavissa. Datan vapaa saatavuus pitää sisällään vaatimuksen, että datan on oltava kokonaisuudessaan saatavilla ilmaiseksi tai korkeintaan kohtuullista korvausta vastaan mielellään internetin kautta ja helposti käytettävässä, koneluettavassa muodossa.

Datan tulisi olla koneluettavaa, eli se on oltava helposti tietokoneella käsiteltävissä. Käsinkirjoitetun datan kanssa tietokoneella on ymmärrettävästi ylitsepääsemättömiä ongelmia, mutta myös digitaalisissa formaateissa on eroja, esimerkiksi PDF-dokumenttien sisältämä digitaalinen tieto on muodossa, jota tietokone ei pysty käsittelemään. Koneluettavina formaatteina pidetään csv-, json- ja Excel-tiedostoja kun taas word-dokumentit ja html-sivustot, sekä edellä mainittu pdf-tiedostomuoto liittyvät enemmänkin datan visuaaliseen esittämiseen. Keskeistä koneluettavuudessa on tiedon rakenteellisuus, esimerkiksi jos tieto on html-sivulla taulukossa, se on kohtuullisen koneluettavaa. Pdf-dokumentinkin sisältämää taulukkodataa on mahdollista muuntaa koneluettavaan muotoon tarkoitukseen sopivilla työkaluilla, kuten Tabula, CometDocs tai Adoben Acrobat Reader Pro.

Toki esimerkiksi viranomaisilta saaduissa Excel-tiedostoissa voi olla mutkia koneluettavuuden tiellä. Usein esimerkiksi tietoa esitetään värikoodeilla tai se on jaettu välilehtiin sellaisella tavalla, joka estää koneluettavuutta. Excel-formaatin tulkinta on kuitenkin yksikäsitteistä ja se on mahdollista muuntaa koneluettavaksi formaatiksi kuten csv.

Datan käytössä on myös huomioitava sen mahdolliset lisenssit, joissa kuvataan miten ja mitä tarkoitusta varten data on käytettävissä. Avoimen datan lisenssiin sisältyy vapaa käyttö-, uudelleenkäyttö- ja uudelleenjako-oikeus (use, reuse, redistribute).

Tutustu näihin

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *