Datan analysointi

Datan siivoaminen ja analysointi

Dataa täytyy yleensä siivota esimerkiksi kirjoitusvirheiden poistamiseksi ja datan yhdenmukaistamiseksi. Eri tietokannoissa sama muuttuja saattaa olla merkittynä eri tavalla, jolloin tietokone ei ymmärrä dataa yhdistettäessä, että kyse on samasta asiasta. Myös kirjoitusvirheet, yhdenkin kirjaimen ero, saa tietokoneen tulkitsemaan, että kyseessä on eri asia. Virheiden havaitseminen omin silmin ja käsin korjaaminen on hyvin työlästä. Google Refine –työkalu toimii tässä hyvin, myös muita vastaavia työkaluja on tarjolla.

Datan analysointiin ja tulkintaan tarvitaan datanlukutaitoa, johon kuuluu ainakin perustietämys tilastoista sekä taitoa käsitellä suuria määriä dataa: taulukkolaskentaohjelmien perustaidot olisi oltava hallussa, samoin kuin ymmärrys siitä, miten data on koottu, miten eri tietoja voidaan yhdistää ja miten dataa voidaan tulkita. Dataa käsitellessä olisi hyvä tunnistaa, mikä datassa on olennaista ja kenties kiinnostavaa, mitä dataa yhdistelemällä voi löytää – kenties jotakin uutta tietoa, jota ei aluksi ollut käsillä, tai vahvistusta toimittajan ennakko-oletuksille. Ohjelmointitaito on eduksi, mutta ilman sitäkin voi datajournalistisia juttuja tehdä. Datajournalistit kuitenkin usein korostavat, että olisi hyväksi ainakin ymmärtää ohjelmoinnista sen verran, että tietää, millaiset asiat ovat tehtävissä helposti, mitkä vaikeasti ja mitkä eivät ehkä ollenkaan.

Datan äärellä on hyvä pysähtyä miettimään, mihin kysymyksiin käsissä oleva data antaa vastauksia ja mihin ei. Hyvä keino on ensin listata hypoteesit tai kysymykset, joihin datan oletetaan vastaavan ja sen jälkeen tarkastella dataa: mitkä muuttujat ja muuttujien yhdistelmät antavat vastauksia. Varsin hyödyllistä olisi tällöin tunnistaa, mitkä muuttujista korreloivat keskenään ja onko eri muuttujien välillä riippuvuussuhteita ja havaita, mihin asioihin data ei anna vastauksia. Toisinaan data voi myös tuoda esiin vastauksia niihinkin kysymyksiin, joita toimittaja ei jutuntekoon lähtiessään ole osannut edes kysyä, joten sitä on syytä tarkastella kattavasti ja avoimin silmin. Tarkistuslaskennan merkitystä ennen jutun julkaisua ei voi myöskään liikaa korostaa.

Tutustu näihin:

Tilastokeskuksen Tilastokoulun kursseilla opitaan ymmärtämään tilastoja.

Taulukkolaskentaa itseopiskeluun (Jyväskylän yliopisto)

Jonathan Stray antaa apua datan analysointiin Drawing conclusions on data –esityksessään.

 

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *