Ruudun raavinta eli screen scraping

Screen scraping tarkoittaa yksinkertaisesti sitä, että verkkosivuilla olevaa tietoa kopioidaan koneluettavaan muotoon taulukoksi. Usein pelkkä copy-paste –kopioiminen ei toimi, ja käsin tietojen siirtäminen puolestaan on hidasta ja altista virheille. Esimerkiksi pdf-muotoista dataa voi siirtää Excel-muotoon erilaisilla scraper-työkaluilla. Googlen Chrome-selaimen lisäosana toimiva Chrome’s Scraperilla saa louhittua taulukoita nettisivuilta. Muita työkaluja ovat mm. Readability tekstin louhimiseen tai DownThemAll, jolla saa ladattua useita tiedostoja kerralla. On kuitenkin hyvä muistaa, etteivät edes nämä työkalut pysty kaikkeen, esimerkiksi huonosti muotoiltuun (vanhaan, strukturoimattomaan) html-koodiin, dataan joka on suojauksen (esimerkiksi maksumuuri) takana ym. Dataa raapiessa on myös hyvä muistaa lainsäädäntö – kaikki data ei ole ilman muuta julkaistavissa uudelleen.

ScraperWiki mahdollistaa raavintaohjelmien koodaamisen eri ohjelmointikielillä.

Tutustu näihin:

Chromen Scraper –työkalun ohje (School of Data)

Paul Bradshaw’n kirja Scraping for journalists –kirja esittää mm. miten Google Spreadsheetin import-funktioita voi käytää scraperina.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *