Google RefineNieuw

Versie2.0
Officiële websitehttp://code.google.com/p/google-refine/
LicentiemodelBSD License
Behoort tot de domeinenMaster Data Management
Data Quality
Getest in mei 2011

Aanbevelingen

Gebruik Google Refine vooral wanneer je te maken hebt met niet perfect gestandaardiseerde, genormaliseerde of geformatteerde gegevens.

De aanpak is eenvoudig, en verloopt meestal als volgt: gebruik de filter- en facet-operaties om te visualiseren op welke rijen je operaties wil uitvoeren. Configureer vervolgens een operatie met behulp van de interface, die je op alle geselecteerde rijen of cellen wil uitvoeren.

De filteroperaties kunnen omgaan met reguliere expressies; de facet-operaties clusteren de celwaarden van een kolom zoals een Excel-autofilter (maar bieden een reeks bijkomende dynamische mogelijkheden).

Maak gebruik van de "historiek" van operaties om

  1. strategieën uit te proberen: geven ze niet het gewenste resultaat, ga dan terug naar de vorige "toestand" van de gegevens;
  2. een reeks operaties te exporteren en te hergebruiken in andere Google Refine-projecten.

De gebruiker kan dus altijd terugkeren naar de oorspronkelijke vorm van de gegevens en weet perfect welke operaties aanleiding hebben gegeven tot de huidige toestand van de gegevens. Als je het goed aanpakt, d.m.v. de creatie van extra meta-datakolommen, heb je zelfs beide naast elkaar.

Mits installatie van de RDF Extension, kunnen gebruikers hun data ook verrijken met en reconciliëren t.o.v. RDF-data en SPARQL-endpoints. Vervolgens kunnen data ook geëxporteerd worden als RDF-data.

Op die manier kan Google Refine een grote rol spelen in de evolutie naar en het exploiteren van Open Data.

Beschrijving

Google Refine is een krachtige tool die de gebruiker toelaat om

  1. data om te vormen naar een gewenst formaat (Data Transformation),
  2. data te verrijken met informatie die in webservices ter beschikking wordt gesteld (Data Augmentation), en
  3. daarbij bovendien om te gaan met inconsistenties in schrijfwijze en formaat van zowel numerieke als tekstuele informatie (Data Cleansing, “dealing with messy data”).

Google Refine biedt hiertoe enerzijds (via de drop-down menu's) een reeks "vaak gebruikte" configureerbare operaties, op kolom- en op celniveau; anderzijds de mogelijkheid om eigen operaties te definiëren met behulp van GREL (Google Refine Expression Language).

Voor Data Augmentation is er standaard Reconciliatie mogelijk met (alle bronnen in) Freebase, maar ook bijvoorbeeld met de Google Maps API is dit zeer eenvoudig.

De gebruiker is hiermee in staat gegevens vanuit om het even welke tekstuele bron om te zetten naar om het even welk ander tekst-gebaseerd formaat. Er is ingebouwde support voor uitvoer in de volgende specifieke formaten: tab-seperated, CSV, MS-Excel, en HTML.

Verder is er een generische ondersteuning voor uitvoer in om het even welk ander gestructureerd (tekst-gebaseerd) formaat, met de Template Exporter. Default genereert dit JSON (JavaScript Object Notation), maar dit kan aangepast worden voor WIKI-pagina's, XML, SQL, ...

Heeft u opmerkingen of vragen over deze tekst? Laat het ons weten
Laatst gewijzigd op 28/11/2011