Google RefineNouveau
| Version | 2.0 |
| Site web officiel | http://code.google.com/p/google-refine/ |
| Modèle de license | BSD License |
| Appartient aux domaines | Master Data Management
Qualité des Données |
| Testé en | mai 2011 |
Recommandations
Utilisez Google Refine surtout lorsque vous avez affaire à des données qui ne sont pas parfaitement standardisées, normalisées ou formatées.
L’approche est simple et consiste le plus souvent en les étapes suivantes : utilisez les opérations de filtre et de facettes pour visualiser sur quelles rangées vous souhaitez effectuer les opérations. Configurez ensuite, au moyen de l’interface, l'opération que vous voulez exécuter sur toutes les rangées ou cellules sélectionnées.
Les opérations de filtre peuvent traiter des expressions régulières ; les opérations de facettes réunissent les valeurs des cellules d’une colonne comme un autofiltre Excel (mais offrent une série de possibilités dynamiques supplémentaires).
Utilisez « l’historique » des opérations pour :
- essayer des stratégies : si elles ne donnent pas le résultat escompté, retournez vers l’ancienne « situation » des données ;
- exporter une série d’opérations et les réutiliser dans d’autres projets Google Refine.
L’utilisateur peut donc toujours retourner à la forme originelle des données et sait parfaitement quelles opérations ont donné lieu à la situation actuelle des données. Si vous vous y prenez bien, en créant des colonnes de métadonnées supplémentaires, vous les voyez s’afficher les deux côte à côte.
Moyennant l’installation de RDF Extension, les utilisateurs peuvent également enrichir leurs données avec une réconciliation par rapport aux données RDF et SPARQL-endpoints. Par la suite, les données peuvent aussi être exportées comme données RDF.
De cette manière, Google Refine peut jouer un rôle important dans l’évolution vers et l’exploitation des Open Data.
Description
Google Refine est un outil puissant qui permet à l’utilisateur d’effectuer les opérations suivantes :
- convertir des données en un format souhaité (Data Transformation)
- enrichir des données avec des informations qui sont mises à disposition dans des services web (Data Augmentation)
- traiter des incohérences dans l’écriture et le format des informations tant numériques que textuelles (Data Cleansing, « dealing with messy data »)
Google Refine (via les menus déroulants), offre pour cela une série d’opérations configurables « souvent utilisées » au niveau de la colonne et des cellules ainsi que la possibilité de définir ses propres opérations à l’aide de GREL (Google Refine Expression Language).
Pour la Data Augmentation, la réconciliation est possible de manière standard avec (toutes les sources présentes dans) Freebase, mais aussi par exemple avec Google Maps API, ceci ne pose aucun problème.
L’utilisateur est ainsi en mesure de convertir quelle que source textuelle que ce soit en n’importe quel autre format basé texte. Il existe un support intégré pour l’exportation dans les format spécifiques suivants : tab-seperated, CSV, MS-Excel et HTML.
En outre, il existe un support générique pour l’exportation dans n’importe quel autre format structuré (basé texte) avec le Template Exporter. Par défaut, ceci génère JSON (JavaScript Object Notation), mais cela peut être adapté pour des pages WIKI, XML, SQL, ...
