Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Les TIC et l’art
OpenRefine
traitement de données en masse
Antoine Courtin / Pierre Mounier /Antonio Mendes da Silva – jeudi 9 juin 2016
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
LOD cloud diagram d’août 2014
L’outil OpenRefine est historiquement lié à l’existence de Freebase, l’un des tous premiers projets
collaboratifs d’entrepôts de données sémantiques sur le web
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Qu’est-ce qu’OpenRefine ?
Historique :
2007 mars : Metaweb lance Freebase
2010 : Freebase est proposée avec l’outil de nettoyage et de
traitement des données Gridworks (v1.0)
2010 juillet : Google rachète Metaweb
2010 nov : Gridworks devient Google Refine
2012 oct : Arrêt de Google Refine dont le code est libéré et qui devient
OpenRefine
[2012 : Le contenu de Freebase est transféré sur Wikidata
2014 déc : Google annonce la fermeture de Freebase
2015 : Fermeture progressive de Freebase et des services associés
2016 mai : Fermeture définitive de Freebase
…………………..]
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Un tutoriel pas à pas sur OpenRefine :
http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
1. Installation d’OpenRefine : http://openrefine.org/download.html
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
2. Récupérer un set de données à nettoyer pour l’atelier :
http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Exercices…
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Où les trouver ? Comment les installer ?
• Sur le site officiel, à la page des
téléchargments
-> http://openrefine.org/download.html
• sur Github, dans des répertoires
spécifiques (recherche sur « plugin et/ou
extension)
-> http://bit.ly/1X9TEx4
-> http://bit.ly/1UEghq1
• Fermer l’application
• Se rendre dans le répertoire où se trouve
l’application
• Dans le dossier /webapp/, créer le dossier
« extensions » si celui-ci n’existe pas
• Télécharger l’extension souhaitée au
format .zip, le dézipper et placer ce
répertoire dans le répertoire
/webapp/extensions
• Relancer l’application
« Augmenter » le comportement d’OpenRefine
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
« Augmenter » le comportement d’OpenRefine
Les plugins/extensions les + utiles
• Exporter les données en RDF (à partir d’un squelette
issue d’une ontologie par ex.)
• https://github.com/fadmaa/grefine-rdf-
extension/releases
• (ATTENTION: renommer le dossier dezippé en
« rdf-extension » avant de le copier dans le
répertoire /webapp/extensions/)
• Extraction d’entités nommées
• https://github.com/RubenVerborgh/Refine-NER-
Extension
• VIB-BITS: 3 plugins (gestions des actions/historique;
comparaison entre 2 textes; gestions des facettes)
• https://www.bits.vib.be/index.php/software-
overview/openrefine
• Réaliser des statistiques
• https://github.com/sparkica/refine-stats
Des services à paramétrer
• La reconciliation avec VIAF
• http://refine.codefork.com/
• Aller dans « Add Standard Service » puis ajouter
le code suivant:
http://refine.codefork.com/reconcile/viaf
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Une utilisation « augmentée » d’OpenRefine
Quelques exemples/exercices
• Utiliser l’API de Google pour géolocaliser des lieux
• Ajouter à la colonne Lieu_naissance 1, le terme de Etats-Unis
• Jouer avec les filtres pour avoir dans la zone centrale, les architectes nés à Bennington, Aurora et
Allegheny.
• Lancer la géolocalisation via « by fetching URL »
• "http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value,
"url »)
• Extraite les coordonnées géographiques dans une autre colonne
• Procéder à une « reconciliation » avec VIAF sur les élèves nés à New York
• Créer une colonne avec pour créer le nom complet
• Filtrer sur les élèves nés à New York
• Procéder à la réconciliation en utilisant le VIAF
• Utiliser l’interface pour valider et choisir la réconciliation
• Créer une colonne en extrayant l’id des résultats de la reconciliation avec VIAF
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
OpenRefine & les plugins
• Utiliser l’API de Google pour géolocaliser des lieux
• Ajouter à la colonne Lieu_naissance 1, le terme de Etats-Unis
• cells['Lieu_naissance 1'].value + ", Etats-Unis"
• Jouer avec les filtres pour avoir dans la zone centrale, les architectes nés à Bennington, Aurora et Allegheny.
• Lancer la géolocalisation via « by fetching URL »
• "http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value, "url »)
• Extraite les coordonnées géographiques dans une autre colonne
• with(value.parseJson().results[0].geometry.location, pair, pair.lat +", " + pair.lng)
• Procéder à une « reconciliation » avec VIAF sur les élèves nés à New York
• Créer une colonne avec pour créer le nom complet
• cells['Nom_usuel'].value + ", " + cells['Prenom_usuel'].value
• Filtrer sur les élèves nés à New York
• Procéder à la réconciliation en utilisant le VIAF
• Utiliser l’interface pour valider et choisir la réconciliation
• Créer une colonne en extrayant l’id des résultats de la reconciliation avec VIAF
• cell.recon.match.id
Quelques exemples/exercices -> réponses
Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Certains des + d’OpenRefine
• Pouvoir facilement relier 2 projets et ajouter des données de l’un à l’autre des projets
• cell.cross("My Address Book", "friend")[0].cells["address"].value[0]
• Pouvoir sauvegarder et rejouer un ensemble des tâches ultérieurement grâce à un fichier json
• Aller dans l’onglet “Unod/Redo” puis dans Extract/Aplply
• Extraire des données d’une page web
• Grâce à lafonction “Add column by fetching URL” + la fonctionparseHTML
Paramétrages pratiques
• Paramétrer le nombre de facettes autorisées
• http://127.0.0.1:3333/preferences
• Ajouter ui.browsing.listFacet.limit (ex 10000)
• Augmenter la mémoire allouer à OpenRefine (pour traiter des fichiers + gros)
• modifier le paramètre-XXmx2048M dansle fichier “google.refine.l4j.ini”

Contenu connexe

PDF
Kit de survie : Les bases de données
PDF
Images numériques et métadonnées, seconde partie du 10 mars 2016
PDF
Gérer ses références bibliographiques avec Zotero
PDF
Zotero, journée de formation 19 janvier 2017
PDF
Les TIC et l'art : Flickr, Médihal, Freebase
PDF
Les Tic et l'art: images numériques, traitement et diffusion, 1
PDF
Les TIC et l'art : les Archives Ouvertes
PDF
Images numériques et métadonnées: traitement et diffusion, seconde partie
Kit de survie : Les bases de données
Images numériques et métadonnées, seconde partie du 10 mars 2016
Gérer ses références bibliographiques avec Zotero
Zotero, journée de formation 19 janvier 2017
Les TIC et l'art : Flickr, Médihal, Freebase
Les Tic et l'art: images numériques, traitement et diffusion, 1
Les TIC et l'art : les Archives Ouvertes
Images numériques et métadonnées: traitement et diffusion, seconde partie

Tendances (14)

PDF
Les TIC et l'art: Wikipedia et GeoNames
PDF
Les TIC et l'art : Zotero
PDF
Flux RSS, principes et outils
PDF
Omeka : exposition virtuelle
PDF
Les TIC et l'art : Qu'est-ce qu'ISIDORE ?
PDF
Les TIC et l'art : l'Open Access
PDF
Les TIC et l’art : outils de partage (images, fichiers, video, son)
PPTX
DBpedia Cafe-In
PDF
DBpédia en français
PPT
Le dépôt légal du web
PDF
Autour de Wikipédia et des projets frères
PDF
Les TIC et l'Art : Flux RSS, principes et outils
PPT
Europeana et IIIF
PDF
La numérisation des archives de la mission de folklore musical en Basse-Breta...
Les TIC et l'art: Wikipedia et GeoNames
Les TIC et l'art : Zotero
Flux RSS, principes et outils
Omeka : exposition virtuelle
Les TIC et l'art : Qu'est-ce qu'ISIDORE ?
Les TIC et l'art : l'Open Access
Les TIC et l’art : outils de partage (images, fichiers, video, son)
DBpedia Cafe-In
DBpédia en français
Le dépôt légal du web
Autour de Wikipédia et des projets frères
Les TIC et l'Art : Flux RSS, principes et outils
Europeana et IIIF
La numérisation des archives de la mission de folklore musical en Basse-Breta...
Publicité

En vedette (20)

PDF
Construire des outils pour la gestion des données de la recherche dans une co...
PPS
Mi cuerpo el camino
PDF
Zotero mendeley 20121018
PDF
Emtp User Group092008 Edf Ttr Discordance Phase Web
PPTX
Pres difodia
PDF
Emtp User Group092008 Sicae Raccordement Resau Web
PPS
Photos Insolites
PPSX
Andres amador
PDF
Qui ne voudrait pas gagner 1 million avec Drupal ?
PDF
Ellos Ya No Estan Con Nosotros Pero No Les Olvidaremos Nunca
PPTX
Diapo Mawafe
PPS
Lafemme Th
PDF
PDF
Xtc conference-sial-2010
PPS
Promenade dans les calanques
ODP
visioaccueils - EPN 2.0 CRéATIF
PPTX
Jose vasquez actividad_3
PPTX
Docentes inei
Construire des outils pour la gestion des données de la recherche dans une co...
Mi cuerpo el camino
Zotero mendeley 20121018
Emtp User Group092008 Edf Ttr Discordance Phase Web
Pres difodia
Emtp User Group092008 Sicae Raccordement Resau Web
Photos Insolites
Andres amador
Qui ne voudrait pas gagner 1 million avec Drupal ?
Ellos Ya No Estan Con Nosotros Pero No Les Olvidaremos Nunca
Diapo Mawafe
Lafemme Th
Xtc conference-sial-2010
Promenade dans les calanques
visioaccueils - EPN 2.0 CRéATIF
Jose vasquez actividad_3
Docentes inei
Publicité

Similaire à OpenRefine: traitement de données en masse (20)

PDF
Des métadonnées pour les images numériques du patrimoine culturel: présentati...
PDF
Formation zotero30012014
PDF
Atelier #2 à la Cité des Sciences- Art et Science : Des rencontres catalysées...
PDF
Bilan des 4 premières années du Museolab
PDF
Fête de la science 2017 programme pour le scolaire
PDF
Museomix presentation générale - Edition 2013
PDF
Quelques chiffres et tendances du numérique dans le secteur muséal - juillet ...
PDF
1303 culture partage
PDF
Présentation Diagonale aux Journées Recherche en Design 16 10 14
PPTX
Visites accompagnees en_numerik_formation_cnfpt2011
PPTX
Museomix - 2015 Canadian Museum Association Conference
PPTX
Data sprint des archives
PDF
Atelier #1 à la Cité des Sciences-Introduction à l'Open Science ( mars 2014)
PDF
Estampages_EfA_dec2016
PDF
Accéder à l'art et à la culture grâce au Web
PPTX
Evenement museal - Buzzeum - Marseille 2.0
PPTX
Principales ressources au Centre GéoStat (2016)
PPTX
Museomix présentation générale
PPTX
L'événementiel muséal 2.0 : l'exemple de la Nuit européenne des musées 2010
PDF
Les TIC et l'art: images numériques et métadonnées
Des métadonnées pour les images numériques du patrimoine culturel: présentati...
Formation zotero30012014
Atelier #2 à la Cité des Sciences- Art et Science : Des rencontres catalysées...
Bilan des 4 premières années du Museolab
Fête de la science 2017 programme pour le scolaire
Museomix presentation générale - Edition 2013
Quelques chiffres et tendances du numérique dans le secteur muséal - juillet ...
1303 culture partage
Présentation Diagonale aux Journées Recherche en Design 16 10 14
Visites accompagnees en_numerik_formation_cnfpt2011
Museomix - 2015 Canadian Museum Association Conference
Data sprint des archives
Atelier #1 à la Cité des Sciences-Introduction à l'Open Science ( mars 2014)
Estampages_EfA_dec2016
Accéder à l'art et à la culture grâce au Web
Evenement museal - Buzzeum - Marseille 2.0
Principales ressources au Centre GéoStat (2016)
Museomix présentation générale
L'événementiel muséal 2.0 : l'exemple de la Nuit européenne des musées 2010
Les TIC et l'art: images numériques et métadonnées

Plus de Lesticetlart Invisu (20)

PDF
Invisu plaquette 2017
PPT
Publier à quel prix?
PDF
Plaquette InVisu 2016
PDF
Kit de survie: Création et gestion d'une bibliothèque d'images numériques
PDF
Kit de survie : Gestion et traitement des images numériques
PDF
Atelier Zotero intermédiaire
PDF
Gérer ses références bibliographiques avec Zotero
PDF
Dossier thématique droit cnrs
PDF
Plaquette InVisu 2015
PDF
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
PDF
Structurer, relier et diffuser des données avec les technologies du web séman...
PDF
IdRef – Référentiels pour l’Enseignement Supérieur et la Recherche
PDF
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
PDF
Réaliser un plan de gestion de données
PDF
Accompagnement actif des chercheurs à la gestion et au partage des données de...
PDF
Indigeo, une infrastructure de données spatiales dédiée à la recherche et l’o...
PDF
Illustration des questions de dialogue et coordination entre les acteurs à tr...
PDF
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
PDF
Pérennisation et mise à disposition des données de l’Observatoire de recherch...
PDF
Diffuser pour mieux préserver : l’expérience de beQuali
Invisu plaquette 2017
Publier à quel prix?
Plaquette InVisu 2016
Kit de survie: Création et gestion d'une bibliothèque d'images numériques
Kit de survie : Gestion et traitement des images numériques
Atelier Zotero intermédiaire
Gérer ses références bibliographiques avec Zotero
Dossier thématique droit cnrs
Plaquette InVisu 2015
L'ouverture des données de la recherche en 2015 : définitions, enjeux, dynami...
Structurer, relier et diffuser des données avec les technologies du web séman...
IdRef – Référentiels pour l’Enseignement Supérieur et la Recherche
Le Thésaurus pour l'indexation des archives locales et le Web de données, INH...
Réaliser un plan de gestion de données
Accompagnement actif des chercheurs à la gestion et au partage des données de...
Indigeo, une infrastructure de données spatiales dédiée à la recherche et l’o...
Illustration des questions de dialogue et coordination entre les acteurs à tr...
Problématique du devenir des données au Centre de Calcul de l'IN2P3 - Pascal ...
Pérennisation et mise à disposition des données de l’Observatoire de recherch...
Diffuser pour mieux préserver : l’expérience de beQuali

Dernier (20)

PDF
تصريف فعل Être في كل الأزمنة الفرنسية.pdf
PPTX
Presentation of French language that is very important
PPTX
Soutenance_Analyse_Gestion_Stocks_AVS.pptx
PPTX
Generation z presenation simplifier .pptx
PPTX
448620551-PRESENTATION-POWER Un mémoire est un document permettant d'exposer ...
PPTX
Soutenance_Memoire_OBAME_Roseline_Master.pptx
PPTX
liste des APT - entreprises industrielle
PPTX
Saint Pape Pie X, Giuseppe Melchiorre Sarto 1835-1914.pptx
PPTX
XEROPHTALMIE , SES ETIOLOGIES ET SA PRISE EN CHARGE
PDF
Bac 2025 - Livre - 🎤 Le Grand Oral - ✍️ Exemples rédigés - 🌍 HGGSP - Extrait 2
PDF
Enseigner Python autrement : la méthode UMC pour une pédagogie innovante - 1
PDF
Formation Hygiène Sécurité Environnement - ESPACE CONFINÉ
PDF
Formation hygiène sécurité environnement - RISQUES CHIMIQUES
PPTX
Présentation xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx portrait.pptx
PPTX
Niki de Saint-Phalle.pptx artiste plasticienne
DOCX
Une école qui dirige par des universitaires et professionnels
PDF
Leadership,_Pitch_et_Marketing_–_Préparer_son_accès_au_marché.pdf
PPTX
Saint Jean Eudes, 1601-1680, prêtre et fondateur français.pptx
PPTX
Sainte Rose de Lima, Vierge, Pénitente, Tertiaire Dominicaine 1586-1617.pptx
PDF
Devenir un expert en audit qualité, la démarche.pdf
تصريف فعل Être في كل الأزمنة الفرنسية.pdf
Presentation of French language that is very important
Soutenance_Analyse_Gestion_Stocks_AVS.pptx
Generation z presenation simplifier .pptx
448620551-PRESENTATION-POWER Un mémoire est un document permettant d'exposer ...
Soutenance_Memoire_OBAME_Roseline_Master.pptx
liste des APT - entreprises industrielle
Saint Pape Pie X, Giuseppe Melchiorre Sarto 1835-1914.pptx
XEROPHTALMIE , SES ETIOLOGIES ET SA PRISE EN CHARGE
Bac 2025 - Livre - 🎤 Le Grand Oral - ✍️ Exemples rédigés - 🌍 HGGSP - Extrait 2
Enseigner Python autrement : la méthode UMC pour une pédagogie innovante - 1
Formation Hygiène Sécurité Environnement - ESPACE CONFINÉ
Formation hygiène sécurité environnement - RISQUES CHIMIQUES
Présentation xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx portrait.pptx
Niki de Saint-Phalle.pptx artiste plasticienne
Une école qui dirige par des universitaires et professionnels
Leadership,_Pitch_et_Marketing_–_Préparer_son_accès_au_marché.pdf
Saint Jean Eudes, 1601-1680, prêtre et fondateur français.pptx
Sainte Rose de Lima, Vierge, Pénitente, Tertiaire Dominicaine 1586-1617.pptx
Devenir un expert en audit qualité, la démarche.pdf

OpenRefine: traitement de données en masse

  • 1. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Les TIC et l’art OpenRefine traitement de données en masse Antoine Courtin / Pierre Mounier /Antonio Mendes da Silva – jeudi 9 juin 2016
  • 2. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr LOD cloud diagram d’août 2014 L’outil OpenRefine est historiquement lié à l’existence de Freebase, l’un des tous premiers projets collaboratifs d’entrepôts de données sémantiques sur le web
  • 3. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Qu’est-ce qu’OpenRefine ? Historique : 2007 mars : Metaweb lance Freebase 2010 : Freebase est proposée avec l’outil de nettoyage et de traitement des données Gridworks (v1.0) 2010 juillet : Google rachète Metaweb 2010 nov : Gridworks devient Google Refine 2012 oct : Arrêt de Google Refine dont le code est libéré et qui devient OpenRefine [2012 : Le contenu de Freebase est transféré sur Wikidata 2014 déc : Google annonce la fermeture de Freebase 2015 : Fermeture progressive de Freebase et des services associés 2016 mai : Fermeture définitive de Freebase …………………..]
  • 4. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Un tutoriel pas à pas sur OpenRefine : http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial
  • 5. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr 1. Installation d’OpenRefine : http://openrefine.org/download.html
  • 6. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr 2. Récupérer un set de données à nettoyer pour l’atelier : http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial
  • 7. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Exercices…
  • 8. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Où les trouver ? Comment les installer ? • Sur le site officiel, à la page des téléchargments -> http://openrefine.org/download.html • sur Github, dans des répertoires spécifiques (recherche sur « plugin et/ou extension) -> http://bit.ly/1X9TEx4 -> http://bit.ly/1UEghq1 • Fermer l’application • Se rendre dans le répertoire où se trouve l’application • Dans le dossier /webapp/, créer le dossier « extensions » si celui-ci n’existe pas • Télécharger l’extension souhaitée au format .zip, le dézipper et placer ce répertoire dans le répertoire /webapp/extensions • Relancer l’application « Augmenter » le comportement d’OpenRefine
  • 9. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr « Augmenter » le comportement d’OpenRefine Les plugins/extensions les + utiles • Exporter les données en RDF (à partir d’un squelette issue d’une ontologie par ex.) • https://github.com/fadmaa/grefine-rdf- extension/releases • (ATTENTION: renommer le dossier dezippé en « rdf-extension » avant de le copier dans le répertoire /webapp/extensions/) • Extraction d’entités nommées • https://github.com/RubenVerborgh/Refine-NER- Extension • VIB-BITS: 3 plugins (gestions des actions/historique; comparaison entre 2 textes; gestions des facettes) • https://www.bits.vib.be/index.php/software- overview/openrefine • Réaliser des statistiques • https://github.com/sparkica/refine-stats Des services à paramétrer • La reconciliation avec VIAF • http://refine.codefork.com/ • Aller dans « Add Standard Service » puis ajouter le code suivant: http://refine.codefork.com/reconcile/viaf
  • 10. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Une utilisation « augmentée » d’OpenRefine Quelques exemples/exercices • Utiliser l’API de Google pour géolocaliser des lieux • Ajouter à la colonne Lieu_naissance 1, le terme de Etats-Unis • Jouer avec les filtres pour avoir dans la zone centrale, les architectes nés à Bennington, Aurora et Allegheny. • Lancer la géolocalisation via « by fetching URL » • "http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value, "url ») • Extraite les coordonnées géographiques dans une autre colonne • Procéder à une « reconciliation » avec VIAF sur les élèves nés à New York • Créer une colonne avec pour créer le nom complet • Filtrer sur les élèves nés à New York • Procéder à la réconciliation en utilisant le VIAF • Utiliser l’interface pour valider et choisir la réconciliation • Créer une colonne en extrayant l’id des résultats de la reconciliation avec VIAF
  • 11. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr OpenRefine & les plugins • Utiliser l’API de Google pour géolocaliser des lieux • Ajouter à la colonne Lieu_naissance 1, le terme de Etats-Unis • cells['Lieu_naissance 1'].value + ", Etats-Unis" • Jouer avec les filtres pour avoir dans la zone centrale, les architectes nés à Bennington, Aurora et Allegheny. • Lancer la géolocalisation via « by fetching URL » • "http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value, "url ») • Extraite les coordonnées géographiques dans une autre colonne • with(value.parseJson().results[0].geometry.location, pair, pair.lat +", " + pair.lng) • Procéder à une « reconciliation » avec VIAF sur les élèves nés à New York • Créer une colonne avec pour créer le nom complet • cells['Nom_usuel'].value + ", " + cells['Prenom_usuel'].value • Filtrer sur les élèves nés à New York • Procéder à la réconciliation en utilisant le VIAF • Utiliser l’interface pour valider et choisir la réconciliation • Créer une colonne en extrayant l’id des résultats de la reconciliation avec VIAF • cell.recon.match.id Quelques exemples/exercices -> réponses
  • 12. Les TIC et l'art OpenRefine 9 juin 2016 Institut national d'histoire de l'art Accès: 6, rue des Petits-Champs 75002Paris Adresse postale: 2, rue Vivienne 75002Paris Métro : Bourse, Pyramides Palais royal/Musée du Louvre Tél. : +33 (0) 1 47 03 8984 Fax : +33 (0) 1 47 03 8636 lesticetlart@inha.fr http://invisu.inha.fr Certains des + d’OpenRefine • Pouvoir facilement relier 2 projets et ajouter des données de l’un à l’autre des projets • cell.cross("My Address Book", "friend")[0].cells["address"].value[0] • Pouvoir sauvegarder et rejouer un ensemble des tâches ultérieurement grâce à un fichier json • Aller dans l’onglet “Unod/Redo” puis dans Extract/Aplply • Extraire des données d’une page web • Grâce à lafonction “Add column by fetching URL” + la fonctionparseHTML Paramétrages pratiques • Paramétrer le nombre de facettes autorisées • http://127.0.0.1:3333/preferences • Ajouter ui.browsing.listFacet.limit (ex 10000) • Augmenter la mémoire allouer à OpenRefine (pour traiter des fichiers + gros) • modifier le paramètre-XXmx2048M dansle fichier “google.refine.l4j.ini”