SlideShare une entreprise Scribd logo
Solr in Action
ElasticSearch in Action
@LucianPrecup
@Breizhcamp
2012-06-14
Objectif
• Patterns d’architecture
• Outils pour démarrer et exploiter au mieux les
technologies
• Solr
– Léger accent sur l’indexation
• ElasticSearch
– Léger accent sur la recherche
• Démos
Historique - avant
BDidx
Appli
Répertoire
file file file
< >
< >
< >
www
Browse
Filter
Sort
Get
Historique - après
BDidx
Appli
Répertoire
file file file
< >
< >
< >
www
Index
Search
Filter
Sort
Get
Technologies
• Google Search Appliance
• MS FAST Search
• Apache Solr
• Elastic Search
• …
Fonctionnalités
• Indexation
– Données non-structurées (fichiers)
– Données semi-structurées (email)
– Analyse du texte
• Recherche
– Fulltext, multicritère, suggestion
– Facettes, filtres, tris
Autres utilisations
• Base de données
• BI
Intégration Solr
• Clustering : répartiteur de charge et redondance des SA
• Indexation en masse : dizaine de millions de documents
• Fonctions avancées d’analyse du texte
Démo Solr – alimenter l’index
• Importer une BD
• Join
• Entités et référencement avec ${parent.ID}
• GROUP_CONCAT
• Indexer des fichiers binaires (Word, Excel, PDF)
Types de champs dans l’index
• stored / not_stored
• analyzed / not_analyzed
• Champs de recherche
• Champs de tri
• Champs pour l’affichage
• Champs pour les facettes
• Champs mixtes
Démo Solr – auto-complétion
Analyzers / Tokenizers / Token filters
Document entrée 
Indexation Recherche
Id Nom
1 Céline
Ascii folding  Celine
Lowercase  celine
EdgeNGram  ce cel celi celin celine
Clé Id document
ce 1
cel 1
celi 1
celin 1
celine 1
Index
 Terme recherché
Nom
Céli
Celi  Ascii folding
celi  Lowercase
Solr – zoom sur les outils
• Luke
• Explain
• Solr Admin (stats, query form, analysis)
• Solr browse search UI
ElasticSearch - spécificités
• Clustering
• Schéma auto
• « Rivers » et indexation en temps réel
Intégration – ElasticSearch
• Clustering : p2p
• Indexation au fil de l’eau
ElasticSearch - clustering
ElasticSearch – zoom sur les outils
• curl
• ESHead
• "explain" : 1
Démo – Pertinence
• Comment est calculé le score
• Comment influencer le score
Démo - recherche
• Analyse à la recherche, requêtes composés
• Highlighting
• Fuzzy
• Facettes
• Filtres
Use case métier
• E-commerce
– Beaucoup de critères de pertinence à
implémenter
• Ressources humaines
– Recherche de personnes
– Recherche full-texte (catalogues formation, CVs,
compétences)
• Assurances
– Modèle métier personne-contrat-sinistre

Contenu connexe

KEY
Elasticsearch - Devoxx France 2012
PDF
Tirer le meilleur de ses données avec ElasticSearch
PPTX
A la recherche d'ElasticSearch
PPTX
ElasticSearch : Architecture et Développement
PDF
Introduction à ElasticSearch
PDF
Normandy JUG - Elasticsearch
PDF
Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearch
PDF
Migrer une application existante vers Elasticsearch - Nuxeo Tour 2014 - workshop
Elasticsearch - Devoxx France 2012
Tirer le meilleur de ses données avec ElasticSearch
A la recherche d'ElasticSearch
ElasticSearch : Architecture et Développement
Introduction à ElasticSearch
Normandy JUG - Elasticsearch
Besoin de rien Envie de Search - Presentation Lucene Solr ElasticSearch
Migrer une application existante vers Elasticsearch - Nuxeo Tour 2014 - workshop

Tendances (20)

PPTX
Elasticsearch
PDF
Finist JUG - Elasticsearch
KEY
Hands on lab Elasticsearch
PDF
Nantes JUG - Elasticsearch
KEY
Elasticsearch - Montpellier JUG
PPTX
Tunis big data_meetup__21_nov2015__aymenzaafouri
PDF
Découverte de Elastic search
PDF
Moteurs de recherche : un oeil sous le capot avec Elastic Search
PDF
Présentation de ElasticSearch / Digital apéro du 12/11/2014
PDF
Oxalide Workshop #3 - Elasticearch, an overview
PDF
Poitou charentes JUG - Elasticsearch
PDF
[Breizhcamp 2015] MongoDB et Elastic, meilleurs ennemis ?
ODP
Solr retour d'experience
PDF
Paris data geek - Elasticsearch
PDF
Lausanne JUG - Elasticsearch
PDF
Elasticsearch - Esme sudria
PDF
Breizhcamp 2015 - Comment (ne pas réussir à) modéliser ses data dans elastics...
PPTX
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
PPTX
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
KEY
Elasticsearch - OSDC France 2012
Elasticsearch
Finist JUG - Elasticsearch
Hands on lab Elasticsearch
Nantes JUG - Elasticsearch
Elasticsearch - Montpellier JUG
Tunis big data_meetup__21_nov2015__aymenzaafouri
Découverte de Elastic search
Moteurs de recherche : un oeil sous le capot avec Elastic Search
Présentation de ElasticSearch / Digital apéro du 12/11/2014
Oxalide Workshop #3 - Elasticearch, an overview
Poitou charentes JUG - Elasticsearch
[Breizhcamp 2015] MongoDB et Elastic, meilleurs ennemis ?
Solr retour d'experience
Paris data geek - Elasticsearch
Lausanne JUG - Elasticsearch
Elasticsearch - Esme sudria
Breizhcamp 2015 - Comment (ne pas réussir à) modéliser ses data dans elastics...
Solr, c'est simple et Big Data ready - prez au Lyon jug Fév 2014
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Elasticsearch - OSDC France 2012
Publicité

En vedette (20)

PDF
Apache solr andré bois-crettez 08
PPT
Chapitre1 elk chez_psa
PPT
Chapitre2 prise en_main_kibana
PPT
Chapitre3 elk concepts_avances
PDF
Les dépenses 2004 des collectivités locales de plus de 10 000 habitants - enq...
PPTX
Trabajo informatica cristina garcia.ppt
PPTX
Reconocer el entorno de trabajo
PPT
Disco duro juan david osorio..
PPTX
Voleu conèixer el nostre esquelet
PDF
Pres1 ide0910641
PDF
La veille de red guy du 29.10.14 les marques irrésistibles
PDF
Modèles numériques coûteux : de la quantification des incertitudes la planifi...
ODP
Peli and dani
PDF
Ce qu il faut savoir du web en chine en 2013, dans les diners en ville- chiff...
PPTX
Paula andrea cortez
ODP
Los alimentos
PPTX
Dinero electronico
PPS
Maniobra de Heimlich
PPTX
CapCom13: AT4: S'appuyer sur des porte-parole -part2
PPT
Sciences et démocratie
Apache solr andré bois-crettez 08
Chapitre1 elk chez_psa
Chapitre2 prise en_main_kibana
Chapitre3 elk concepts_avances
Les dépenses 2004 des collectivités locales de plus de 10 000 habitants - enq...
Trabajo informatica cristina garcia.ppt
Reconocer el entorno de trabajo
Disco duro juan david osorio..
Voleu conèixer el nostre esquelet
Pres1 ide0910641
La veille de red guy du 29.10.14 les marques irrésistibles
Modèles numériques coûteux : de la quantification des incertitudes la planifi...
Peli and dani
Ce qu il faut savoir du web en chine en 2013, dans les diners en ville- chiff...
Paula andrea cortez
Los alimentos
Dinero electronico
Maniobra de Heimlich
CapCom13: AT4: S'appuyer sur des porte-parole -part2
Sciences et démocratie
Publicité

Similaire à Solr and Elasticsearch in Action (at Breizhcamp) (20)

PPT
Moteurs de recherche et Lucene at LorraineJUG
PDF
Presentation Lucene / Solr / Datafari - Nantes JUG
PPTX
aMS 2021 - De bonnes pratiques pour rendre SharePoint plus ludique
PDF
Offre Search
PDF
Adbs2012presentation 120527125034-phpapp02
PPTX
#Collab365 L'importance des métadonnées pour votre entreprise
PPTX
14h constellio rida_benelloun
PPT
Les outils de veille informationnelle
PPT
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...
PDF
La recherche sur Internet: devenez un super chercheur
PDF
Solution de recherche Drupal
PPTX
Marseille JUG Novembre 2013 Lucene Solr France Labs
PDF
Créer un moteur de recherche avec des logiciels libres
PDF
June Spark meetup : search as recommandation
PDF
Les évolutions de HAL : présentation du 20 septembre 2017
PDF
Isaac referentiels-ist12-121002051942-phpapp01
PPTX
Web sémantique
PDF
Doctorat sciences - Recherche bibliographique : méthode, sources et outils
PDF
Jabes 2011 - Signalement des ressources électroniques - "Intégrer IdRef dans ...
PDF
Geneva jug Lucene Solr
Moteurs de recherche et Lucene at LorraineJUG
Presentation Lucene / Solr / Datafari - Nantes JUG
aMS 2021 - De bonnes pratiques pour rendre SharePoint plus ludique
Offre Search
Adbs2012presentation 120527125034-phpapp02
#Collab365 L'importance des métadonnées pour votre entreprise
14h constellio rida_benelloun
Les outils de veille informationnelle
Les outils de veille informationnelle, d’archivage, de rediffusion et de cur...
La recherche sur Internet: devenez un super chercheur
Solution de recherche Drupal
Marseille JUG Novembre 2013 Lucene Solr France Labs
Créer un moteur de recherche avec des logiciels libres
June Spark meetup : search as recommandation
Les évolutions de HAL : présentation du 20 septembre 2017
Isaac referentiels-ist12-121002051942-phpapp01
Web sémantique
Doctorat sciences - Recherche bibliographique : méthode, sources et outils
Jabes 2011 - Signalement des ressources électroniques - "Intégrer IdRef dans ...
Geneva jug Lucene Solr

Plus de Lucian Precup (9)

PPTX
Enrich data and rewrite queries with the Elasticsearch percolator
PPTX
Joins in a distributed world Distributed Matters Barcelona 2015
PPTX
Search and nosql for information management @nosqlmatters Cologne
PPTX
Back to the future : SQL 92 for Elasticsearch ? @nosqlmatters Dublin 2014
PPTX
Back to the future : SQL 92 for Elasticsearch @nosqlmatters Paris
PPT
Search, nosql et bigdata avec les moteurs de recherche
PDF
ALM et Agilite : la convergence
PDF
La revue de code : facile !
PDF
La revue de code : agile, lean, indispensable !
Enrich data and rewrite queries with the Elasticsearch percolator
Joins in a distributed world Distributed Matters Barcelona 2015
Search and nosql for information management @nosqlmatters Cologne
Back to the future : SQL 92 for Elasticsearch ? @nosqlmatters Dublin 2014
Back to the future : SQL 92 for Elasticsearch @nosqlmatters Paris
Search, nosql et bigdata avec les moteurs de recherche
ALM et Agilite : la convergence
La revue de code : facile !
La revue de code : agile, lean, indispensable !

Dernier (7)

PPTX
Presentation_Securite_Reseaux_Bac+2.pptx
PDF
presentation_with_intro_compressee IEEE EPS France
PDF
FORMATION EN Programmation En Langage C.pdf
PDF
Modems expliqués- votre passerelle vers Internet.pdf
PDF
FORMATION COMPLETE EN EXCEL DONE BY MR. NYONGA BRICE.pdf
PDF
Tendances tech 2025 - SFEIR & WENVISION.pdf
PPTX
Souveraineté numérique - Définition et enjeux pour les entreprises et les dév...
Presentation_Securite_Reseaux_Bac+2.pptx
presentation_with_intro_compressee IEEE EPS France
FORMATION EN Programmation En Langage C.pdf
Modems expliqués- votre passerelle vers Internet.pdf
FORMATION COMPLETE EN EXCEL DONE BY MR. NYONGA BRICE.pdf
Tendances tech 2025 - SFEIR & WENVISION.pdf
Souveraineté numérique - Définition et enjeux pour les entreprises et les dév...

Solr and Elasticsearch in Action (at Breizhcamp)

Notes de l'éditeur

  • #4: Comment sont apparus les moteurs de recherche Fonctions: indexation, recherche, analyse du texte!!! Avant : Information structurées par domaine applicatif ; base de données (table, colonne), FS (fichier, contenu), Site Web (Plan de site et pages) process d’accès a l’information : naviguer / parcourir puis filtrer/trier navigation dans tout l’espace recherché Apres : Information non structurée et héterogènes : Process : Search puis filtrer / trier : navigation dans le résultat
  • #5: Comment sont apparus les moteurs de recherche Fonctions: indexation, recherche, analyse du texte!!! Avant : Information structurées par domaine applicatif ; base de données (table, colonne), FS (fichier, contenu), Site Web (Plan de site et pages) process d’accès a l’information : naviguer / parcourir puis filtrer/trier navigation dans tout l’espace recherché Apres : Information non structurée et héterogènes : Process : Search puis filtrer / trier : navigation dans le résultat
  • #7: Que peut faire un moteur de recherche? BD – en complément ou en remplacement BI + navigation sur les sites web
  • #8: Que peut faire un moteur de recherche? BD – en complément ou en remplacement BI + navigation sur les sites web
  • #10: Autres possibilités : - Envoi des documents en HTTP (XML, JSON) - Importer une BD - Charger un fichier CSV - Indexer des fichiers binaires (Word, Excel, PDF) - Envoi des documents en Java (SolrJ) - Crawling des sites web
  • #12: + highlighting ! Ne pas utiliser prefix query