SlideShare une entreprise Scribd logo
Tour d’horizon des API cognitives
Félix Billon
Développeur Web Organisateur Organisateur
@felix_billon
felixbillon
http://shakedatcode.fr
Sommaire
1. API cognitive ?
2. Les APIs : vue d’ensemble
3. Conclusion
Cognitif ?
• Ensemble des processus d’acquisition des connaissances.
• Processus cognitifs : permettent d’acquérir, traiter, stocker et utiliser
des informations.
• Exemple : l’apprentissage, le raisonnement, la perception, la
catégorisation, …
Cognitive computing ?
• Doter un système de processus cognitifs à l’aide d’algorithmes.
• Englobe : machine learning, automated reasoning, natural language
processing, …
• Framework machine learning : TensorFlow (Google), Cognitive Toolkit
(Micrososft), …
API Cognitives
• Interface permettant d’accéder à un programme déjà entrainé ou prêt
à être entrainé.
La parole
APIs : Speech to text
APIs : Text to speech
Vue d’ensemble
La vue
APIs : modération
APIs : visage
APIs : analyse image
APIs : modèle custom
APIs : vidéo
Vue d’ensemble
Le langage
APIs : Traduction
APIs : Natural Language
Vue d’ensemble
La recherche
Vue d’ensemble
La connaissance
Vue d’ensemble
Utilisation des Apis
• Rest • Rest • Rest • Rest
• RPC
SDK : C#, GO,
JAVA, NODE.JS, PHP,
PYTHON, RUBY
SDK : dépend
des APIs
SDK : NODE.JS,
JAVA, PYTHON, GO,
RUBY, PHP, .NET, C++
SDK : NODE.JS,
JAVA, PYTHON, IOS,
UNITY
• CLI
Tarification
• Google Cloud Calculator
• Microsoft Azure Calculator
• IBM Bluemix Calculator
• Amazone Web Service Caculator (*)
Conclusion
• Permet déjà de réaliser un grand nombre de scénarios !
• Très bonne prises en main/documentation des APIs.
• Beaucoup de services/fonctionnalités en beta/alpha.
• Evolue très rapidement.
• Le meilleur reste à venir 

Contenu connexe

PPTX
typescript_cdktf.pptx
PPTX
Un problème 10 solutions : Azure Fighter
PDF
TypeScript Best Practices
PPTX
Présentation et dernières nouveautés Microsoft Bot
PPTX
Global Azure Bootcamp 2018 - Microsoft Bot
PPTX
Présentation Google Cloud Vision API
PDF
Typescript + Graphql = <3
PDF
Introduction TypeScript
typescript_cdktf.pptx
Un problème 10 solutions : Azure Fighter
TypeScript Best Practices
Présentation et dernières nouveautés Microsoft Bot
Global Azure Bootcamp 2018 - Microsoft Bot
Présentation Google Cloud Vision API
Typescript + Graphql = <3
Introduction TypeScript

Dernier (17)

PDF
TP L’analyse granulométrique par tamisage
PPTX
COURS DE PROSPECTION MINIERE UTMSIRI - Copie.pptx
PDF
Visite de chantier – Projet de Polyclinique à Laghouat
PPTX
CH1-RMELLOULI-Données des problèmes d'ordonnancement de la production.pptx
PPTX
UMAPON Cours de traitement des minerais 2.pptx
PDF
Arouna Toure - Senior Ingénieur Logiciel Et Chef De Produit
PDF
Regles sur la gestion de l’Eclairage public
PDF
FAQ_FORAGE_EAU_SUNRISE_ENGINEERING_GROUP_SARL2025.pdf
PDF
TP de La Masse Volumique apparente et absolue
PDF
Expansion du Réseau de Gazoducs de Gaz Naturel au Brésil _ Analyse Technique ...
PPTX
Chapitre7-java------------------ Exception.pptx
PPTX
mon_expose_de_geophysique_disposotif_de_wener.pptx
PPTX
Introduction aux Systèmes temps réel.pptx
PPT
620118449-1-Introduction-de-La-MOCN.pptT
PPTX
Logique séquentielle : les fondamentaux
PDF
Proposition de contenu pouvant résoudre les problèmes détectés à partir des é...
PDF
CHAPITRE 3 Typologie des réseaux [Enregistrement automatique] 4.pdf
TP L’analyse granulométrique par tamisage
COURS DE PROSPECTION MINIERE UTMSIRI - Copie.pptx
Visite de chantier – Projet de Polyclinique à Laghouat
CH1-RMELLOULI-Données des problèmes d'ordonnancement de la production.pptx
UMAPON Cours de traitement des minerais 2.pptx
Arouna Toure - Senior Ingénieur Logiciel Et Chef De Produit
Regles sur la gestion de l’Eclairage public
FAQ_FORAGE_EAU_SUNRISE_ENGINEERING_GROUP_SARL2025.pdf
TP de La Masse Volumique apparente et absolue
Expansion du Réseau de Gazoducs de Gaz Naturel au Brésil _ Analyse Technique ...
Chapitre7-java------------------ Exception.pptx
mon_expose_de_geophysique_disposotif_de_wener.pptx
Introduction aux Systèmes temps réel.pptx
620118449-1-Introduction-de-La-MOCN.pptT
Logique séquentielle : les fondamentaux
Proposition de contenu pouvant résoudre les problèmes détectés à partir des é...
CHAPITRE 3 Typologie des réseaux [Enregistrement automatique] 4.pdf
Publicité
Publicité

Service cognitifs : vue d'ensemble

Notes de l'éditeur

  • #5: cognitif est un adjectif qualificatif se rapportant à la connaissance ou intelligence Deux système capable de réaliser des processus cognitives : naturel (neurone, réseaux de neurone, cerveau, groupe d’individus (fourmis), …) et artificiel (réseau de neurones artificiel)
  • #6: Terme souvent qualifier de marketeu. Machine learning : TensorFlow (Google), Cognitive Toolkit (Micrososft), … VS I.A plus considérer comment faisant de meilleur choix que l’humain. Mode d’apprentissage supervisé = apprends à classé selon un modèle de classement pour prédire l’étiquette d’une nouvelle données (exemple + étiquette) Mode d’apprentissage non supervisé = l’algorithme détermine par lui-même la nature des données (exemple) Mode d’apprentissage semi-supervisé = mixte
  • #7: Pas de skill ML requis Services herbegé sur le cloud 3 gros groupe : parole (analyse vocal et convection vocal), vue (analyse et traitement d’image et vidéo), langage (analyse textuelle). IBM watson et azure ont tendances à diviser en beaucoup de briques leur services.
  • #9: Détection du langage Google Cloud API speech to Text : 80 langages reconnue, modération, possibilité d’étendre les mot reconnue, gère le bruit de l’environnement Speech to text : 8 langage, identification du speaker, keyword spotting Bing speech : 30 langues reste basique. Streaming et non-streaming
  • #10: Polly text to speech : 24 langues, 47 voix, optimisation voix (moins fort plus fort, chuchoter, …), IBM text to speech : 7 langues, 14 Body requête SSML (Speech Synthesis Markup Language), utile pour modifier la voix (timbre, prononciation, ,…) Retourne de l’audio. Bing speech : 36 langues reste basique.
  • #11: IBM Watson text to speech : différencie les speaker pour US, Spanish, Japanese Custom speech : permet d’étendre un model pour ajouter des nom de produit/ jargon (style dot net, namespace, …) | permet d’entrainer le programme à reconnaitre une voix dans un environnement particulier (style usine). Speaker recogntion : peut-être utilisé comme deuxième système pour vérifier l’identité de l’utilisateur.
  • #13: Cloud vision : activation du safesearch dans la requête, puis l’api nous retourne si adulte/violence/… Content moderator : API + portail, détection image+video+texte. Permet de mixer modération + machine (type LUIS). API classique style google Amazon rekonigtion : API indice de confiance + parentname et name (plus précis)
  • #14: Détecte plusieurs visage Cloud vision : activation du face dans la requête, puis l’api nous retourne les coordonnée du visage (yeux, nez, …) puis label (colère, joie, tristesse, porte un chapeau, lunette, …)… Basique. Emotion API + vidéo : puis l’api nous retourne les coordonnée du visage (yeux, nez, …) puis label (colère, joie, tristesse) Amazon rekonigtion + Face API : similarité entre 2 visage, reconnaisance. Détection age, couleur, sexe, …
  • #15: Extraction de texte, détection objet et scène, reconnaissance de marque/logo/célébrité/ lieu géographique/…
  • #16: Modèle vierge prêt à entrainé : charger des collection d’images et les labelisé (exemple assurance détection d’accident, maladie de la peau, ….) Puis le service classe tous seul les images.
  • #17: Cloud video : extraction d’idées/label de la vidéo (chien, fleur, …), extraction de miniature, … Video Indexer : reconnaitre des personne, visage, emotion, extraction de mot clé, … Video API : miniature, suivre viasage, mouvement, …
  • #20: Reconnaissance de la langue + traduction temps réelle Azure : doc très basique partagé par les 2 briques (Translator API)
  • #21: Assisatant google, cortona, Alexa Fonction primaire : extraire les intentions et entité (lieu, date, marque, évènement, …) d’une phrase… (LUIS, LEX, Cloud Natural Language API, …) Secondaire : classifier les informations (Cloud API, Classifier, …), filtré le contenu inapproprié, analyse du sentiment (google, text analysis,, Tone analyser , …) Linguistic analysis : simplifier les concepts de langage complexe (découpage du texte en unité lexical, puis extraction intention entié, …), comprendre ce que dit un utilisateur
  • #22: Bing spell check : correction orthographique Document conversion : convertion format PDF->json, docx->html, … Web langage model : redcouper du texte collé, prévoir les mots qui vont suivre, … Retrieve and rank : amélioration pour répondre au question solr + machine learning.
  • #24: Fonctionnalité de bing : recherche d’image, vidéo, news, … Autosugestion de bing barre de recherche, … Discovery : moteur de recherche cogntif (indexé des données -> analyse sentiment, extraction d’insight, … et pouvoir faire des query dessus). Discovery news : m’alerter quand une news mentionne un entité, analyser les tendances sur une marques, contenu relatif, …
  • #26: QnA maker : from FAQ to Bot. Avant lié au bot framework. Recommandation : proposé des produits a un client (historique d’achat, liaison entre les entité, …) Entity linking : reconnaitre une entité en fonction du contexte (libération (liberer) ou lieu, …) exemple surligna de texte.
  • #27: CLI azure uniquement pour créer les compte, pas faire appel à des fonctionnalités des services déployé. Pour plusieurs services REST/Websocket Micrososft portail : LUIS, Computer vision service, moderation, … IBM portail : Discovery, …