D’un modèle d'IA dans un notebook à un service temps réel : architecturons !

D’un modèle d'IA
dans un notebook
à un service
temps réel :
architecturons !
?

HELLO
Marie-Alice Blete
Software Architect
& Data engineer at Labs

Un peu de contexte
data scientist dév

Un peu de contexte
toute ressemblance avec des personnes
existantes serait purement fortuite
(ou pas)

Un peu de contexte
?
blabla code blabla code
blabla code
blabla code
blabla code blabla code blabla code
data scientist

Un peu de contexte
blabla code
blabla code
data scientist

Un peu de contexte
blabla code
blabla code
?
data scientist

Au programme
remarques &
conclusion
solution 2
critiques/contraintes
solution 3
définitions
objectif
solution 1 solution 4

Le cycle de vie d’un modèle d’IA
entraînement inférence
création du modèle déploiement du modèle
prédiction
nouvelle
donnée modèle
données modèle

prédiction
Le cycle de vie d’un modèle d’IA
nouvelle
donnée modèle
déploiement du modèle
vous êtes ici
inférence
« model-serving »

Point de départ
entrainé + sérialisé
modèle

Point d’arrivée : MODEL-as-SERVICE
modèle
input
prediction
webservice

input
prediction
webservice
modèle

L’accord avec l’équipe data scientist
Pas de contraintes
pour:
le framework
les données
le modèle :
« boite noire »
ReadMe +
Python
sérialisé + entrainé
modèle

définitions
objectif
solution 1

Etape 1 : l’API
API
modèle
?
POST
predict
<data>

Etape 2 : le « wrapper »
Objectif : avoir un contrat d’interface pour le modèle
predict(data) modèle

def initialize(self):
# Charger le modèle
self.model = joblib.load(...)
def predict(self, data):
# Appeler la fonction de prediction
self.model.predict(data)

self.model = keras.models.load_model(mymodel.h5)
self.model.predict_proba(data)

Chez GCP
Wrapper =
Docker container
avec server http
gcloud ai models upload
--region=LOCATION
--display-name=MODEL_NAME
--container-image-uri=IMAGE_URI
--container-command=COMMAND
--container-args=ARGS
--container-predict-route=PREDICT_ROUTE

API
POST
predict
<data>
modèle
MODEL SERVING NODE

modèle
API
POST
predict
<data>
MODEL SERVING NODE

Model-as-service – solution 1
API
POST
predict
<data>
modèle
MODEL SERVING NODE

définitions
objectif

Gérer la charge?
API
POST
predict
<data>
modèle
modèle

Problèmes de cette solution
x Risque de DOS
x Couplage entre API et modèle
x Problème de responsabilité: l’API doit
faire load balancer entre les “Model
Nodes”
?

Etape 3 : ?
?
POST
predict
<data>
modèle
MODEL SERVING NODE
API

Etape 3 : « event queue » + « event
processor »
Request queue
POST
predict
<data>
modèle
MODEL SERVING NODE
MESSAGE BROKER
API

processor »
Request queue
POST
predict
<data>
modèle
EVENT PROCESSOR
MESSAGE BROKER
API

processor »
Request queue
Prediction queue
POST
predict
<data>
API EVENT PROCESSOR
MESSAGE BROKER
modèle

Request queue
Prediction queue
POST
predict
<data>
API EVENT PROCESSOR
MESSAGE BROKER
modèle

définitions
objectif
solution 3

« near real time »
input
prediction
webservice
< X ms modèle

Scalability ?
POST
predict
<data>
EVENT PROCESSOR
MESSAGE BROKER
modèle
API MESSAGE BROKER
Request queue
Prediction queue

Scalability ?
Request queue
Prediction queue
API MESSAGE BROKER EVENT PROCESSOR
modèle
POST
predict
<data>

Scalability ?
Request queue
Prediction queue
API MESSAGE BROKER
LOAD-
BALANCER
EVENT PROCESSOR
modèle

Near real time : timeout
POST
predict
<data>
EVENT PROCESSOR
MESSAGE BROKER
modèle
Request queue
Prediction queue
API

Near real time : timeout, FIFO?
POST
predict
<data>
EVENT PROCESSOR
MESSAGE BROKER
modèle
Request queue
Prediction queue
API

Near real time : dépendant du modèle
Se concerter avec l’équipe de data scientists
precision/recall training loss inference latency
Comparaison de modèles:

Request queue
Prediction queue
API MESSAGE BROKER
LOAD-
BALANCER
EVENT PROCESSOR
modèle

définitions
objectif

Mais…
Hypothèse utilisée :
data fournie par l’api = data attendue dans le modèle

Feature engineering & Preprocessing
Création de features :
Features dérivées
date
montant
ip
jour de la semaine
montant en euros
pays
transaction transaction améliorée

Création de features :
Agrégations transaction
courante
24 heures
moyenne des montants

Spécifique au modèle
dans le « wrapper » modèle

def preprocess(self, data):
# Appliquer les transformations necessaires
data[‘newfeature’] =
do_something_complicated(data[‘somefeature’])

Preprocessing avec agrégat
database
transaction
courante
24 heures
moyenne des montants

Etape 4 : « base de données»
database
POST
predict
<data>
Request queue
Prediction queue
API EVENT PROCESSOR
MESSAGE BROKER
modèle

Preprocessing avec agrégat… et
latence
Agrégation : opération potentiellement coûteuse
Solution classique : utilisation d’un cache
Compromis avec la performance du modèle
?
database

Preprocessing avec agrégat… et
latence
Compromis Latence/Débit vs Performance de modèle
Cohérence entre:
✓le preprocessing de data en batch lors de l’entrainement
✓le traitement au fil de l’eau lors de l’inférence

model-as-service – solution 4
database
POST
predict
<data>
Request queue
Prediction queue
API EVENT PROCESSOR
MESSAGE BROKER
modèle

remarques &
conclusion
solution 2
solution 3
définitions
objectif

Et ailleurs?
Ingestion de données
distincte de l’inférence
autre exemple chez

Et ailleurs?
database
POST
predict
Request queue
Prediction queue
API EVENT PROCESSOR
MESSAGE BROKER
data
stream
input
modèle

Autres patterns d’archi possibles
avec
l’application
cliente
service ou versionning indépendant de
l’application cliente
exécution du modèle
« model-as-dependency »
synchrone
« precompute »
« model-as-service »
asynchrone

Take-aways
message broker
interfaces & généricité
découplage
scalabilité
principe de
responsabilité unique briques indépendantes
communication
wrapper

Déployer un modèle d’IA :
une architecture comme une autre

Don’t be a stranger!
Follow & get in touch
linkedin.com/in/mblete
blog.worldline.tech
@WorldlineTech
Follow our tech team: Follow me:
Marie-Alice Blete
Feedback

D’un modèle d'IA dans un notebook à un service temps réel : architecturons !

Contenu connexe

Similaire à D’un modèle d'IA dans un notebook à un service temps réel : architecturons ! (20)

Plus de Marie-Alice Blete (9)

Dernier (13)

D’un modèle d'IA dans un notebook à un service temps réel : architecturons !