Cette page a été traduite par l'API Cloud Translation.

Diffuser Stable Diffusion XL (SDXL) à l'aide de TPU sur GKE avec MaxDiffusion

Autopilot Standard

Ce tutoriel vous montre comment diffuser un modèle de génération d'images SDXL à l'aide des TPU (Tensor Processing Unit) sur Google Kubernetes Engine (GKE) avec MaxDiffusion. Dans ce tutoriel, vous allez télécharger le modèle depuis Hugging Face et le déployer sur un cluster Autopilot ou Standard à l'aide d'un conteneur exécutant MaxDiffusion.

Ce guide est un bon point de départ si vous avez besoin du contrôle précis, de la personnalisation, de l'évolutivité, de la résilience, de la portabilité et de la rentabilité des services Kubernetes gérés lors du déploiement et de la diffusion de vos charges de travail d'IA/de ML. Si vous avez besoin d'une plate-forme d'IA gérée unifiée pour créer et diffuser rapidement des modèles de ML à moindre coût, nous vous recommandons d'essayer notre solution de déploiement Vertex AI.

Contexte

En diffusant SDXL à l'aide de TPU sur GKE avec MaxDiffusion, vous pouvez créer une solution de diffusion robuste et prête pour la production avec tous les avantages de la plate-forme Kubernetes gérée, y compris la rentabilité, l'évolutivité et la plus grande disponibilité. Cette section décrit les principales technologies utilisées dans ce tutoriel.

Stable Diffusion XL (SDXL)

Stable Diffusion XL (SDXL) est un type de modèle de diffusion latente (LDM) compatible avec MaxDiffusion pour l'inférence. Pour l'IA générative, vous pouvez utiliser des LDM pour générer des images de haute qualité à partir de descriptions textuelles. Les LDM sont utiles pour des applications telles que la recherche d'images et le sous-titrage d'images.

SDXL est compatible avec l'inférence à hôte unique ou multi-hôte avec des annotations de partitionnement. Cela permet à SDXL d'être entraîné et exécuté sur plusieurs machines, ce qui peut améliorer l'efficacité.

Pour en savoir plus, consultez le dépôt de modèles génératifs de Stability AI et le SDXL.

TPU

Les TPU sont des circuits intégrés propres aux applications (Application-Specific Integrated Circuit ou ASIC), développés spécifiquement par Google et permettant d'accélérer le machine learning et les modèles d'IA créés à l'aide de frameworks tels que TensorFlow, PyTorch et JAX.

Avant d'utiliser des TPU dans GKE, nous vous recommandons de suivre le parcours de formation suivant :

Découvrez la disponibilité actuelle des versions de TPU avec l'architecture système de Cloud TPU.
Apprenez-en plus sur les TPU dans GKE.

Ce tutoriel explique comment diffuser le modèle SDXL. GKE déploie le modèle sur des nœuds TPU v5e à hôte unique avec des topologies TPU configurées en fonction des exigences du modèle pour diffuser des requêtes avec une faible latence. Dans ce guide, le modèle utilise une puce TPU v5e avec une topologie 1x1.

MaxDiffusion

MaxDiffusion est une collection d'implémentations de référence, écrites en Python et Jax, de divers modèles de diffusion latente qui s'exécutent sur des appareils XLA, y compris les TPU et les GPU. MaxDiffusion est un point de départ pour les projets de diffusion, à la fois pour la recherche et la production.

Pour en savoir plus, consultez le dépôt MaxDiffusion.

Objectifs

Ce tutoriel est destiné aux clients d'IA générative qui utilisent JAX, aux utilisateurs nouveaux ou existants de SDXL, aux ingénieurs en ML, aux ingénieurs MLOps (DevOps) ou aux administrateurs de plate-forme qui souhaitent utiliser les fonctionnalités d'orchestration de conteneurs Kubernetes pour diffuser des LLM.

Ce tutoriel couvre les étapes suivantes :

Créer un cluster GKE Autopilot ou standard avec la topologie TPU recommandée en fonction des caractéristiques du modèle.
Créez une image de conteneur d'inférence SDXL.
Déployer le serveur d'inférence SDXL sur GKE.
Diffuser le modèle et interagir avec lui via une application Web.

Architecture

Cette section décrit l'architecture GKE utilisée dans ce tutoriel. L'architecture se compose d'un cluster GKE Autopilot ou GKE Standard qui provisionne des TPU et héberge des composants MaxDiffusion. GKE utilise ces composants pour déployer et diffuser les modèles.

Le schéma suivant montre les composants de cette architecture:

Exemple d'architecture pour diffuser MaxDiffusion avec TPU v5e sur GKE.

Cette architecture comprend les composants suivants :

Un cluster régional GKE Autopilot ou Standard.
Un pool de nœuds de tranche de TPU à hôte unique qui héberge le modèle SDXL sur le déploiement MaxDiffusion.
Composant Service avec un équilibreur de charge de type ClusterIP. Ce service distribue le trafic entrant à toutes les répliques MaxDiffusion HTTP.
Le serveur WebApp HTTP avec un service LoadBalancer externe qui distribue le trafic entrant et redirige le trafic de diffusion du modèle vers le service ClusterIP.

Avant de commencer

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the required API.

Enable the API

Make sure that you have the following role or roles on the project: roles/container.admin, roles/iam.serviceAccountAdmin, roles/artifactregistry.admin
Check for the roles
1. In the Google Cloud console, go to the IAM page.
  Go to IAM
2. Select the project.
3. In the Principal column, find all rows that identify you or a group that you're included in. To learn which groups you're included in, contact your administrator.
4. For all rows that specify or include you, check the Role column to see whether the list of roles includes the required roles.
Grant the roles
1. In the Google Cloud console, go to the IAM page.
  Accéder à IAM
2. Sélectionnez le projet.
3. Cliquez sur Accorder l'accès.
4. Dans le champ Nouveaux comptes principaux, saisissez votre identifiant utilisateur. Il s'agit généralement de l'adresse e-mail d'un compte Google.
5. Dans la liste Sélectionner un rôle, sélectionnez un rôle.
6. Pour attribuer des rôles supplémentaires, cliquez sur Ajouter un autre rôle et ajoutez chaque rôle supplémentaire.
7. Cliquez sur Enregistrer.

Diffuser Stable Diffusion XL (SDXL) à l'aide de TPU sur GKE avec MaxDiffusion

Contexte

Stable Diffusion XL (SDXL)

TPU

MaxDiffusion

Objectifs

Architecture

Avant de commencer

Check for the roles

Grant the roles

Préparer l'environnement

Créer et configurer des ressources Google Cloud

Créer un cluster GKE

Autopilot

Standard

Créer le conteneur d'inférence SDXL

Déployer le serveur d'inférence SDXL

Déployer le client de l'application Web

Interagir avec le modèle à l'aide de la page Web

Effectuer un nettoyage

Supprimer le projet

Supprimer les ressources individuelles

Étape suivante

Diffuser Stable Diffusion XL (SDXL) à l'aide de TPU sur GKE avec MaxDiffusion Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Contexte

Stable Diffusion XL (SDXL)

TPU

MaxDiffusion

Objectifs

Architecture

Avant de commencer

Check for the roles

Grant the roles

Préparer l'environnement

Créer et configurer des ressources Google Cloud

Créer un cluster GKE

Autopilot

Standard

Créer le conteneur d'inférence SDXL

Déployer le serveur d'inférence SDXL

Déployer le client de l'application Web

Interagir avec le modèle à l'aide de la page Web

Effectuer un nettoyage

Supprimer le projet

Supprimer les ressources individuelles

Étape suivante

Diffuser Stable Diffusion XL (SDXL) à l'aide de TPU sur GKE avec MaxDiffusion