BigQuery héberge un certain nombre d'ensembles de données publics que le grand public peut interroger. Dans ce tutoriel, vous allez créer un workflow qui exécute plusieurs jobs de requête BigQuery en parallèle. Vous constaterez ainsi une amélioration des performances par rapport à l'exécution des jobs en série, les uns après les autres.
Objectifs
Au cours de ce tutoriel, vous allez :- Exécutez une requête sur un ensemble de données public Wikipédia pour déterminer les titres les plus consultés au cours d'un mois spécifique.
- Déployez et exécutez un workflow qui exécute plusieurs jobs de requête BigQuery en série, les uns après les autres.
- Déployez et exécutez un workflow qui exécute les jobs BigQuery à l'aide de l'itération parallèle, où les boucles
for
ordinaires sont exécutées en parallèle.
Vous pouvez exécuter les commandes suivantes dans la console Google Cloud ou à l'aide de Google Cloud CLI dans votre terminal ou Cloud Shell.
Coûts
Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :
Pour obtenir une estimation des coûts en fonction de votre utilisation prévue, utilisez le simulateur de coût.
Avant de commencer
Les contraintes de sécurité définies par votre organisation peuvent vous empêcher d'effectuer les étapes suivantes. Pour en savoir plus sur la résolution des problèmes, consultez Développer des applications dans un environnement Google Cloud limité.
Console
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Workflows API.
-
Create a service account:
-
In the Google Cloud console, go to the Create service account page.
Go to Create service account - Select your project.
-
In the Service account name field, enter a name. The Google Cloud console fills in the Service account ID field based on this name.
In the Service account description field, enter a description. For example,
Service account for quickstart
. - Click Create and continue.
-
Grant the following roles to the service account: BigQuery > BigQuery Job User, Logging > Logs Writer.
To grant a role, find the Select a role list, then select the role.
To grant additional roles, click
Add another role and add each additional role. - Click Continue.
-
Click Done to finish creating the service account.
-
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Workflows API.
-
Create a service account:
-
In the Google Cloud console, go to the Create service account page.
Go to Create service account - Select your project.
-
In the Service account name field, enter a name. The Google Cloud console fills in the Service account ID field based on this name.
In the Service account description field, enter a description. For example,
Service account for quickstart
. - Click Create and continue.
-
Grant the following roles to the service account: BigQuery > BigQuery Job User, Logging > Logs Writer.
To grant a role, find the Select a role list, then select the role.
To grant additional roles, click
Add another role and add each additional role. - Click Continue.
-
Click Done to finish creating the service account.
-
gcloud
-
Sign in to your Google Account.
If you don't already have one, sign up for a new account.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Workflows API.
-
Create a service account:
-
In the Google Cloud console, go to the Create service account page.
Go to Create service account - Select your project.
-
In the Service account name field, enter a name. The Google Cloud console fills in the Service account ID field based on this name.
In the Service account description field, enter a description. For example,
Service account for quickstart
. - Click Create and continue.
-
Grant the following roles to the service account: roles/bigquery.jobUser, roles/logging.logWriter.
To grant a role, find the Select a role list, then select the role.
To grant additional roles, click
Add another role and add each additional role. - Click Continue.
-
Click Done to finish creating the service account.
-
-
Install the Google Cloud CLI.
-
Si vous utilisez un fournisseur d'identité (IdP) externe, vous devez d'abord vous connecter à gcloud CLI avec votre identité fédérée.
-
Pour initialiser gcloudCLI, exécutez la commande suivante :
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Workflows API.
-
Create a service account:
-
In the Google Cloud console, go to the Create service account page.
Go to Create service account - Select your project.
-
In the Service account name field, enter a name. The Google Cloud console fills in the Service account ID field based on this name.
In the Service account description field, enter a description. For example,
Service account for quickstart
. - Click Create and continue.
-
Grant the following roles to the service account: roles/bigquery.jobUser, roles/logging.logWriter.
To grant a role, find the Select a role list, then select the role.
To grant additional roles, click
Add another role and add each additional role. - Click Continue.
-
Click Done to finish creating the service account.
-
-
Install the Google Cloud CLI.
-
Si vous utilisez un fournisseur d'identité (IdP) externe, vous devez d'abord vous connecter à gcloud CLI avec votre identité fédérée.
-
Pour initialiser gcloudCLI, exécutez la commande suivante :
gcloud init
Exécuter un job de requête BigQuery
Dans BigQuery, vous pouvez exécuter une tâche de requête interactive (à la demande). Pour en savoir plus, consultez la page Exécuter des tâches de requête interactives et par lot.
Console
Dans la console Google Cloud , accédez à la page BigQuery.
Saisissez la requête SQL BigQuery suivante dans la zone de texte de l'éditeur de requête :
SELECT TITLE, SUM(views) FROM `bigquery-samples.wikipedia_pageviews.201207h` GROUP BY TITLE ORDER BY SUM(views) DESC LIMIT 100
Cliquez sur Exécuter.
bq
Dans votre terminal, saisissez la commande bq query
suivante pour exécuter une requête interactive à l'aide de la syntaxe SQL standard :
bq query \
--use_legacy_sql=false \
'SELECT
TITLE, SUM(views)
FROM
`bigquery-samples.wikipedia_pageviews.201207h`
GROUP BY
TITLE
ORDER BY
SUM(views) DESC
LIMIT 100'
Cette requête renvoie les 100 titres Wikipédia les plus consultés au cours d'un mois donné et écrit les résultats dans une table temporaire.
Notez la durée d'exécution de la requête.
Déployer un workflow qui exécute plusieurs requêtes en série
Une définition de workflow est constituée d'une série d'étapes décrites à l'aide de la syntaxe Workflows. Après avoir créé un workflow, vous pouvez le déployer pour le rendre disponible en exécution. L'étape de déploiement vérifie également que le fichier source peut être exécuté.
Le workflow suivant définit une liste de cinq tables sur lesquelles exécuter une requête à l'aide du connecteur BigQuery de Workflows. Les requêtes sont exécutées en série, les unes après les autres, et les titres les plus regardés de chaque tableau sont enregistrés dans une carte de résultats.
Console
Dans la console Google Cloud , accédez à la page Workflows :
Cliquez sur Créer.
Saisissez un nom pour le nouveau workflow, par exemple
workflow-serial-bqjobs
.Choisissez une région appropriée. Exemple : us-central1.
Sélectionnez le compte de service que vous avez créé précédemment.
Vous devez déjà avoir attribué les rôles IAM BigQuery> Utilisateur de tâche BigQuery et Logging> Rédacteur de journaux au compte de service.
Cliquez sur Suivant.
Dans l'éditeur de workflow, saisissez la définition suivante pour votre workflow :
Cliquez sur Déployer.
gcloud
Ouvrez un terminal et créez un fichier de code source pour votre workflow :
touch workflow-serial-bqjobs.yaml
Copiez le workflow suivant dans votre fichier de code source :
Déployez le workflow en saisissant la commande suivante :
gcloud workflows deploy workflow-serial-bqjobs \ --source=workflow-serial-bqjobs.yaml \ --service-account=MY_SERVICE_ACCOUNT@MY_PROJECT.iam.gserviceaccount.com
Remplacez
MY_SERVICE_ACCOUNT@MY_PROJECT.iam.gserviceaccount.com
par l'adresse e-mail du compte de service que vous avez créé précédemment.Vous devez déjà avoir attribué les rôles IAM
roles/bigquery.jobUser
etroles/logging.logWriter
au compte de service.
Exécuter le workflow et exécuter plusieurs requêtes en série
L'exécution d'un workflow exécute la définition actuelle du workflow associé au workflow.
Console
Dans la console Google Cloud , accédez à la page Workflows :
Sur la page Workflows, sélectionnez le workflow workflow-serial-bqjobs pour accéder à sa page d'informations.
Sur la page Détails du workflow, cliquez sur play_arrow Exécuter.
Cliquez à nouveau sur Exécuter.
Affichez les résultats du workflow dans le volet Output (Résultat).
gcloud
Ouvrez un terminal.
Exécutez le workflow :
gcloud workflows run workflow-serial-bqjob
L'exécution du workflow devrait prendre environ une minute ou cinq fois le temps d'exécution précédent. Le résultat inclura chaque tableau et ressemblera à ce qui suit :
{
"201201h": {
"title": "Special:Search",
"views": "14591339"
},
"201202h": {
"title": "Special:Search",
"views": "132765420"
},
"201203h": {
"title": "Special:Search",
"views": "123316818"
},
"201204h": {
"title": "Special:Search",
"views": "116830614"
},
"201205h": {
"title": "Special:Search",
"views": "131357063"
}
}
Déployer et exécuter un workflow qui exécute plusieurs requêtes en parallèle
Au lieu d'exécuter cinq requêtes de manière séquentielle, vous pouvez les exécuter en parallèle en apportant quelques modifications :
- runQueries:
parallel:
shared: [results]
for:
value: table
in: ${tables}
- Une étape
parallel
permet à chaque itération de la bouclefor
de s'exécuter en parallèle. La variable
results
est déclarée commeshared
, ce qui lui permet d'être accessible en écriture par une branche, et le résultat de chaque branche peut y être ajouté.
Console
Dans la console Google Cloud , accédez à la page Workflows :
Cliquez sur Créer.
Saisissez un nom pour le nouveau workflow, par exemple
workflow-parallel-bqjobs
.Choisissez une région appropriée. Exemple : us-central1.
Sélectionnez le compte de service que vous avez créé précédemment.
Cliquez sur Suivant.
Dans l'éditeur de workflow, saisissez la définition suivante pour votre workflow :
Cliquez sur Déployer.
Sur la page Détails du workflow, cliquez sur play_arrow Exécuter.
Cliquez à nouveau sur Exécuter.
Affichez les résultats du workflow dans le volet Output (Résultat).
gcloud
Ouvrez un terminal et créez un fichier de code source pour votre workflow :
touch workflow-parallel-bqjobs.yaml
Copiez le workflow suivant dans votre fichier de code source :
Déployez le workflow en saisissant la commande suivante :
gcloud workflows deploy workflow-parallell-bqjobs \ --source=workflow-parallel-bqjobs.yaml \ --service-account=MY_SERVICE_ACCOUNT@MY_PROJECT.iam.gserviceaccount.com
Remplacez
MY_SERVICE_ACCOUNT@MY_PROJECT.iam.gserviceaccount.com
par l'adresse e-mail du compte de service que vous avez créé précédemment.Exécutez le workflow :
gcloud workflows run workflow-parallel-bqjobs
Le résultat sera semblable à celui de la sortie précédente, mais l'exécution du workflow devrait prendre environ 20 secondes ou moins.
Effectuer un nettoyage
Si vous avez créé un projet pour ce tutoriel, supprimez-le. Si vous avez utilisé un projet existant et que vous souhaitez le conserver sans les modifications du présent tutoriel, supprimez les ressources créées pour ce tutoriel.
Supprimer le projet
Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.
Pour supprimer le projet :
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Supprimer les ressources du tutoriel
Supprimez les workflows créés dans ce tutoriel :
gcloud workflows delete WORKFLOW_NAME
Étapes suivantes
- Pour en savoir plus sur les étapes parallèles, consultez Exécuter des étapes parallèles.
- Pour en savoir plus sur les connecteurs Workflows, consultez l'article Comprendre les connecteurs.
- Pour en savoir plus sur Workflows, consultez la présentation de Workflows.