Interroger un ensemble de données public avec l'outil bq

Découvrez comment examiner et interroger un ensemble de données public avec l'outil de ligne de commande bq.


Pour obtenir des instructions détaillées sur cette tâche directement dans la console Google Cloud , cliquez sur Visite guidée :

Visite guidée


Avant de commencer

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  4. Verify that billing is enabled for your Google Cloud project.

  5. Si vous n'activez pas la facturation pour le projet Google Cloud que vous utilisez dans ce tutoriel, vous utiliserez les données du bac à sable BigQuery. Le bac à sable BigQuery vous permet d'apprendre à utiliser BigQuery avec un ensemble limité de fonctionnalités offertes.

  6. Vérifiez que l'API BigQuery est activée.

    Activer l'API

    Si vous avez créé un nouveau projet, l'API BigQuery est automatiquement activée.

  7. In the Google Cloud console, activate Cloud Shell.

    Activate Cloud Shell

    At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.

  8. Examiner un ensemble de données public

    BigQuery propose plusieurs exemples de tables que vous pouvez interroger dans l'ensemble de données bigquery-public-data.samples. Dans ce tutoriel, vous allez exécuter des requêtes sur la table shakespeare, qui contient une entrée pour chaque mot de chaque pièce de Shakespeare.

    Examinez la table shakespeare de l'ensemble de données samples :

    bq show bigquery-public-data:samples.shakespeare
    

    Le résultat renvoyé ressemble à ceci : Certaines colonnes sont omises pour simplifier la sortie.

      Last modified                  Schema                 Total Rows   Total Bytes
    ----------------- ------------------------------------ ------------ ------------
     14 Mar 17:16:45   |- word: string (required)           164656       6432064
                       |- word_count: integer (required)
                       |- corpus: string (required)
                       |- corpus_date: integer (required)
    

    Interroger un ensemble de données public

    Utilisez la commande bq query pour exécuter des requêtes SQL sur les données.

    1. Déterminez le nombre de fois où la sous-chaîne raisin apparaît dans les œuvres de Shakespeare :

      bq query --use_legacy_sql=false \
          'SELECT
            word,
            SUM(word_count) AS count
          FROM
            `bigquery-public-data.samples.shakespeare`
          WHERE
            word LIKE "%raisin%"
          GROUP BY
            word;'
      

      Le résultat ressemble à ce qui suit :

      +---------------+-------+
      |     word      | count |
      +---------------+-------+
      | praising      |     8 |
      | Praising      |     4 |
      | raising       |     5 |
      | dispraising   |     2 |
      | dispraisingly |     1 |
      | raisins       |     1 |
      +---------------+-------+
      
    2. Recherchez la sous-chaîne huzzah dans les œuvres de Shakespeare :

      bq query --use_legacy_sql=false \
          'SELECT
            word
          FROM
            `bigquery-public-data.samples.shakespeare`
          WHERE
            word = "huzzah";'
      

      Comme la sous-chaîne n'apparaît pas dans les œuvres de Shakespeare, aucun résultat n'est renvoyé.

    Effectuer un nettoyage

    Pour éviter que les ressources utilisées dans cette démonstration soient facturées sur votre compte Google Cloud , supprimez le projet Google Cloud qui les contient.

    Supprimer le projet

    Si vous avez utilisé le bac à sable BigQuery pour interroger l'ensemble de données public, la facturation n'est pas activée pour votre projet.

    Le moyen le plus simple d'empêcher la facturation est de supprimer le projet que vous avez créé pour ce tutoriel.

    Pour supprimer le projet :

    1. In the Google Cloud console, go to the Manage resources page.

      Go to Manage resources

    2. In the project list, select the project that you want to delete, and then click Delete.
    3. In the dialog, type the project ID, and then click Shut down to delete the project.

    Étapes suivantes