このページは Cloud Translation API によって翻訳されました。

大規模言語モデル

モジュールの所要時間: 45 分

言語モデルは何ですか？

言語モデル トークンの確率を推定するトークン、つまり、より長いシーケンスのトークン内で発生する一連のトークン。トークンは、単語、サブワード（単語のサブセット）、1 文字にすることもできます。

アイコンをクリックすると、トークンの詳細が表示されます。

最新の言語モデルのほとんどは、サブワード（意味論的な意味を含むテキストのチャンク）でトークン化します。チャンクの長さは、各チャンクの長さから句読点や所有格の s などの 1 文字を単語全体に適用します。接頭辞と接尾辞は、個別のサブワードとして表される場合があります。たとえば、unwatched という単語は、次の 3 つのサブワードで表すことができます。

un（接頭辞）
watch（ルート）
ed（接尾辞）

「猫」という単語は、次の 2 つのサブワードで表されます。

cat（ルート）
s（接尾辞）

「antidisestablishmentarianism」などの複雑な単語は、6 つのサブワードとして表すことができます。

アンチ
の
確立する
ment
エイリアン
ism

トークン化は言語に固有であるため、トークンあたりの文字数は言語によって異なります。英語の場合、1 つのトークンが約 4 文字に対応します。約 3/4 の単語なので、400 トークンは約 300 単語です。

トークンは、言語モデルの原子単位または最小単位です。

トークンは、サービスアカウントにも適用され、 <ph type="x-smartling-placeholder"></ph> コンピュータビジョンと <ph type="x-smartling-placeholder"></ph> 生成できます。

次の文と、それを完成させる可能性のあるトークンについて考えてください。

When I hear rain on my roof, I _______ in my kitchen.

言語モデルは、その空白を埋めるためにさまざまなトークンまたはトークンのシーケンスが使用される確率を決定します。たとえば、次のようになります。確率テーブルで、可能性のあるトークンとその確率を特定します。

確率	トークン
9.4%	スープを作る
5.2%	湯沸かしポットを温める
3.6%	牛
2.5%	昼寝
2.2%	リラックス

状況によっては、トークンのシーケンスが文全体、段落全体、またはエッセイ全体になることもあります。

アプリケーションは、確率表を使用して予測を行うことができます。予測が最も高い確率になる可能性がある（例: 「スープを作る」）確率が特定の値を上回るトークンをランダムにあります。

テキストシーケンスの空白を埋める確率を推定することで、次のようなより複雑なタスクに拡張できます。

テキストを生成しています。
ある言語から別の言語へのテキストの翻訳。
ドキュメントの要約を行っています。

最新の言語モデルは、トークンの統計パターンをモデル化することで非常に強力な言語の内部表現であり、トレーニングされます。

N グラム言語モデル

N グラムは、言語モデルの構築に使用される単語の順序付きシーケンスです。ここで、N はシーケンス内の単語数です。たとえば、N が 2 の場合、N グラムは 2 グラム（またはバイグラム）と呼ばれます。N が 5 の場合、N グラムは 5 グラムと呼ばれます。トレーニングドキュメントに次のフレーズがあるとします。

you are very nice

結果の 2 グラムは次のようになります。

お客様は
非常に
すごくいい

N が 3 の場合、N グラムは 3 グラム（またはトリグラム）と呼ばれます。同じフレーズで、結果の 3 グラムは次のようになります。

あなたはとても
とてもいいね

2 つの単語を入力として、3 グラムに基づく言語モデルは、単語の確率です。たとえば、次の 2 つの単語があるとします。

orange is

言語モデルはトレーニングから得た 3 グラムをすべて検証し、 orange is で始まるコーパスから、最も可能性が高い 3 番目の単語を決定します。 orange is という 2 つの単語で始まる 3 グラムは数百ありますが、次の 2 つの可能性にのみ注目できます。

orange is ripe
orange is cheerful

1 つ目の可能性（orange is ripe）は、果物のオレンジについてです。 2 つ目の可能性（orange is cheerful）は色に関するものですオレンジです。

コンテキスト

人間は比較的長いコンテキストを保持できます。ある劇の第 3 幕を見ながら、アクティビティ 1 で紹介したキャラクターの知識を保持する。同様に、長いジョークの落ちは、ジョークの導入からコンテキストを思い出すことができるため、笑いを誘います。

言語モデルでは、コンテキストはターゲットトークンの前後に存在する有用な情報です。コンテキストは、言語モデルが「オレンジ色」かどうかをシトラスの果物または色です

コンテキストは言語モデルによる予測の精度を高めるのに役立ちますが、3 グラムでは十分なコンテキストが提供されますか？残念ながら、唯一のコンテキストは 3 グラム最初の 2 つの単語です。たとえば、2 つの単語 orange is では、言語モデルが 3 番目の単語を予測するのに十分なコンテキストが提供されません。3 グラムベースの言語モデルはコンテキストがないため、多くの誤りを犯します。

長い N グラムは、短い N グラムよりも多くのコンテキストを提供します。ただし、N が大きくなるにつれて、各インスタンスの相対的な発生数は減少します。 N が非常に大きくなると、通常、言語モデルには N トークンの各出現のインスタンスが 1 つしかありません。これは、ターゲットトークンの予測にはあまり役立ちません。

再帰型ニューラルネットワーク

再帰型ニューラルネットワーク N グラムよりも多くのコンテキストを提供します。再帰型ニューラルネットワークは、トークンのシーケンスでトレーニングするニューラルネットワークの一種です。たとえば、回帰型ニューラルネットワークは、人の会話を聞くときのように、文内の各単語から選択したコンテキストを徐々に学習し（無視することも学習します）。大規模な再帰型ニューラルネットワークは、複数の単語の一節からコンテキストを得ることができます。生成します。

回帰型ニューラルネットワークは、N グラムよりも多くのコンテキストを学習しますが、回帰型ニューラルネットワークが直感的に理解できる有用なコンテキストは、制限されています。再帰型ニューラルネットワークは、「トークンごとにトークン」情報を評価します。一方、大規模言語モデル（次のセクションのトピック）は、コンテキスト全体を一度に評価できます。

長いコンテキストに対する再帰型ニューラルネットワークのトレーニングは、 消える勾配解決します。

演習：理解度をチェックする

英語のテキストの予測に適しているのはどの言語モデルですか？

6 グラムに基づく言語モデル
5 グラムに基づく言語モデル

正解はトレーニングの規模と多様性によって異なるあります。

トレーニングセットが数百万の多様なドキュメントにまたがる場合、 6 グラムに基づくモデルは、おそらくこのモデルより 5 グラムを基準としています。

6 グラムに基づく言語モデル。

この言語モデルにはコンテキストがより多く含まれますが、このモデルが多くのドキュメントでトレーニングされていない限り、6 グラムのほとんどはまれになります。

5 グラムに基づく言語モデル。

この言語モデルのコンテキストは少ないため、6 グラムに基づく言語モデルよりも優れている可能性は低いです。

理解度テスト（10 分）

大規模言語モデルとは何ですか？（15 分）

大規模言語モデル コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

大規模言語モデル