大規模言語モデル
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
モジュールの所要時間: 45 分
学習目標
いくつかの異なるタイプの言語モデルとそのコンポーネントを定義します。
大規模言語モデルの作成方法と、LLM の重要性を説明できるようになる
コンテキストとパラメータがあります。
大規模言語モデルがどのようにセルフ アテンションを利用しているかを特定する。
大規模言語モデルの 3 つの主要な問題を明らかにします。
ファインチューニングと抽出によってモデルの性能がどのように改善されるかを説明する
向上させることができます
言語モデルは何ですか?
言語モデル
トークン の確率を推定する
トークン、つまり、より長いシーケンスのトークン内で発生する一連のトークン。トークンは、単語、サブワード(単語のサブセット)、1 文字にすることもできます。
アイコンをクリックすると、トークンの詳細が表示されます。
最新の言語モデルのほとんどは、サブワード(意味論的な意味を含むテキストのチャンク)でトークン化します。チャンクの長さは、各チャンクの長さから
句読点や所有格の s などの 1 文字を単語全体に適用します。
接頭辞と接尾辞は、個別のサブワードとして表される場合があります。たとえば、unwatched という単語は、次の 3 つのサブワードで表すことができます。
un(接頭辞)
watch(ルート)
ed(接尾辞)
「猫」という単語は、次の 2 つのサブワードで表されます。
「antidisestablishmentarianism」などの複雑な単語は、6 つのサブワードとして表すことができます。
アンチ
の
確立する
ment
エイリアン
ism
トークン化は言語に固有であるため、トークンあたりの文字数は言語によって異なります。英語の場合、1 つのトークンが約 4 文字に対応します。
約 3/4 の単語なので、400 トークンは約 300 単語です。
トークンは、言語モデルの原子単位または最小単位です。
トークンは、サービス アカウントにも適用され、
<ph type="x-smartling-placeholder"></ph>
コンピュータ ビジョン と
<ph type="x-smartling-placeholder"></ph>
生成できます 。
次の文と、それを完成させる可能性のあるトークンについて考えてください。
When I hear rain on my roof, I _______ in my kitchen.
言語モデルは、その空白を埋めるためにさまざまなトークンまたはトークンのシーケンスが使用される確率を決定します。たとえば、次のようになります。
確率テーブルで、可能性のあるトークンとその確率を特定します。
確率 トークン
9.4% スープを作る
5.2% 湯沸かしポットを温める
3.6% 牛
2.5% 昼寝
2.2% リラックス
状況によっては、トークンのシーケンスが文全体、段落全体、またはエッセイ全体になることもあります。
アプリケーションは、確率表を使用して予測を行うことができます。予測が最も高い確率になる可能性がある(例: 「スープを作る」)
確率が特定の値を上回るトークンをランダムに
あります。
テキスト シーケンスの空白を埋める確率を推定することで、
次のようなより複雑なタスクに拡張できます。
テキストを生成しています。
ある言語から別の言語へのテキストの翻訳。
ドキュメントの要約を行っています。
最新の言語モデルは、トークンの統計パターンをモデル化することで
非常に強力な言語の内部表現であり、
トレーニングされます。
N グラム言語モデル
N グラム は、言語モデルの構築に使用される単語の順序付きシーケンスです。ここで、N はシーケンス内の単語数です。たとえば、N が 2 の場合、N グラムは 2 グラム(またはバイグラム )と呼ばれます。N が 5 の場合、N グラムは 5 グラムと呼ばれます。トレーニング ドキュメントに次のフレーズがあるとします。
you are very nice
結果の 2 グラムは次のようになります。
N が 3 の場合、N グラムは 3 グラム(またはトリグラム )と呼ばれます。 同じフレーズで、
結果の 3 グラムは次のようになります。
2 つの単語を入力として、3 グラムに基づく言語モデルは、
単語の確率です。たとえば、次の 2 つの単語があるとします。
orange is
言語モデルはトレーニングから得た 3 グラムをすべて検証し、
orange is
で始まるコーパスから、最も可能性が高い 3 番目の単語を決定します。
orange is
という 2 つの単語で始まる 3 グラムは数百ありますが、次の 2 つの可能性にのみ注目できます。
orange is ripe
orange is cheerful
1 つ目の可能性(orange is ripe
)は、果物のオレンジについてです。
2 つ目の可能性(orange is cheerful
)は色に関するものです
オレンジです。
コンテキスト
人間は比較的長いコンテキストを保持できます。ある劇の第 3 幕を見ながら、
アクティビティ 1 で紹介したキャラクターの知識を保持する。同様に、長いジョークの落ちは、ジョークの導入からコンテキストを思い出すことができるため、笑いを誘います。
言語モデルでは、コンテキスト はターゲット トークンの前後に存在する有用な情報です。コンテキストは、言語モデルが「オレンジ色」かどうかを
シトラスの果物または色です
コンテキストは言語モデルによる予測の精度を高めるのに役立ちますが、3 グラムでは十分なコンテキストが提供されますか?残念ながら、唯一のコンテキストは 3 グラム
最初の 2 つの単語です。たとえば、2 つの単語 orange is
では、言語モデルが 3 番目の単語を予測するのに十分なコンテキストが提供されません。3 グラムベースの言語モデルはコンテキストがないため、多くの誤りを犯します。
長い N グラムは、短い N グラムよりも多くのコンテキストを提供します。ただし、N が大きくなるにつれて、各インスタンスの相対的な発生数は減少します。
N が非常に大きくなると、通常、言語モデルには N トークンの各出現のインスタンスが 1 つしかありません。これは、ターゲット トークンの予測にはあまり役立ちません。
再帰型ニューラル ネットワーク
再帰型ニューラル
ネットワーク
N グラムよりも多くのコンテキストを提供します。再帰型ニューラル ネットワークは、トークンのシーケンスでトレーニングするニューラル ネットワーク の一種です。たとえば、回帰型ニューラル ネットワークは、人の会話を聞くときのように、文内の各単語から選択したコンテキストを徐々に 学習し(無視することも学習します)。大規模な再帰型ニューラル ネットワークは、複数の単語の一節からコンテキストを得ることができます。
生成します。
回帰型ニューラル ネットワークは、N グラムよりも多くのコンテキストを学習しますが、
回帰型ニューラル ネットワークが直感的に理解できる有用なコンテキストは、
制限されています。再帰型ニューラル ネットワークは、「トークンごとにトークン」情報を評価します。
一方、大規模言語モデル(次のセクションのトピック)は、コンテキスト全体を一度に評価できます。
長いコンテキストに対する再帰型ニューラル ネットワークのトレーニングは、
消える勾配
解決します 。
演習:理解度をチェックする
英語のテキストの予測に適しているのはどの言語モデルですか?
6 グラムに基づく言語モデル
5 グラムに基づく言語モデル
正解はトレーニングの規模と多様性によって異なる
あります。
トレーニング セットが数百万の多様なドキュメントにまたがる場合、
6 グラムに基づくモデルは、おそらくこのモデルより
5 グラムを基準としています。
6 グラムに基づく言語モデル。
この言語モデルにはコンテキストがより多く含まれますが、このモデルが多くのドキュメントでトレーニングされていない限り、6 グラムのほとんどはまれになります。
5 グラムに基づく言語モデル。
この言語モデルのコンテキストは少ないため、6 グラムに基づく言語モデルよりも優れている可能性は低いです。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンス により使用許諾されます。コードサンプルは Apache 2.0 ライセンス により使用許諾されます。詳しくは、Google Developers サイトのポリシー をご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-07-27 UTC。
[null,null,["最終更新日 2025-07-27 UTC。"],[[["This module explores language models, which estimate the probability of a token or sequence of tokens occurring within a longer sequence, enabling tasks like text generation, translation, and summarization."],["Language models utilize context, the surrounding information of a target token, to enhance prediction accuracy, with recurrent neural networks offering more context than traditional N-grams."],["N-grams are ordered sequences of words used to build language models, with longer N-grams providing more context but potentially encountering sparsity issues."],["Tokens, the atomic units of language modeling, represent words, subwords, or characters and are crucial for understanding and processing language."],["While recurrent neural networks improve context understanding compared to N-grams, they have limitations, paving the way for the emergence of large language models that evaluate the whole context simultaneously."]]],[]]