Chat-GPTをはじめ、昨今の大規模言語モデル(LLM)が目覚ましい成果を上げています。
これらがどのように人間の言語を見て、どのように意味解釈を行なっているのかを少しでも理解するための資料です
具体的には、近年のLLMの礎となった機械翻訳モデルTransformerの解説を行なっています。
GPTもBERTも、基本構造はTransformerとほぼ変わりません。
近年のLLMの理解には不可欠なTransformerの構造をできるだけ詳細に書き下してみました。
自然言語の意味解釈に重要な役割を果たすMulti-Head Attentionをはじめ、各レイヤーの計算フローと、そのお気持ちや役割を自分なりに解釈してまとめました
Related topics: