SlideShare a Scribd company logo
AutoPrompt: Eliciting Knowledge from Language Models with
Automatically Generated Prompts
[Shin+, ACL Anthlogy2020]
Toward Human Readable Prompt Tuning: Kubrick’s The
Shining is a good movie, and a good prompt too?
[Shi+, ACL Anthlogy2023]
Hard Prompts Made Easy: Gradient-Based Discrete
Optimization for Prompt Tuning and Discovery
[Wen+, NeurIPS2023]
水野翼(名工大玉木研)
2025/6/12
3つの論文の簡単な概要
◼AutoPrompt [Shin+, ACL Anthlogy2020]
• 勾配誘導探索に基づきタスク特化プロンプトを生成
• あらゆるプロンプトを自動生成,人手による試行錯誤を排除
◼Toward Human Readable Prompt Tuning [Shi+, ACL Anthlogy2023]
• 自然で解釈可能なプロンプトの生成手法
• 性能と可読性の両立を実現
◼Hard Prompt Made Easy [Wen+, NeurIPS2023]
• 効率的な勾配法を活用しハードプロンプトを最適化・学習する手法
• ソフトプロンプトの性能をハードプロンプトで達成
• 画像生成,テキスト分類タスクで高い転移性能
AutoPrompt
概要
◼プロンプト学習とは
• タスクを自然言語に変換して言語モデルに入力する手法
• 例)分類タスク→「これはポジティブですか?」などの文章に変換
• 課題
• 適切なプロンプトの生成には人手と試行錯誤が必要
• 経験や直感に頼った設計‥一貫性や汎用性に欠ける
◼AutoPrompt
• 勾配誘導探索により,人手なしでプロンプトを自動生成
• モデルが「効果的な単語列」を自ら見つける
• 特徴
• 離散的なハードプロンプトの自動生成
• 文分類・関係抽出など多様なタスクに対応 勾配誘導探索[Eric+, ACL Anthrogy2019]
手法
◼記法と基本構造
• 入力文:𝑥inp,プロンプト文: 𝑥prompt
• 𝜆:𝑥𝑖𝑛𝑝や追加のトークン・特殊トークン[MASK]の配置を決定
• マスク付き言語モデル(MLM)により[MASK]に
最も適切な単語の確率分布𝑝([𝑀𝐴𝑆𝐾]|𝑥𝑝𝑟𝑜𝑚𝑝𝑡)を推定
手法
◼最適化ステップ
1. 初期化:全トリガートークンを[MASK]に設定
2. 勾配計算:各語彙𝑤 ∈ 𝒱での尤度変化を予測
3. 候補選出:上位𝑘個の有望候補を選択
4. 実評価:各候補で実際に順伝播して性能測定
5. 更新:最良の候補でトークンを更新
勾配誘導探索[Eric+, ACL Anthrogy2019]
実験概要
◼対象モデル
• BERT [Devlin+, NAACL2019]:110Mのパラメータ
• RoBERTa [Liu+, arXiv2019]:355Mのパラメータ
◼対象タスク:感情分析,自然言語推論,事実探索,関係抽出
感情分析(Sentiment Analysis)
◼設定
• データセット:SST-2 [Socher+, ACL Anthlogy2013]
• タスク:二値感情分類(positive/negative)
• 比較対象:手動プロンプト,再学習されたモデル
◼性能評価
• BERT+AutoPrompt:教師ありBiSTMと同等性能
• RoBERTa + AutoPrompt:再学習されたBERTと同等精度
◼少数データでの性能優位性
• BERT:AutoPrompt≒再学習
• RoBERT:100~1,000サンプルでAutoPrompt > 再学習
感情分析(Sentiment Analysis)
◼設定
• データセット:SST-2 [Socher+, ACL Anthlogy2013]
• タスク:二値感情分類(positive/negative)
• 比較対象:手動プロンプト,再学習されたモデル
◼性能評価
• BERT+AutoPrompt:教師ありBiSTMと同等性能
• RoBERTa + AutoPrompt:再学習されたBERTと同等精度
◼少数データでの性能優位性
• BERT:AutoPrompt≒再学習
• RoBERT:100~1,000サンプルでAutoPrompt > 再学習
感情分析(Sentiment Analysis)
◼設定
• データセット:SST-2 [Socher+, ACL Anthlogy2013]
• タスク:二値感情分類(positive/negative)
• 比較対象:手動プロンプト,再学習されたモデル
◼性能評価
• BERT+AutoPrompt:教師ありBiSTMと同等性能
• RoBERTa + AutoPrompt:再学習されたBERTと同等精度
◼少数データでの性能優位性
• BERT:AutoPrompt >= 再学習
• RoBERT:AutoPrompt > 再学習
自然言語推論(NLI)
◼実験設定
• データセット:SICK-E [Marelli+, ACL Anthlogy2014]
• ラベル: contradiction, entailment, neutral
• 特性
• standard: neutral偏重
• 2-way: contradiction vs. entailment
• 3-way: バランス調整版
◼結果
• AutoPrompt:Majority baselineを大幅に上回る
• 2-wayタスク:再学習されたBERTに匹敵
事実探索
◼評価指標
• MRR :正解の順位の逆数の割合
• P@1:1位が正解である割合
• P@10:10位以内が正解がある割合
◼実験設定
• データセット:LAMA [Petroni+, ACL Anthlogy2019]
• 比較手法:LAMA手動プロンプト,LPAQA [Jiang+, ACL Anthlogy2021]
◼結果
• AutoPromptはLAMAよりP@1を最大+12%性能向上
• 1つのプロンプトでLPAQAの30プロンプトの平均を上回る
関係抽出
◼実験設定
• データセット:T-Rex [Elsahar+, ACL Anthlogy2018]
• 比較手法:教師ありRELSTM, LAMA, LPAQA
◼結果
• AutoPromptは教師ありモデルを最大33%上回る
• BERTがRoBERTより優秀
まとめ
◼明示的なラベルなしで高性能なプロンプトを生成
◼多様なNLPタスクで再学習モデルと同等/上回る性能
◼特に少数データ・事前知識を活用する場面に強み
◼今後の課題:背景への依存性
Toward Human Readable
Prompt Tuning
概要
◼目的
• ラベル付きデータなしで人間が読みやすく効果的なプロンプト生成手法を提案
◼課題
• 手動プロンプトチューニング:有限個,網羅性に欠ける,分析困難
• 勾配ベースのチューニング:不自然で解釈が困難
◼提案手法
• FluentPrompt:流暢性制約で自然なプロンプトを生成
• Unsupervised FluentPrompt:
ラベルなしで関連性と校正を最適化
◼貢献
• 流暢で多様なプロンプトを効率的に生成
• 良いプロンプトの要因を明確化
FluentPrompt
◼目的
• 単一の最適化だけでなく,プロンプトの多様性とパフォーマンスの関係も分析
◼提案手法:Langevin Dynamicsに基づく離散的プロンプト生成
• SGD+ノイズで多様な埋め込みをサンプリング
• エネルギー関数:タスク損失+流暢性損失(perplexity類似)
• 埋め込みを語彙に近似投影
◼流暢性制約
• 各埋め込みの出現確率を計算,人間が読める文に近づける
• 言語モデルのパラメータは固定,プロンプト埋め込みのみを学習
◼ポイント
• 解釈性・多様性・性能の3要素を両立
• 実際の5位空間で自然なプロンプトを探索可能
実験設定
◼比較手法
• AutoPrompt:
貪欲なトークン選択・Verbalizer考
慮
• AutoPromptSGD:
勾配降下のみ,Langevinなし
◼ターゲットタスク
• 感情分析[McAuley&Leskovec, 2013], [Socher+, 2013]
• トピック分類[Zhang+, 2015]
◼モデル
• GPT-2 Large(774Mパラメータ)
[Radford+, 2019]
• 最適化手法:AdamW[LoshChilov&Hutter, 2018]
◼アブレーション
• ノイズなし,流動性制約なし
実験結果
◼全体の性能
• FluentPrompt ≒ AutoPromptSGD(同等の精度)
• 空のプロンプト(ノーチューニング)より
遥かに高性能
◼可読性
• より流暢なプロンプトを生成
• 可読性の向上が確認され人間が解釈しやすい
◼結論
• 性能・可読性・多様性のバランスに優れる
• 制約付きノイズ付き学習法が安定的に有効
良いプロンプトの特徴
◼ラベル分布の最適化
• エントロピーの高いプロンプトほど精度も高くなる傾向
◼バイアス補正メカニズム
• 感情分析で負の語を含むプロンプトがポジティブラベルを抑制
◼ドメイン関連語の活用
• 効果的なプロンプトにはタスクドメインに関連した語が多く含まれる
◼ドメイン語頻度の定量分析
• ランダム文よりもドメイン語出現頻度が高く,有意に精度も高い
◼結論
• ラベル分布を適切に調整し,タスクに密接に関連するプロンプト
Unsupervised FluentPrompt
◼FluentPromptを拡張し,ラベルなしで校正とドメイン関連性を最適化
◼手法の構成
• 校正の最適化:出力の偏りを自動補正し,バランスの取れた予測を実現
• ドメイン関連性強化:タスク固有の語彙や概念を自動的に取り込み,
関連性最大化
• 統合学習:上の2つを最適化する損失関数を動的に重みづけ
◼結果
• 標準手法・空プロンプトと比較し常に高性能
• 3データセットで平均 +7.0% 精度向上
• 校正 × ドメイン情報の組み合わせが有効な要因
まとめ
◼目的
• プロンプトの効果的な要因を調査
• 人間が読めるプロンプトチューニング手法FluentPromptを開発
◼主な発見
• 効果的なプロンプトはタスクドメインに関連,ラベルワードの事前確率を調整
• FLUENTPROMPTで生成されたプロンプトは効果的で読みやすいが意味の制限
• タスク定義や指示を直接示すプロンプトは見つからず
◼今後の課題
• GPT-2大規模モデルはプロンプトチューニングされていない
• 指示チューニングされたモデルにFluentPromptを適用し指示的なプロンプトの
発見を試みる
Hard Prompts Made Easy
概要
◼目的
• ハードプロンプトを効率的な勾配最適化で自動生成
• ソフトプロンプトに匹敵する性能を,再利用・転送可能なテキスト形式で実現
◼背景
• ハードプロンプト:人間可読・直感ベースで設計されるが試行錯誤が必要
• ソフトプロンプト:高性能だが非解釈的・再利用困難
→両者の利点を統合した手法が求められる
◼提案手法:PEZ (hardPrompt made EaZy)
• 勾配再投影と量子化ネットワークの技術を活用し,ハードプロンプトを最適化
• 流暢性制約により自然で読みやすいプロンプトを導出
手法
◼入力と設定
• 固定モデル:𝜃
• 最適化対象:埋め込み列𝑷 = [𝑒1, … , 𝑒𝑀] (𝑀個,𝑑次元)
• 目的関数: 𝐿 (タスク損失)
◼最適化の流れ
• 初期化:連続埋め込み𝑷を利用(ソフトプロンプト)
• 投影: 𝑷を最も近い語彙埋め込みにマッピング
→ハードプロンプト𝑷′
• 評価: 𝑷′
を用いてタスク損失R(𝑷′
)を計算
• 勾配更新: 𝑃に対して勾配を計算・更新
(𝑷′
は固定)
• 繰り返し:性能が収束するまで繰り返す
Prompt Inversion with CLIP
OpenCLIP-ViT/H Stable Diffusion v2
◼概要
• PEZを用いてCLIPの画像・テキストエンコーダのコサイン類似度𝑆を最小化す
るようなプロンプト最適化を行う
• 最適化プロンプトをStable Diffusionに入力し類似画像を生成させる
• 最適化式:
• 𝑓 𝑃 :テキストエンコーダ,𝑔 𝑥 :画像エンコーダ
◼設定
• 使用モデル
• 最適化:OpenCLIP-ViT/H,生成:Stable Diffusion v2
• ハイパーパラメータ
• 学習率:0.1,最適化ステップ数:3,000(AdamWを使用)
• ガイダンススケール:9,生成ステップ:25
定量 / 定性的評価
◼評価データセット
• LAION, MS COCO, Celeb-A, Lexica.art
◼評価方法
• 学習プロンプトで生成された画像と
元画像のCLIP類似度をOpenCLIP-ViT/Gで測定
• 比較手法:CLIP Interrogator [Radford+, arXiv2021], BLIP [Li+, arXiv2022]
◼結果
• 全てのデータセットで安定した高性能
• 8トークンの短いプロンプトで競争力のスコア
• 内容の反映:プロンプトに主要要素(例:milkyway)
を明示的に含む
• 短く高密度なプロンプト(絵文字なども含む)
応用と拡張
◼トークン長の最適化
• 長すぎるプロンプトは過学習しやす
い
• 最適長:〜16トークン
◼スタイル転写
• 複数の画像から共通スタイルを抽出
→新しいオブジェクトへ転用可能
応用と拡張
◼ プロンプトの結合
• 異なる画像から学習したプロンプト
を合成
(例)「ビーチの馬」+「森の夕日」
◼プロンプトの蒸留
• 長いプロンプトを短縮しても意味を
保持
• 短縮率0.1でも概念的類似画像を生
成可能
Discrete Prompt Tuning with Language Models
◼概要
• ハードプロンプトを最適化し分類タスクの精度向上を図る
• タスク損失と流暢性損失の重み付き最適化を実行
◼設定
• データセット:SST-2, Amazon Polarity, AGNEWS
• モデル:GPT-2 Large
• 転移先:GPT-2 XL, T5-LM-XL, OPT-2.7B, OPT-6B
• Few-shot設定:AGNEWS (k=2, 4; k: 各クラスに与える学習例の数)
実験結果
◼結果
• 転移性能:OPT-6.7Bで+14%の精度向上(テンプレートベース比)
• Few-shot学習:一部プロンプトが「BBC」など意味のある単語を獲得
• 勾配ベースの離散最適化により効果的なプロンプトの自動発見が可能に
◼流暢さを考慮したハードプロンプト最適化は,多様なモデル・少数
データ設定でも有効
Safety Contents
◼生成モデルのNSFW・著作権コンテンツに対する対策
• 通常キーワード単位のフィルタでNSFW・著作権コンテンツを制限
(例) Midjourneyでは著作権対策として”Afghan”という単語をブロック
◼バイパスの懸念
• プロンプト最適化により,禁止語を使わず類似の意味を表現可能
• “Afghan girl”を直接使用せずに類似画像を生成できる回避プロンプトが存在
• AIが人物”Sharbat Gula”を「タリバン」など不適切な
文脈と関連づける可能性
◼対策
• キーワードのブロックリストだけでは不十分
• 意味・特徴ベースのコンテンツ検出システムが必要
まとめ
◼提案手法
• ソフトプロンプトを中間関数として活用し離散的なハードプロンプトを最適化
• 埋め込み空間の有効な位置を選択
• 学習率やデータのノイズに対し頑健
• 全ステップで勾配を活用するため
◼今後の課題
• 言語モデルの埋め込み空間の理解はまだ初期段階
• 幾何学的な理解が進めばより強力な最適化が可能に
◼応用と懸念
• ハードプロンプトは実用的で多用途だが,解釈困難なトークンを含む可能性
• 有害なフレーズや機密情報を注捨する可能性に注意が必要

More Related Content

PDF
【文献紹介】Automatic community creation for abstractive spoken conversation summar...
PDF
レコメンデーション(協調フィルタリング)の基礎
PDF
ユーザーストーリーワークショップ
PDF
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
PPTX
次世代エンタープライズの開発環境をライブで読み解く
PDF
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
PDF
【Schoo web campus】8ヶ月で会員1万人と、総額8億円を集めたux改善 先生:吉田浩一郎
PPTX
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
【文献紹介】Automatic community creation for abstractive spoken conversation summar...
レコメンデーション(協調フィルタリング)の基礎
ユーザーストーリーワークショップ
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
次世代エンタープライズの開発環境をライブで読み解く
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
【Schoo web campus】8ヶ月で会員1万人と、総額8億円を集めたux改善 先生:吉田浩一郎
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...

Similar to 論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts, Toward Human Readable Prompt Tuning: Kubrick’s The Shining is a good movie, and a good prompt too? 他 (20)

PDF
JAWS FESTA 2018 OSAKA AHAB
PDF
地図を捨ててコンパスを頼りに進め
PDF
地図を捨ててコンパスを頼りに進め
PPTX
Python による 「スクレイピング & 自然言語処理」入門
PDF
Intalio japan special cloud workshop
PDF
JAWS DAYS 2022
PDF
広告ログの解析システム
PDF
コンソールゲームを世界展開してみた - JAWS DAYS 2015
KEY
Rdbms起点で考えると見えない世界 okuyama勉強会
PDF
CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...
PDF
効率的学習 / Efficient Training(メタサーベイ)
PDF
20120623 cv勉強会 shirasy
PDF
W&B Seminar #5(to share).pdf
PDF
増加するコアを使い切れ!!
PDF
プログラミング生放送@プログラミング生放送勉強会 第20回@品川
PDF
OpenAI の音声認識 AI「Whisper」をテストしてみた
PPTX
CVPR2017 参加報告 速報版 本会議 1日目
PDF
自動化と画面を考えてみました
PDF
Xp Terakoya No02
PDF
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
JAWS FESTA 2018 OSAKA AHAB
地図を捨ててコンパスを頼りに進め
地図を捨ててコンパスを頼りに進め
Python による 「スクレイピング & 自然言語処理」入門
Intalio japan special cloud workshop
JAWS DAYS 2022
広告ログの解析システム
コンソールゲームを世界展開してみた - JAWS DAYS 2015
Rdbms起点で考えると見えない世界 okuyama勉強会
CV勉強会ICCV2017読み会:Towards Diverse and Natural Image Descriptions via a Conditi...
効率的学習 / Efficient Training(メタサーベイ)
20120623 cv勉強会 shirasy
W&B Seminar #5(to share).pdf
増加するコアを使い切れ!!
プログラミング生放送@プログラミング生放送勉強会 第20回@品川
OpenAI の音声認識 AI「Whisper」をテストしてみた
CVPR2017 参加報告 速報版 本会議 1日目
自動化と画面を考えてみました
Xp Terakoya No02
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
Ad

More from Toru Tamaki (20)

PDF
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
PDF
論文紹介:OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video​ Unde...
PDF
論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, ...
PDF
論文紹介:Segment Anything, SAM2: Segment Anything in Images and Videos
PDF
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
PDF
論文紹介:「Amodal Completion via Progressive Mixed Context Diffusion」「Amodal Insta...
PDF
論文紹介:「mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal La...
PDF
論文紹介:What, when, and where? ​Self-Supervised Spatio-Temporal Grounding​in Unt...
PDF
論文紹介:PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics
PDF
論文紹介:"Visual Genome:Connecting Language and Vision​Using Crowdsourced Dense I...
PDF
論文紹介:"InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning" ...
PDF
論文紹介:ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Stream...
PDF
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
PDF
PCSJ-IMPS2024招待講演「動作認識と動画像符号化」2024年度画像符号化シンポジウム(PCSJ 2024) 2024年度映像メディア処理シンポジ...
PDF
論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise E...
PDF
論文紹介:On Feature Normalization and Data Augmentation
PDF
論文紹介:CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection
PDF
論文紹介:MS-DETR: Efficient DETR Training with Mixed Supervision
PDF
論文紹介:Synergy of Sight and Semantics: Visual Intention Understanding with CLIP
PDF
論文紹介:2D Pose-guided Complete Silhouette Estimation of Human Body in Occlusion
論文紹介:Unboxed: Geometrically and Temporally Consistent Video Outpainting
論文紹介:OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video​ Unde...
論文紹介:HOTR: End-to-End Human-Object Interaction Detection​ With Transformers, ...
論文紹介:Segment Anything, SAM2: Segment Anything in Images and Videos
論文紹介:Unbiasing through Textual Descriptions: Mitigating Representation Bias i...
論文紹介:「Amodal Completion via Progressive Mixed Context Diffusion」「Amodal Insta...
論文紹介:「mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal La...
論文紹介:What, when, and where? ​Self-Supervised Spatio-Temporal Grounding​in Unt...
論文紹介:PitcherNet: Powering the Moneyball Evolution in Baseball Video Analytics
論文紹介:"Visual Genome:Connecting Language and Vision​Using Crowdsourced Dense I...
論文紹介:"InfLoRA: Interference-Free Low-Rank Adaptation for Continual Learning" ...
論文紹介:ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Stream...
論文紹介:Make Pixels Dance: High-Dynamic Video Generation
PCSJ-IMPS2024招待講演「動作認識と動画像符号化」2024年度画像符号化シンポジウム(PCSJ 2024) 2024年度映像メディア処理シンポジ...
論文紹介:T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise E...
論文紹介:On Feature Normalization and Data Augmentation
論文紹介:CLIFF: Continual Latent Diffusion for Open-Vocabulary Object Detection
論文紹介:MS-DETR: Efficient DETR Training with Mixed Supervision
論文紹介:Synergy of Sight and Semantics: Visual Intention Understanding with CLIP
論文紹介:2D Pose-guided Complete Silhouette Estimation of Human Body in Occlusion
Ad

論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts, Toward Human Readable Prompt Tuning: Kubrick’s The Shining is a good movie, and a good prompt too? 他