
本日、Liquid Foundation Models(LFM)の新たなクラスである LFM2 を発表します。LFM2 は、品質・速度・メモリ効率においてオンデバイス導入の新たな基準を打ち立てるモデルです。
LFM2 は、業界全体で最も高速なオンデバイス生成 AI 体験を提供することを目的に設計されており、生成系 AI ワークロードに対して膨大な数のデバイスを解放します。新しいハイブリッドアーキテクチャに基づいて構築された LFM2 は、CPU 上で Qwen3 よりも 2 倍高速なデコードおよびプリフィル性能を発揮します。また、各サイズ帯で他のモデルを大きく上回る性能を持ち、効率的な AI エージェントの動力源として最適です。
これらの性能向上により、LFM2 はローカルおよびエッジユースケースに最適な選択肢となります。導入面での利点に加え、アーキテクチャとトレーニング基盤の刷新により、前世代の LFM と比べて 3 倍のトレーニング効率を実現し、LFM2 は汎用 AI システムを構築する上で最もコスト効率の高い手段となっています。
Liquid では、特定のタスクやハードウェア要件に最適化された品質・遅延・メモリのバランスを実現する基盤モデルを構築しています。このバランスを完全にコントロールできることは、あらゆるデバイス上で最高クラスの生成モデルをデプロイするために不可欠です。これはまさに、Liquid の製品がエンタープライズ向けに提供している能力です。
大規模な生成モデルをクラウドからスリムなオンデバイス LLM へと移行させることで、ミリ秒レベルの低遅延、オフライン対応力、データ主権に基づくプライバシーを実現できます。これらは、スマートフォン・ノートPC・自動車・ロボット・ウェアラブル・衛星など、リアルタイムで推論を行う必要があるエンドポイントにとって不可欠です。
家電・ロボティクス・金融・EC・教育など、成長著しいエッジ AI スタックの市場を集約し、防衛・宇宙・サイバーセキュリティ分野の需要も含めると、コンパクトかつプライベートな基盤モデル市場の TAM(総潜在市場)は、2035 年までに 1 兆ドル規模へと拡大します。
Liquid は、これらの分野で多数の Fortune 500 企業と連携しています。Liquid の超効率的な小型マルチモーダル基盤モデルは、安全なエンタープライズグレードの導入スタックとともに提供され、あらゆるデバイスをローカルで AI デバイスに変換します。これにより、エンタープライズがクラウド LLM から、コスト効率が高く、高速でプライベートなオンプレミスのインテリジェンスへと移行する際に、市場で大きなシェアを獲得する機会が生まれます。
LFM2 の注目ポイント
高速な学習・推論
LFM2 は前世代モデルと比べて 3 倍高速なトレーニングを実現。また、CPU 上で Qwen3 と比べて最大 2 倍高速なデコードおよびプリフィル速度を発揮します。
ベストな性能
LFM2 は、知識・数学・命令追従・多言語対応など、複数のベンチマークカテゴリにおいて、同等サイズのモデルを上回ります。
新しいアーキテクチャ
LFM2 は、乗算ゲートとショート畳み込みを用いたハイブリッド Liquid モデルです。全 16 ブロック構成で、10 ブロックはダブルゲート付きショートレンジ畳み込み、6 ブロックはグループ化クエリアテンション(GQA)です。
柔軟な導入
スマートフォン、ノートPC、車載環境など、LFM2 は CPU・GPU・NPU 上で効率よく動作します。アーキテクチャ、最適化、デプロイエンジンを含むフルスタックソリューションにより、プロトタイプから製品化までの道のりを加速します。
今すぐ試す
LFM2 の dense チェックポイント(0.35B、0.7B、1.2B)を公開しています。Liquid Playground、Hugging Face、OpenRouter で今すぐ試してみてください。
LFM を試す
ベンチマーク
LFM2 の能力を包括的に把握するために、自動ベンチマークと LLM-as-a-Judge フレームワークを使用して評価を行いました。
自動ベンチマーク
LFM2は、さまざまな評価カテゴリにおいて、同程度のサイズの他のモデルを上回る性能を示しています。知識(5-shot MMLU、0-shot GPQA)、命令追従(IFEval、IFBench)、数学(0-shot GSM8K、5-shot MGSM)、多言語対応(5-shot OpenAI MMMLU、再度5-shot MGSM)といった7つの主要なベンチマークを使い、7言語(アラビア語、フランス語、ドイツ語、スペイン語、日本語、韓国語、中国語)にわたってLFM2を評価しました。

LFM2-1.2Bは、パラメータ数が47%多いQwen3-1.7Bと同等の性能を示しました。LFM2-700Mは、Gemma 3 1B ITを上回り、最小モデルであるLFM2-350Mでも、Qwen3-0.6BやLlama 3.2 1B Instructに匹敵する性能を発揮しています。
すべてのベンチマークスコアは、内部の評価スイートを使用して一貫性を保った上で算出しました。EleutherAIのlm-evaluation-harnessと比較して、以下のような変更を加えています:
- MMLUなどのロジットベースの評価では、最も確からしいロジットをデコードし、余分な空白を除去するようにしました(例:「 A」ではなく「A」)。これにより、正確な比較が可能になりました。
- 推論系モデルに関する研究を参考に、数学ベンチマークの解答抽出方法を統一しました。これにより、特にGemma 3 1B ITのスコアが向上しました。
- Qwen3については、非推論モードのみで評価を行いました。推論モードではトークン数の制限(<4,096トークン)により出力が長くなりがちなため、非推論モードの方が一貫して高スコアを示しました。
LLMを審査員として使用
LFM2-1.2Bの会話能力、特に複数ターンにわたる対話における性能も評価しました。この評価では、WildChatデータセットから1,000件の実際の会話を使用し、各モデルに回答を生成させました。最終的に、5つのLLMが審査員となり、ペアワイズで比較しながらどの回答が優れているかを判定しました。

LFM2-1.2Bは、Llama 3.2 1B InstructやGemma 3 1B ITと比べて大きく支持されました。また、サイズが小さく動作も高速であるにもかかわらず、Qwen3-1.7Bと同等の評価を受けました。

LFM2-700Mの回答も、Qwen3-0.6Bより明確に好まれる結果となりました。さらに、LFM2-350MもQwen3-0.6Bとほぼ互角の支持を得ており、サイズが小さいにもかかわらず競争力のある結果を示しました。
推論性能
LFM2は、さまざまな導入シナリオに対応するため、複数の推論フレームワークに対応できるようにエクスポートされています。オンデバイス推論には、PyTorchエコシステム(ExecuTorch)と、オープンソースのllama.cppライブラリの両方を活用しました。各プラットフォームにおける推奨の量子化スキーム(ExecuTorchでは8da4w、llama.cppではQ4_0)を使用し、同じエコシステム内で利用可能な他のモデルと比較しました。対象ハードウェアには、Samsung Galaxy S24 Ultra(Qualcomm Snapdragon SoC)およびAMD Ryzen(HX370)プラットフォームが含まれます。


図が示すように、LFM2はモデルサイズに対するプロンプト処理(prefill)およびトークン生成(decode)速度の両方で、パレートフロンティアをリードしています。たとえば、LFM2-700Mは、Qwen-0.6Bよりも16%大きいにもかかわらず、ExecuTorchとllama.cppの両方でdecodeおよびprefill速度が一貫して高速です。CPU上でのこの高性能は、カーネル最適化後にはGPUやNPUといったアクセラレータにも引き継がれます。
LFM2アーキテクチャ
ここでは、Liquid Time-constant Networkのファミリーから着想を得たLiquid Foundation Models(LFM)の設計について説明します。
背景
[Hasani & Lechnerら(2018年および2020年)]では、Liquid Time-constant Networks(LTCs)を導入しました。これは、非線形入力により調整される連結ゲートを備えた線形動的システムの連続時間型再帰型ニューラルネットワーク(RNN)の新しいクラスです。ここに数式

ここで、x(t)は入力、y(t)は状態、T(.)およびF(.)は非線形マップ、Aは一定の調整パラメータです。
特に、LTCにおけるゲートは、RNNにおける入力依存および状態依存のゲートの連続時間版であり、シーケンスモデリングにおいて時間的な制御をより細かく行うことが可能になります。この性質により、複雑な「液体的」な動的挙動をデータから学習できるようになります。
その後、我々のチームおよび機械学習コミュニティによる多くの研究がこの概念を取り入れ、RNN、状態空間モデル [Hasani & Lechnerら 2022]、および畳み込み [Poli & Massaroliら 2023] に応用されています。
LIV演算子による体系的ニューラルアーキテクチャ探索
効率的なLiquidシステムのアーキテクチャ設計空間を統一するために、Linear Input-Varying(LIV)演算子の概念を開発しました [Thomasら 2024]。
LIVシステムとは、入力に応じてその場で重みを生成する線形演算子であり、畳み込み、再帰、アテンションなどの構造的レイヤーを、1つの統一された入力認識型のフレームワークに統合できます。
形式的には、LIV演算子は以下の式で表現できます:

ここでxは入力、Tは入力依存の重み行列です。
LIVの柔軟性により、さまざまなニューラルネットワーク演算子やレイヤーを、共通の階層構造で簡潔に定義・記述できます。
我々は、品質、メモリ、レイテンシの要件に基づいて最適なニューラルアーキテクチャを見つけるために、アーキテクチャ探索エンジン「STAR」を開発しました。
LFM2
LFM2の目標は、組み込みSoC上で妥協のない最速の生成AI体験を提供することでした。このビジョンを実現するために、私たちはSTARを使用しました。ただし、STARの学術論文で説明されている主要なアルゴリズムにはいくつかの重要な変更を加えています:
- 言語モデリングの能力を評価する際には、従来の検証損失やパープレキシティ指標を超えて評価します。代わりに、知識の再現、多段階推論、リソースの少ない言語の理解、命令追従、ツールの使用など、50以上の社内評価からなる包括的なスイートを使用しています。
- 同様に、KVキャッシュサイズを指標とするのではなく、アーキテクチャの効率性を直接測定するアプローチを取っています。Qualcomm Snapdragonの組み込みSoC CPU上で、実際のテストを実行し、ピークメモリ使用量とprefill+decode速度を測定・最適化しています。
STARによって最終的に導出されたアーキテクチャがLFM2であり、乗算ゲートと短い畳み込みを持つLiquidモデルです。すなわち、一定時間後にゼロへと収束する線形一次システムです。LFM2は、畳み込みブロックとアテンションブロックのハイブリッドです。全体で16のブロックがあり、そのうち10個は以下の形式の二重ゲート付き短距離LIV畳み込みです:
1def lfm2_conv(x):
2 B, C, x = linear(x) # input projection
3 x = B*x # gating (gate depends on input)
4 x = conv(x) # short conv
5 x = C*x # gating
6 x = linear(x)
7 return x
また、Grouped Query Attention(GQA)のブロックが6つあり、それぞれのブロックにはSwiGLUとRMSNormレイヤーが含まれます。
LFM2の構造が完全な再帰やアテンションレイヤーではなく短い畳み込みに依存しているのは、対象デバイスが組み込みSoC CPUであり、それに最適化されたカーネルライブラリがこの種のワークロードや演算に適しているためです。現在、GPUやNPUなどのドメイン固有アクセラレータ向けにLFMsを積極的に最適化しており、検索空間を拡大しつつ、将来的にはハードウェアとモデルアーキテクチャの共同進化を目指しています。
LFM2のトレーニング
LFM2の最初のスケーリングトレーニングでは、低レイテンシのオンデバイスLLMワークロードを想定し、350M、700M、1.2Bの3つのモデルサイズを選定しました。すべてのモデルは、Web上のデータとライセンス取得済みのデータから構成される事前学習コーパス(英語75%、多言語20%、コード5%)を使用して、10兆トークンでトレーニングされました。多言語対応としては、日本語、アラビア語、韓国語、スペイン語、フランス語、ドイツ語に主に焦点を当てています。
事前学習中は、知識蒸留フレームワークにおいて、既存のLFM1-7Bモデルをティーチャーモデルとして活用しました。LFM2のスチューデント出力とLFM1-7Bのティーチャー出力との間のクロスエントロピーを、全トレーニング(10兆トークン)を通じて主要なトレーニング信号としました。事前学習中にコンテキスト長は32kに拡張されました。
ポストトレーニングでは、汎用的な能力を引き出すため、多様なデータミックスを使った大規模な教師ありファインチューニング(SFT)を実施します。小規模モデルにおいては、RAGや関数呼び出しのような代表的な下流タスクで直接トレーニングを行うことが有効であるとわかりました。使用したデータセットは、オープンソース、ライセンス取得済み、および高品質な合成データで構成されており、定量的なサンプルスコアリングと定性的なヒューリスティクスの組み合わせにより品質を保証しています。
さらに、長さ正規化を含むカスタムのDirect Preference Optimizationアルゴリズムを、オフラインおよびセミオンラインデータに適用しています。セミオンラインデータセットは、SFTデータセットをシードとして、モデルから複数の補完をサンプリングすることで生成されます。すべての応答にLLMジャッジによるスコアを付け、SFTとオンポリシーサンプルの中から最高スコアと最低スコアの補完を組み合わせて、好みのペアを作成します。オフラインおよびセミオンラインデータセットの両方は、スコアのしきい値に基づいてさらにフィルタリングされます。ハイパーパラメータやデータセットミックスを変えて複数の候補チェックポイントを作成し、最終的には複数のモデル統合技術を使って、最良のチェックポイントを選定・結合し、最終モデルとします。
LFM2で構築する
LFM2モデルは現在、Hugging Faceで利用可能です。Apache 2.0に基づいたオープンライセンスの下で公開しており、学術および研究目的で自由に利用可能です。年間売上が1,000万ドル未満の企業であれば、商用利用も可能です。それ以上の場合は、sales@liquid.aiまでご連絡ください。ライセンスの詳細についてはこちらをご覧ください。
LFM2モデルはオンデバイスでの効率性を重視して設計されているため、llama.cpp
などの多数の統合環境を使って、ご自身のデバイス上でローカルにテストすることをおすすめします。また、TRLなどを使ってユースケースに応じたファインチューニングも可能です。
エッジデプロイメント向けのカスタムソリューションにご関心のある方は、sales@liquid.aiまでご連絡ください。