LiteRT-LM

Definition:

スマートフォン・PC・IoTデバイスなどのエッジデバイス上で大規模言語モデル[LLM]やマルチモーダルモデルを本番品質で動かすための高性能な推論フレームワーク.

Googleによって開発され,ChromeやPixel Watchなどの製品に採用されており,商用レベルの信頼性を備える.開発者はKotlin, Python, C++といった複数の言語から, それぞれの環境に最適なAPIを利用してアプリケーションを構築可能.2025年9月24日に,LiteRT-LMエンジンの基礎となるC++インターフェース[プレビュー版]が初めて開発者向けに公開.2026年4月にプロダクション対応のオープンソースフレームワークとして正式リリース.

他の多くのフレームワークがサーバーサイドでの動作を前提としているのに対し,LiteRT-LMAndroid,iOS,Web,デスクトップ,IoT[Raspberry Pi等]といったエッジデバイス上でのデプロイに特化.また,エッジデバイスの性能を最大限に引き出すため,GPUおよびNPUアクセラレータを活用したハードウェア加速に対応しており,高いパフォーマンスを実現している.

さらに,デバイス上で画像やオーディオの入力を処理するマルチモーダル機能や,エージェントワークフローに不可欠なツール利用[関数呼び出し/Function Calling]機能をサポート.

GoogleのGemmaだけでなく,Llama, Phi-4, Qwenといった幅広いオープンモデルをサポート.

特徴 LiteRT-LM vLLM llama.cpp
主な用途 モバイル・Web・IoTアプリへの組み込み クラウドサーバーでのAPI提供 ローカルPCでのモデル実行
強み Google製品での採用実績、CPU/GPU/NPU加速 高スループット、PagedAttention 幅広いハードウェア互換性、量子化
マルチモーダル 標準対応[画像・音声] 一部対応 対応[Llava等]
プラットフォーム Android, iOS, Web, Desktop[macOS/Windows/Linux], IoT Linux[CUDA/ROCm] macOS, Windows, Linux

推論エンジンと推論フレームワーク

参考文献


2026-04-11.

Mathematics is the language with which God has written the universe.





















追記型アーキテクチャ Transformerの万能近似能力 LightMem MindsDB Lance Format SLURM