LiteRT-LM

Definition：

スマートフォン・PC・IoTデバイスなどのエッジデバイス上で大規模言語モデル[LLM]やマルチモーダルモデルを本番品質で動かすための高性能な推論フレームワーク.

Googleによって開発され,ChromeやPixel Watchなどの製品に採用されており,商用レベルの信頼性を備える.開発者はKotlin, Python, C++といった複数の言語から, それぞれの環境に最適なAPIを利用してアプリケーションを構築可能.2025年9月24日に,LiteRT-LMエンジンの基礎となるC++インターフェース[プレビュー版]が初めて開発者向けに公開.2026年4月にプロダクション対応のオープンソースフレームワークとして正式リリース.

他の多くのフレームワークがサーバーサイドでの動作を前提としているのに対し,LiteRT-LMはAndroid,iOS,Web,デスクトップ,IoT[Raspberry Pi等]といったエッジデバイス上でのデプロイに特化.また,エッジデバイスの性能を最大限に引き出すため,GPUおよびNPUアクセラレータを活用したハードウェア加速に対応しており,高いパフォーマンスを実現している.

さらに,デバイス上で画像やオーディオの入力を処理するマルチモーダル機能や,エージェントワークフローに不可欠なツール利用[関数呼び出し/Function Calling]機能をサポート.

GoogleのGemmaだけでなく,Llama, Phi-4, Qwenといった幅広いオープンモデルをサポート.

特徴 LiteRT-LM vLLM llama.cpp

主な用途モバイル・Web・IoTアプリへの組み込みクラウドサーバーでのAPI提供ローカルPCでのモデル実行

強み Google製品での採用実績、CPU/GPU/NPU加速高スループット、PagedAttention 幅広いハードウェア互換性、量子化

マルチモーダル標準対応[画像・音声] 一部対応対応[Llava等]

プラットフォーム Android, iOS, Web, Desktop[macOS/Windows/Linux], IoT Linux[CUDA/ROCm] macOS, Windows, Linux

特徴	LiteRT-LM	vLLM	llama.cpp
主な用途	モバイル・Web・IoTアプリへの組み込み	クラウドサーバーでのAPI提供	ローカルPCでのモデル実行
強み	Google製品での採用実績、CPU/GPU/NPU加速	高スループット、PagedAttention	幅広いハードウェア互換性、量子化
マルチモーダル	標準対応[画像・音声]	一部対応	対応[Llava等]
プラットフォーム	Android, iOS, Web, Desktop[macOS/Windows/Linux], IoT	Linux[CUDA/ROCm]	macOS, Windows, Linux

推論エンジンと推論フレームワーク

推論エンジン[Inference Engine]：モデルを実際に実行する計算コアの部分.テンソル演算の最適化,GPU/NPUへのオフロード,量子化対応など,低レベルの実行処理に焦点.
推論フレームワーク[Inference Framework]：推論エンジンを含みつつ,その周辺機能も含んだより広い概念.モデルの読み込み・変換,APIの提供,KVキャッシュ管理,プロンプト処理,セッション管理等が含まれる.

参考文献

Google AI Edge. LiteRT-LM: Google's production-ready, high-performance, open-source inference framework for deploying Large Language Models on edge devices.
GitHub: https://github.com/google-ai-edge/LiteRT-LM

2026-04-11.

Mathematics is the language with which God has written the universe.

光トランスポンダー Transformerの万能近似能力 LightMem MindsDB Lance Format SLURM