Definition:
スマートフォン・PC・IoTデバイスなどのエッジデバイス上で大規模言語モデル[LLM]やマルチモーダルモデルを本番品質で動かすための高性能な推論フレームワーク.
Googleによって開発され,ChromeやPixel Watchなどの製品に採用されており,商用レベルの信頼性を備える.開発者はKotlin, Python, C++といった複数の言語から, それぞれの環境に最適なAPIを利用してアプリケーションを構築可能.2025年9月24日に,LiteRT-LMエンジンの基礎となるC++インターフェース[プレビュー版]が初めて開発者向けに公開.2026年4月にプロダクション対応のオープンソースフレームワークとして正式リリース.
他の多くのフレームワークがサーバーサイドでの動作を前提としているのに対し,LiteRT-LMはAndroid,iOS,Web,デスクトップ,IoT[Raspberry Pi等]といったエッジデバイス上でのデプロイに特化.また,エッジデバイスの性能を最大限に引き出すため,GPUおよびNPUアクセラレータを活用したハードウェア加速に対応しており,高いパフォーマンスを実現している.
さらに,デバイス上で画像やオーディオの入力を処理するマルチモーダル機能や,エージェントワークフローに不可欠なツール利用[関数呼び出し/Function Calling]機能をサポート.
GoogleのGemmaだけでなく,Llama, Phi-4, Qwenといった幅広いオープンモデルをサポート.
| 特徴 | LiteRT-LM | vLLM | llama.cpp |
|---|---|---|---|
| 主な用途 | モバイル・Web・IoTアプリへの組み込み | クラウドサーバーでのAPI提供 | ローカルPCでのモデル実行 |
| 強み | Google製品での採用実績、CPU/GPU/NPU加速 | 高スループット、PagedAttention | 幅広いハードウェア互換性、量子化 |
| マルチモーダル | 標準対応[画像・音声] | 一部対応 | 対応[Llava等] |
| プラットフォーム | Android, iOS, Web, Desktop[macOS/Windows/Linux], IoT | Linux[CUDA/ROCm] | macOS, Windows, Linux |
Mathematics is the language with which God has written the universe.