LMCache

summary:

LMCacheとは,LLMアプリケーションを高速化するために設計されたオープンソースのKDN[Knowledge Delivery Network]である.

LMCacheの主な利点は,速度・コスト効率・スケーラビリティ・クロスプラットフォーム対応,及び品質である.LMCacheは独自のストリーミングと解凍方法を採用しており,これによりレイテンシを最小限に抑え,高速な応答を可能としている.

参考

  1. LMCash:Accelerating the Future of AI,One Cache at a Time
  2. Yuhan Liu, Hanchen Li, Yihua Cheng, Siddhant Ray, Yuyang Huang, Qizheng Zhang, Kuntai Du, Jiayi Yao, Shan Lu, Ganesh Ananthanarayanan, Michael Maire, Henry Hoffmann, Ari Holtzman, Junchen Jiang(11 Oct 2023),CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving,arXiv:arXiv:2310.07240v6 [cs.NI]
  3. Jiayi Yao, Hanchen Li, Yuhan Liu, Siddhant Ray, Yihua Cheng, Qizheng Zhang, Kuntai Du, Shan Lu, Junchen Jiang(26 May 2024),CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion,arXiv:arXiv:2405.16444 [cs.LG]

Mathematics is the language with which God has written the universe.





















TDM KDN vLLM AIBrix SIMH Helm