LMCache
summary:
LMCacheとは,LLMアプリケーションを高速化するために設計されたオープンソースの
KDN[Knowledge Delivery Network]である.
LMCacheの主な利点は,速度・コスト効率・スケーラビリティ・クロスプラットフォーム対応,及び品質である.LMCacheは独自のストリーミングと解凍方法を採用しており,これによりレイテンシを最小限に抑え,高速な応答を可能としている.
参考
- LMCash:Accelerating the Future of AI,One Cache at a Time
- Yuhan Liu, Hanchen Li, Yihua Cheng, Siddhant Ray, Yuyang Huang, Qizheng Zhang, Kuntai Du, Jiayi Yao, Shan Lu, Ganesh Ananthanarayanan, Michael Maire, Henry Hoffmann, Ari Holtzman, Junchen Jiang(11 Oct 2023),CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving,arXiv:arXiv:2310.07240v6 [cs.NI]
- Jiayi Yao, Hanchen Li, Yuhan Liu, Siddhant Ray, Yihua Cheng, Qizheng Zhang, Kuntai Du, Shan Lu, Junchen Jiang(26 May 2024),CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion,arXiv:arXiv:2405.16444 [cs.LG]
Mathematics is the language with which God has written the universe.