RAG (Retrieval Augmented Generation) 透過外部來源取得資訊,並將資訊提供給 LLM 產生回答,成功地解決了 LLM 回答受限於其訓練資料的問題。
前陣子在研究 llama.cpp 框架支援的 KV Cache 操作,順手將一些常用或者有關 KV Cache 的參數記錄一下
建議閱讀對象:想知道 Tokenizer 是如何建立詞彙表(vocabulary),以及如何將句子切割成 subwords 的人
提出了 PagedAttention 機制管理 KV Cache,大幅提升模型推論時的吞吐量