優化 RAG 檢索的數個方法

RAG (Retrieval Augmented Generation) 透過外部來源取得資訊,並將資訊提供給 LLM 產生回答,成功地解決了 LLM 回答受限於其訓練資料的問題。

【筆記】llama.cpp 的 KV Cache

前陣子在研究 llama.cpp 框架支援的 KV Cache 操作,順手將一些常用或者有關 KV Cache 的參數記錄一下