AN の日記

優化 RAG 檢索的數個方法

RAG (Retrieval Augmented Generation) 透過外部來源取得資訊，並將資訊提供給 LLM 產生回答，成功地解決了 LLM 回答受限於其訓練資料的問題。

【筆記】llama.cpp 的 KV Cache

前陣子在研究 llama.cpp 框架支援的 KV Cache 操作，順手將一些常用或者有關 KV Cache 的參數記錄一下

Tokenizer演算法詳解：BPE, WordPiece, Unigram

建議閱讀對象：想知道 Tokenizer 是如何建立詞彙表（vocabulary），以及如何將句子切割成 subwords 的人

【論文】PagedAttention — 高吞吐量LLM推論框架 vLLM 的設計

提出了 PagedAttention 機制管理 KV Cache，大幅提升模型推論時的吞吐量