Relevant Search 讀書筆記（4）：Performing Analysis

Chapter 2 的 2.3.3 把「可被找到性」直接綁到 token 設計。
分析鏈由 character filter、tokenizer、token filter 組成，匹配行為可用規則精準控制。
分析規則一改，token 集合就會改，文件可匹配範圍會跟著變動。
字元清理先移除 HTML 與變體字元，索引文本訊號一致性會提高。
standard tokenizer 會切開標點與空白，自然語句查詢命中率通常更穩。
lowercase、stop-word、possessive filters 會正規化詞形，常見拼寫差異可被吸收。
term position 與 offset 會支援片語查詢與高亮，結果頁可直接回溯命中證據。
payload metadata 增加會推高儲存成本，索引容量邊界要先定義。
「10 組高頻查詢的 query token vs document token 對照表」可做固定回歸基線，每次改 analyzer 後直接比對匹配品質。

接下來看什麼

上一篇 / 下一篇

上一篇：四家央行同週按住利率：觀察期拉長後，市場該讀哪一種錯誤成本？下一篇：薪資先轉正，消費還沒接棒：日本 0.75% 之後先看哪個缺口？

延伸閱讀

Relevant Search 讀書筆記（3）：Extraction 與 Enrichment 2026-03-22
Kafka Share Consumer 上線筆記：把工作佇列語意放進 Kafka 2026-03-21
Relevant Search 讀書筆記（2）：Search under the hood 開場 2026-03-20

訂閱 RSS：總經 · 技術

Share on

X Facebook LinkedIn Bluesky