検索を組み合わせる

検索を組み合わせる話
- DPRとBM25を組み合わせてる
  - DPRが雑に言えばベクトル検索で、BM25とは雑に言えば「モダンなTF-IDF」
  - ベクトル検索が低頻度語に弱い(=固有名詞、専門用語や製品名に弱い)から、普通の検索を組み合わせる
BM25: 語彙一致ベース
Dense Passage Retriever (DPR)…事前学習モデルを利用した密なベクトルベース
- 意味的な類似性に強い
- 低頻度語を見逃す / 分布外（OOD）での性能劣化が著しい
DPR, BM25 の両者の検索結果のオーバーラップは極めて小さい
→両者のいいとこ取り
全チームが Retriever-Reader 型
- Fusion in Decoderを Reader として採用
  - 上位 100 件程度
- 情報検索周りの論文を調査していくと、この文脈での研究がいくつか見つかり、BERT ベースで分類器を構築するよりも、seq-to-seq ベースのものの方が精度が高い
  - Rerankerを学習した(リランク)

🪴 Quartz 4.0