AI王 〜クイズAI日本一決定戦〜 に参加し第3位入賞した話|PKSHA Delta 2023-01-04

  • image

  • 検索を組み合わせる話

    • DPRBM25を組み合わせてる
      • DPRが雑に言えばベクトル検索で、BM25とは雑に言えば「モダンなTF-IDF」
      • ベクトル検索が低頻度語に弱い(=固有名詞、専門用語や製品名に弱い)から、普通の検索を組み合わせる
  • BM25: 語彙一致ベース

  • Dense Passage Retriever (DPR)…事前学習モデルを利用した密なベクトルベース

    • 意味的な類似性に強い
    • 低頻度語を見逃す / 分布外(OOD)での性能劣化が著しい
  • DPR, BM25 の両者の検索結果のオーバーラップは極めて小さい

  • →両者のいいとこ取り

  • 全チームが Retriever-Reader

    • Fusion in Decoderを Reader として採用
      • 上位 100 件程度
    • 情報検索周りの論文を調査していくと、この文脈での研究がいくつか見つかり、BERT ベースで分類器を構築するよりも、seq-to-seq ベースのものの方が精度が高い

PKSHA LLM AI王 クイズAI