2026-05-25 時点で使っているラベル品質 judge は、どちらも OpenAI API を叩く GPT judge である。しかも今回の実験系では、llm_grouping や label refinement の生成側でも GPT を使っているため、同系統モデルで生成して同系統モデルで採点している 状態になっている。したがって judge 結果はそのまま最終判断ではなく、まず仕組みを人間が理解し、その後に Claude / 人間 judge で較正する必要がある。llm-grouping-experiment-output-2026-05-25より
Current Judges
現状の judge は大きく 2 種類ある。
1. Cluster-Level Judge
各 top-level cluster を 1 個ずつ評価する judge である。入力として見せているのは次である。
labeldescriptioncluster size- representative argument 例
- sibling の他ラベル一覧
この judge は次の 4 項目を採点している。
一貫性具体性網羅性区別性
意味としては、一貫性 = ラベルと説明がその cluster の中身に合っているか、具体性 = 言い方がぼんやりしていないか、網羅性 = 主論点を取りこぼしていないか、区別性 = 他の top-level label と混ざりにくいか である。これは元々 ~/broadlistening-research に残っていた 2025-02 の評価軸 一貫性 / 具体性 / 網羅性 / キーワード適切性 を、今回の出力 schema に合わせて少し変形したものである。llm-grouping-experiment-output-2026-05-25より
2. Label-Set Direct Judge
top-level label set を 一覧でまとめて 比較する judge である。ここでは cluster を個別採点せず、
- 読みやすさ
- 重複の少なさ
- 粒度の揃い
- 全体としての代表性
のような観点で、候補 A / B / C のどれが一番よいかを比べている。つまりこれは 1 cluster の説明品質 を見る judge ではなく、見出し集合を UI 上で並べた時の scanability を見る judge である。llm-grouping-experiment-output-2026-05-25より
Why The Winners Diverge
この 2 種類は見ているものが違うので、winner が割れても不思議ではない。
cluster-level judgeは individual cluster の代表性を好むlabel-set direct judgeは一覧の読みやすさや粒度の揃いを好む
実際に今回の refinement 実験では、cluster 平均点では contrast や baseline none が上に来る一方、label set 全体 judge では balanced や setwise_refine が勝った。これは judge の不安定さだけでなく、評価対象そのものが違う ことを意味する。llm-grouping-experiment-output-2026-05-25より
Limits
現状の OpenAI judge には、少なくとも次の制約がある。
- 生成側も judge 側も GPT 系なので self-evaluation バイアスを疑うべき
- representative arguments は少数件しか見ていない
- 実 UI 文脈ではなく text dump のみで判断している
- prompt が「良いラベルとは何か」をかなり誘導している
したがって、この judge は 最終審判 ではなく、せいぜい「仮説生成用の弱い評価器」である。judge の数点差だけで algorithm 設計を複雑化するのは危うい。llm-grouping-experiment-output-2026-05-25より
Next Step: Calibration
次にやるべきことは、新しい refinement mode を増やすことではなく judge calibration である。
- 判断対象データを固定フォーマットで出力する
- Claude Code に同じ bundle を見せて judge させる
- 人間にも同じ bundle を見せて判断してもらう
- OpenAI / Claude / 人間の順位一致率を見る
そのための比較材料として label-refinement-judge-bundle-2026-05-25 を追加した。この bundle は none / setwise / contrast / balanced の top-level labels, descriptions, sizes, representative arguments を同一フォーマットで並べている。OpenAI judge の結果だけを信用するのではなく、まずこの bundle を使って「judge 自体が人間の感覚をどの程度反映しているか」を確認すべきである。source-codeより
Open Questions
- Claude judge と人間 judge は、cluster 単位 judge と direct judge のどちらに近い順位を返すか
- product で最適化したいのは
個別 cluster の代表性と一覧 heading の読みやすさのどちらか - representative argument 3 件という bundle は judge 較正に十分か
Updates
- 2026-05-29: Zenn / Ubie の LLM-as-a-Judge ルーブリック評価記事を踏まえ、現状の抽象軸を
true/falsecriteria + points + fatal penalty に分解する案を label-quality-rubric-evaluation-2026-05-29 として追加。既存 judge を置き換える前に[8,40]bundle と人間判断で較正する方針 - 2026-05-25: 初版作成。現状の judge が OpenAI/GPT ベースであること、
cluster-level judgeとlabel-set direct judgeが見ている対象の違い、Claude / 人間 judge による較正が必要な理由を整理