nishio-human-pairwise-label-preference-before-judge-2026-06-02

What it is

2026-06-02 の nishio からの追加メモを source 化したもの。

要点は、人間は単独の label だけを見て「何が悪いか」を十分に言語化して批判できるとは限らない、という指摘である。したがって judge 改善の前に、まず色々なパラメータ違いの label を作り、人間には どちらがよいか を比較で聞く方がよい。

人間に見せる比較単位は cluster label 単位か、同じ階層の label set 全体か。
選好理由は自由記述にするか、covers more / distinguishes siblings / concise / unsupported のようなタグ選択にするか。
1 回の比較 UI で何案まで見せるか。A/B を基本にするか、3 案 ranking にするか。