What it is

2026-06-03 の nishio からの確認を source 化したもの。

直前までの議論で、ラベル品質評価は単独 label 批評ではなく blind A/B preference とし、algorithm / process 由来を人間に隠し、full UI 評価は困難なので label_only / sibling_label_set / label_with_representatives に分解する方針になった。これを受けて、改善計画として Wiki にまとめるか、という確認である。

Extracted Points

  • 既存のロードマップ追記だけでは、次に何を実装・実験するかが散らばる。
  • 改善計画は、抽象方針ではなく、次の PR / script / artifact / evaluation flow に落とす必要がある。
  • 計画には、blind A/B、presentation context、human preference、judge calibration、実験結果の保存先を接続する必要がある。

Open Questions

  • 改善計画を GitHub issue 化する時、既存 #881 に集約するか、新しい implementation issue を切るか。
  • 最初の implementation slice は bundle generator だけにするか、human preference export まで含めるか。

Updates

  • 2026-06-03: 初版作成。