nishio-label-evaluation-improvement-plan-request-2026-06-03

What it is

2026-06-03 の nishio からの確認を source 化したもの。

直前までの議論で、ラベル品質評価は単独 label 批評ではなく blind A/B preference とし、algorithm / process 由来を人間に隠し、full UI 評価は困難なので label_only / sibling_label_set / label_with_representatives に分解する方針になった。これを受けて、改善計画として Wiki にまとめるか、という確認である。

Extracted Points

既存のロードマップ追記だけでは、次に何を実装・実験するかが散らばる。
改善計画は、抽象方針ではなく、次の PR / script / artifact / evaluation flow に落とす必要がある。
計画には、blind A/B、presentation context、human preference、judge calibration、実験結果の保存先を接続する必要がある。

Open Questions

改善計画を GitHub issue 化する時、既存 #881 に集約するか、新しい implementation issue を切るか。
最初の implementation slice は bundle generator だけにするか、human preference export まで含めるか。

Updates

2026-06-03: 初版作成。

kouchou-ai developer wiki

エクスプローラー

nishio-label-evaluation-improvement-plan-request-2026-06-03

What it is

Extracted Points

Open Questions

Updates

グラフビュー

目次

バックリンク

kouchou-ai developer wiki

エクスプローラー

nishio-label-evaluation-improvement-plan-request-2026-06-03

What it is

Extracted Points

Related Pages

Open Questions

Updates

グラフビュー

目次

バックリンク