What Changed
work/kouchou-ai-mst-visualization-prototype/ で、llm_grouping_sample_comments_400_config の 422 argument / 8 clusters を対象に可視化の試作を複数系統で比較した。対象は current analysis-core の hierarchical_result.json と embeddings.pkl で、最終表示は prototype 側 report-mst-prototype.html に逐次反映した。source-codeより
試した系統は大きく 5 つだった。
- 元の 2D
UMAP上に MST / bridge を重ねる graph overlay LLM groupinglabel を教師信号にした supervised UMAP- core point だけ教師信号を残す semi-supervised UMAP
LinearDiscriminantAnalysisによる 2D 判別空間- cluster-first な semantic island map
Main Finding
今回の要件では、embedding 由来 2D 散布図を主図にするのは筋が悪い。より正確には、LLM grouping の所属を優先したい要求と、embedding 空間の近傍構造を 2D に保ちたい要求が衝突していた。slack-niizuma-umap-kmeans-thread-2026-03-18より
実験で起きたことは一貫していた。
- supervised UMAP を強く掛けると cluster は分かれるが、全体が不自然に離れ、cluster 内がスカスカになりやすい
- weight を下げると今度は境界点が他 cluster に参加して見え、所属の可読性が落ちる
- semi-supervised UMAP は「離れすぎ」と「混ざりすぎ」の妥協にはなったが、最終図として読むにはまだ不安定
- LDA は強い判別軸を 2 本だけ抜くので、一部 cluster は綺麗に分かれる一方、残りが同じ側で団子になりやすい
- centroid-MDS + local PCA も、cluster-first の方向としては前進だが、最終的に「点が必ず所属クラスタの領域にいる」という保証を持たない限り、混ざりの違和感が残る
この結果は、UMAP を分析 artifact と表示 artifact の両方に使うと責務が衝突する、という既存の問題意識と揃う。slack-kouchouai-algorithm-devより slack-niizuma-umap-kmeans-thread-2026-03-18より
Why Semantic Island Map Worked Better
一番ましだったのは、cluster 間配置と cluster 内配置を分離し、点を必ず所属クラスタの「島」に閉じ込める semantic island map だった。source-codeより
prototype では次のように作った。
- cluster 間は高次元 embedding 上の cluster centroid 距離を
classical MDSで 2D に置く - cluster ごとに island の中心を持ち、必要なら軽く overlap 解消する
- cluster 内は高次元 residual を
local PCAで 2D にして、その形を小さく正規化して島の中へ置く - 1 点 = 1 意見は維持するが、点は所属 cluster の外へ出さない
この方式では、点同士のユークリッド距離を「そのまま意味距離」とは読めない。代わりに、
- どんな cluster があるか
- 各 cluster の量はどれくらいか
- cluster 内でどの点が中心寄りか / 周縁寄りか
を優先して読める。今回の試行では、これが最も user intent に近かった。
Practical Implication
今後の可視化設計は、主図と診断図を分けて考えるのがよい。
- 主図: semantic island map のような cluster-first view
- 診断図: raw UMAP / supervised UMAP / LDA など、embedding と label のズレを観察する補助図
特に LLM grouping のような「所属は意味分類、geometry は embedding」な mode では、散布図を canonical output とみなすより、所属・量・代表性・境界性を読ませる主図 を別に持つ方が product 的にも説明責務的にも安全である。slack-kouchouai-algorithm-devより
Open Questions
- semantic island map で cluster 間の 2D 配置を何で決めるのが一番説明しやすいか。embedding centroid 距離は基準線にはなるが、人間に意味が伝わるとは限らない
- cluster 内配置を
local PCAのままにするか、密度均一化した packing や代表性順の radial layout に寄せるか - public viewer の plugin system に入れるなら、
analysis_capabilities/ chartrequirementsとどう結びつけるか
Updates
- 2026-05-30: 2026-05-30 の対話で「広聴AI = 構造把握スタンス」「全体傾向把握ユースケース一本」「KJ 原則 5 は別ツール」が確定 (analysis-stance / label-quality-redesign-reset-2026-05-30)。これに照らすと semantic island map は 構造把握用の主図候補として広聴AI 本体に残せる (別ツール候補に倒れない)。理由: cluster-first で「島から出ない」点配置は (1) reader が「ここに塊がある」を指さしやすい解説素材性、(2) reader が「自分なら何と名付けるか / どう切るか」を島に対して試せる突合素材性、の両方で構造把握の評価軸に合う。一方で対立カード・bridge カード・因果図示など「構造を artifact として明示する」機能は別ツール側
- 2026-05-26:
work/kouchou-ai-mst-visualization-prototype/で MST overlay, supervised UMAP, semi-supervised UMAP, LDA, centroid-MDS を順に比較し、最終的に semantic island map を採用する判断を記録