slack-algorithm-themes

[[slack-kouchouai-algorithm-dev]] を読むと、アルゴリズム開発チャンネルは単なる実験メモ置き場ではなく、広聴AIの現行パイプラインをどこで疑い、何を次の軸に据えるか をかなり率直に議論している場だと分かる。

1. このチャンネルの中心問題は「UMAP後にクラスタリングしてよいのか」

2025-05 から 2026-03 まで一貫して、embedding → UMAP 2D → k-means / 階層化 への違和感が繰り返し言語化されている。
特に 2025-10 以降は、

2D に落としてからクラスタリングすると精度が落ちる
k を先に決めてクラスタを併合するのは無理がある
同一トピック内の賛否が近傍に置かれ、対立が見えにくい

という批判が明示的になる。
2026-03 の新妻氏の整理は、この違和感を「UMAP が局所構造を保つ低次元射影であり、その後の k-means はそのアーティファクトを拾ってしまう」という形で技術的に言い直したものになっている。slack-kouchouai-algorithm-devより

したがって、このチャンネルを踏まえると、現行 pipeline は「とりあえずの実装」ではなく、当人たち自身が理論的な弱さを自覚したうえで使っている暫定形 と読むのが妥当。

2. 分析と可視化は分けるべきだ、という認識がかなり早い段階からある

2025-05 の「軸ラベルを付けてよいのか」という議論では、利用者は 2D 図に意味を読み込みたがる一方で、開発側は「UMAP の軸自体には意味がない」と考えていることが露出している。
2025-11 には、ワードクラウド風 drill-down 表示、散布図、SNS 映え、インサイト抽出を 同じ話として扱わない 方向に整理が進む。

この流れは、plugin-system や slack-dev-kouchouai-2026-q1 で語られる「可視化を分析から切り離す」方針と整合するが、アルゴリズム開発チャンネルの方が理由が露骨である。
つまり可視化分離は抽象的な拡張性のためではなく、散布図を中心に据えたままだと分析の自由度が奪われる という不満から来ている。

3. 「見逃し発見」だけではなく「対立の調停」を支えたい、という問題設定の変化がある

2025-11-19 週の議論では、これまでの広聴AIが「見逃し」を重視するあまり、政治家にとって重要な「対立の調停」を見落としていたのではないか、という指摘が出る。
ここから、対立軸発見、センチメント次元追加、対立軸に沿った再分類、融和案パッケージ化といった案が出てくる。

ただしセンチメントをそのまま 1 軸として埋め込みへ足す案には、意味の異なる否定意見が同方向に寄ってしまうという懸念が出ている。
そのため、チャンネル全体としては「賛否軸を無理に embedding 空間へ埋め込む」よりも、対立軸自体を別途見つけて、その軸上で分類する 方が筋がよい、という方向へ傾いている。slack-kouchouai-algorithm-devより

4. 代替案は「高次元のままクラスタリング」だけではなく、「LLMで直接分類する」へ広がっている

このチャンネルでは高次元 HDBSCAN 回帰や EVOC のような高速代替にも関心があるが、それだけが本命ではない。
2025-10 以降の LLM 直接グルーピング、2026-03 の TTTC Turbo などの LLM 直接分類参照から読むと、embedding 空間を介さずに分類ツリーや対立軸を LLM で直接作る 路線がかなり有力視されている。

ここで重要なのは、LLM 分類の魅力が「精度が高そう」だけではないことだ。
このチャンネルでは、embedding ベース方式は同一話題内の賛否を近くに置いてしまう、既存カテゴリに照らす実験をしても何でも既存分類へ押し込めてしまう、少数意見が n_neighbors に埋もれやすい、といった不満がある。
LLM 分類は、その不満に対して 分類基準そのものを人間可読な軸や tree に寄せられる 可能性として見られている。

5. taxonomy-guided classification はこのチャンネルでも具体的ユーザ要求に接続している

2025-10 の東京都カテゴリ実験や 2026-02-27 の自治体予算カテゴリへの要望は、slack-dev-kouchouai-2026-q1 の taxonomy-guided classification と別筋ではない。
アルゴリズム開発チャンネル側では、既存の政策カテゴリに意見を当てはめること自体はできるが、それだけでは新しい論点が出たと言いにくい ことも認識されている。

このため taxonomy-guided な枝は、「既存の行政分類に綺麗に揃える」ための実務モードとしては有用だが、ブロードリスニング本来の「既存の枠組みの外を見る」用途とは緊張関係がある。
ここは 2026-05 時点でも解けていないが、少なくともチャンネル参加者はその緊張を自覚している。

6. このチャンネルは「main に入った事実」ではなく「main をどう疑っていたか」を補う

source-code や pipeline は、今の main がどう動くかを教えてくれる。
一方で #2_開発_広聴ai_アルゴリズム開発 は、なぜその構成が不満なのか、どこを本気で入れ替えたがっていたのか、何を理論的な弱点として認識していたのかを補ってくれる。

とくに新規コントリビュータが「なぜ plugin 化や LLM 分類の話が急に出てくるのか」を理解するには、slack-dev-kouchouai-2025-q4 / slack-dev-kouchouai-2026-q1 だけでなく、このチャンネルでの UMAP後クラスタリング批判の蓄積 も見た方がよい。

Open Questions

UMAP 前クラスタリングや supervised UMAP を main にどう落とすかは、2026-05 時点でも未実装
対立軸発見は問題設定として魅力的だが、広聴AIの標準出力にどこまで入れるかは未決
taxonomy-guided な実務モードと、新規論点発見モードを同一 UX に載せる方法はまだ見えていない

Updates

2026-05-18: #2_開発_広聴ai_アルゴリズム開発 の初回整理

kouchou-ai developer wiki

エクスプローラー