What it is

2026-05-25 に raw/gpt-umap-clustering-bertopic-deep-research-2026-05-25.txt として保存した GPT 出力。
clustering-research-survey-seeds-2026-05-25 が立てた survey bucket(UMAP -> clustering、次元削減と clustering の混同、spectral、BERTopic、可視化と分析の分離、評価軸)に対する deep-research 風の応答にあたる。
Eklund et al. 2023、UMAP 公式 docs、BERTopic 公式 docs、TopicGPT (NAACL 2024)、LLooM (CHI 2024)、From Traditional Topic Models to LLM Topic Models (ACL 2025 / NIST) などを引用している。

Key Points

1. UMAP -> clustering は否定されない。ただし 2D 可視化用 UMAP を clustering 空間と同一視するなという読み

  • UMAP 公式 docs は HDBSCAN などの clustering 前処理として UMAP を使うこと自体は肯定している。
  • 同時に、UMAP は局所密度を完全には保存せず “false tears” を作りうるため、低次元埋め込み上の隙間や島が元データの真のクラスタ構造と一致するとは限らないと caution している。
  • 結論として、「UMAP を使うな」ではなく 「可視化用 2D UMAP をそのまま分析用 clustering 空間にするな」 が妥当な読みになる。

2. clustering 用 UMAP は 15D〜25D を基準にすべきという empirical 主張

  • Eklund et al. 2023 (An Empirical Configuration Study of a Common Document Clustering Pipeline) は BERT + UMAP + HDBSCAN/KMeans をニュースデータで比較し、UMAP 出力次元は 15D 以上、初期値として 15D〜25D を推奨している。
  • 2D から 10D〜15D に上げると性能が改善し、その後は伸びが鈍るという傾向。
  • ただし対象データは英語ニュース・BERT 系。日本語 sentence-transformer / multilingual embeddings / 短文コメントでは ablation 必須。

3. n_neighbors の解釈は単一の正解値ではない

  • UMAP 公式 docs は clustering 用には可視化用より大きめの n_neighborsmin_dist は小さめを推奨。小さい n_neighbors は局所構造に寄りすぎてノイズで細かすぎるクラスタが出やすいと説明。
  • 一方 Eklund et al. 2023 は文書埋め込みでは n_neighbors の影響は小さく、むしろ小さい方がよい場合も多いと報告。
  • この差は矛盾というより データと評価目的の違い。画像・手書き数字の連続的多様体と、テキスト意味的近傍グラフでは最適 n_neighbors が違って自然。
  • 実務的には複数値を試して比較する/ablation するのが筋。

4. BERTopic は陳腐化してはいないが「LLM topic modeling pipeline のクラスタリング部品」へ位置がずれた

  • BERTopic 標準系(c-TF-IDF を topic 表現として使う)は LLM 系(TopicGPT, LLooM, PromptTopic)より coverage / 人間可読性で劣る研究が複数ある(NSF/LLooM, ACL 2025 / NIST)。
  • 同時に、全文書を LLM に直接読ませる方式は大規模コーパスで重く、clustering で代表文書を選び LLM に読ませる設計が現実的(Large language models for efficient topic modeling, 2025)。
  • BERTopic 公式 docs も、c-TF-IDF + 代表文書を LLM に渡して label/summary を生成する flow を前提化している。
  • 結論:BERTopic を topic modeling 完成品としてユーザにそのまま見せる設計は古い。clustering backbone + LLM labeler + interactive merge/split として使うのが自然。

5. TTTC / 広聴AI 文脈への直接示唆

  • クラスタ ID を作る層意味説明を作る層 を分けるべき。
    • クラスタ ID: embedding、kNN graph、HDBSCAN、spectral clustering、UMAP 15D+ など
    • トピック説明: LLM による label、summary、代表コメント、反例、境界事例
    • トピック整理: LLM-assisted merge/split、human-in-the-loop
    • 可視化: 2D scatter は説明用 artifact として扱う
  • LLM 進歩で最も陳腐化したのは「クラスタの上位単語を見て人間が意味を読む」作法。そこは LLM 置換可能。
  • ただし「全文書を LLM に投げて分類して」もまだ危ない:shortcut、過度な一般化、coverage 不足、コスト、再現性。
  • 評価は ARI/NMI 単独ではなく、coverage、human label quality、代表文書の納得性、境界事例の説明可能性、コスト、再実行安定性を分ける。

Compared to existing wiki claims

  • clustering-research-survey-plan の優先順位「最優先は UMAP -> clustering の妥当性」「BERTopic は implementation detail ではなく解釈の攪乱要因」が、この deep-research 結果でほぼ裏付けられた。
  • niizuma-thread-algorithm-critique の「分析 artifact と表示 artifact が同じ 2D UMAP 空間に押し込まれているのが危うい」読みと整合的。
  • tokoroten-spectral-clustering-reading の「TTTC 的 spectral は high-D semantic clustering ではなく 2D 幾何の後始末」読みは、UMAP 公式の caution に対応する。
  • broad-listening-book-extractions にある「UMAP の 2D 結果でクラスタリングしているのは標準作法と異なる妥協」という 13.2.4 の自認も、この deep-research の結論と一致する。

Open Questions

  • 日本語 broad listening データで「2D UMAP + KMeans」「15D UMAP + HDBSCAN」「raw embedding + spectral」「LLM grouping」を同一データで比較した時、coverage / label semantics / scatter UX / 公開説明責務それぞれでどの軸が勝つか。
  • BERTopic 系を「clustering backbone」として残す設計と、analysis_mode=llm_grouping 系を別 plugin にする設計は、analysis-core の plugin contract 上どちらが筋がよいか。
  • UMAP 公式 docs と Eklund et al. 2023 の n_neighbors 推奨が逆になる現象は、日本語コメントデータでどちらに寄るのか。

Updates

  • 2026-05-25: 初回作成