クラスタリング

類似した意見をグループ化する分析手法。ブロードリスニングの中核的な処理ステップ。

詳細

Sentence-BERTでベクトル化しUMAPで次元削減した意見データに対して、類似意見を自動的にグループ(クラスタ)に分類する。各クラスタは大規模言語モデルによって要約ラベルが付与される。

主なアルゴリズム

  • K-means — 球形クラスタを仮定、高速。クラスタ数の事前指定が必要
  • スペクトラルクラスタリング — 複雑な形状に対応可能だが、可視化時に「散在する島」が生じやすい
  • ウォード法 — 階層的クラスタリング。クラスタ数を事前指定せずに階層構造を形成
  • DBSCAN — 密度ベースのクラスタリング

広聴AIではK-means(細粒度)とウォード法(粗粒度)を組み合わせた階層的クラスタリングを採用。

パラメータの課題

  • クラスタ数の設定(日本テレビは5〜20、朝日新聞は40〜50の粒度を検証)
  • グループ化されない外れ値意見が大きな無意味クラスタを形成する問題
  • 同一トピックの賛成・反対が同じクラスタに入る問題

関連項目