クラスタリング
類似した意見をグループ化する分析手法。ブロードリスニングの中核的な処理ステップ。
詳細
Sentence-BERTでベクトル化しUMAPで次元削減した意見データに対して、類似意見を自動的にグループ(クラスタ)に分類する。各クラスタは大規模言語モデルによって要約ラベルが付与される。
主なアルゴリズム
- K-means — 球形クラスタを仮定、高速。クラスタ数の事前指定が必要
- スペクトラルクラスタリング — 複雑な形状に対応可能だが、可視化時に「散在する島」が生じやすい
- ウォード法 — 階層的クラスタリング。クラスタ数を事前指定せずに階層構造を形成
- DBSCAN — 密度ベースのクラスタリング
広聴AIではK-means(細粒度)とウォード法(粗粒度)を組み合わせた階層的クラスタリングを採用。
パラメータの課題
- クラスタ数の設定(日本テレビは5〜20、朝日新聞は40〜50の粒度を検証)
- グループ化されない外れ値意見が大きな無意味クラスタを形成する問題
- 同一トピックの賛成・反対が同じクラスタに入る問題