UMAP

Uniform Manifold Approximation and Projection。2018年に発表された次元削減アルゴリズム。高次元データを2次元・3次元に圧縮して可視化する。

詳細

Sentence-BERTで生成された高次元ベクトル(例:1,536次元)を2次元に圧縮し、散布図として意見の分布を可視化する際に使用される。UMAPはデータ点間の局所的な近傍関係を保存することに優れ、主成分分析(PCA)と比較してクラスタリング結果の可視化に適している。

ブロードリスニングのパイプラインでは、ベクトル化 → UMAP(次元削減) → クラスタリング → 可視化の順で処理される。散布図上で位置が近い点は意味的に類似した意見を表す。

関連項目