Sentence-BERT
2019年に発表されたテキストベクトル化技術。文全体を一つの数値ベクトル(埋め込み)に変換し、文の意味的類似度を効率的に計算できる。
詳細
BERT(Bidirectional Encoder Representations from Transformers、2018年Google発表)が文脈を考慮した単語ベクトルを実現したのに対し、Sentence-BERTは文単位のベクトル化を効率化した。これにより大量のテキスト間の意味的類似度をコサイン類似度で高速に比較できるようになった。
ブロードリスニングのパイプラインでは、収集した意見テキストをSentence-BERTでベクトル化し、そのベクトルをUMAPで次元削減、クラスタリングで分類するという流れで使用される。
技術的背景
- Word2Vec(2013年)— 単語レベルのベクトル化(分布仮説に基づく)
- BERT(2018年)— 文脈を考慮した双方向エンコーダ
- Sentence-BERT(2019年)— 文レベルの効率的なベクトル化