-
文章をBERTでベクトルに変換する
-
ベクトルの各要素について正であるか負であるかで1bitの情報にする
-
なるべく半々に分かれる順に要素を選んでいく
- CART的発想
- 分解がGini係数をなるべく減らさないように要素を選ぶ
- CART - 機械学習の「朱鷺の杜Wiki」 #cart#決定木
- 今回はN=4000ぐらいなので、12bit選べば1バケットあたり1個になる
- 16進法表記で3文字の「カテゴリーコード」になる
- CART的発想
-
- 代表点の位置を取っておく必要がある
-
面倒なのでとりあえず先頭12次元で試す