文字を単純に分散表現にしても、結局見たことのない文字が出てきたら[未知語]になっちゃう。 特徴量に変換してそこから分散表現を作れば未知の文字でも大丈夫なんじゃないか。 どんな特徴量が得られるか アルファベットか A-Zか 大文字か 記号か 全角か ひらがなか カタカナか 漢字か 部首 日本語文中の文字出現頻度分析-WentWayUp 頻度の高いものがうまく表現できれば良いのか word2vecでの正解率が高くなれば良い? 文字の特徴量