文字を単純に分散表現にしても、結局見たことのない文字が出てきたら[未知語]になっちゃう。 特徴量に変換してそこから分散表現を作れば未知の文字でも大丈夫なんじゃないか。

どんな特徴量が得られるか

  • アルファベットか
  • A-Zか
  • 大文字か
  • 記号か
  • 全角か
  • ひらがなか
  • カタカナか
  • 漢字か
    • 部首

日本語文中の文字出現頻度分析-WentWayUp

  • 頻度の高いものがうまく表現できれば良いのか

  • word2vecでの正解率が高くなれば良い?

文字特徴量