SentencePieceのユニグラム言語モデルについて

  • image サブワード正則化: 複数のサブワード分割候補を用いたニューラル機械翻訳 工藤 拓 2008
  • http://www.anlp.jp/proceedings/annual_meeting/2018/pdf_dir/B1-5.pdf
  • 例えば、文字列ABCがあって、語彙集合に各文字とABとが入っている場合にが成り立つなら”AB/C”の分割の方が”A/B/C”の分割よりもP(x)が大きくなる
  • で、この手法だとVを事前に与える必要があるため、十分に大きな語彙からスタートして刈り込んで行く
    • image

Subword regularization: Improving neural network translation models with multiple subword candidates. In Proc. of ACL. https://aclweb.org/anthology/P18-1007

SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing Taku Kudo, John Richardson (Submitted on 19 Aug 2018) https://arxiv.org/abs/1808.06226