• 特に古い本のスキャンをOCRしたものは識別に失敗してゴミ文字列になってることがある
  • これが言語モデル作成の元データに混ざるとよくない
  • 出現する文字にあからさまな偏りがあるので簡単に取れると思う