🪴 Quartz 4.0
Search
Search
Search
Light mode
Dark mode
Home
❯
OCRゴミ掃除
OCRゴミ掃除
Dec 01, 2023, 1 min read
特に古い本のスキャンをOCRしたものは識別に失敗してゴミ文字列になってることがある
これが言語モデル作成の元データに混ざるとよくない
出現する文字にあからさまな偏りがあるので簡単に取れると思う
Graph View
Backlinks
機械学習による書籍PDFからの本文抽出