🪴 Quartz 4.0

Search

❯

OCRゴミ掃除

OCRゴミ掃除

Dec 01, 2023, 1 min read

特に古い本のスキャンをOCRしたものは識別に失敗してゴミ文字列になってることがある
これが言語モデル作成の元データに混ざるとよくない
出現する文字にあからさまな偏りがあるので簡単に取れると思う

Graph View

Backlinks

機械学習による書籍PDFからの本文抽出

Created with Quartz v4.1.1, © 2023

GitHub
Discord Community