from OCR OCR精度比較2018 2018-10-27 BookscanがOCRを掛けたPDFを作ってくれるので、それでいいかと特に細かく検討してなかったが、Google Cloud VisionのOCRの性能の方が圧倒的に良かった。

傍線との干渉

  • image
  • (Bookscan) 二冊目は同じく江口克彦氏が幸之助さんとのさまざまな思い出をもとに、経営哲学を綴つた計鞘49日則=H網馴=刊召馴測刑測劇劉判Ц川引州出(PHPフアクトリー・パブリッシング)です。どうすれば成功できるのか。

  • (Google) 二冊目は同じく江口克彦氏が幸之助さんとのさまざまな思い出をもとに、経営哲学を綴 った『成功の法則松下幸之助はなぜ成功したのか』(PHPファクトリー・パブリッシン グ)です。どうすれば成功できるのか。

  • 重要だと思って傍線を引いたところがOCR化けを起こして電子的な価値を損ねてしまっている

縦書き文章中の横書き文字

  • image
  • (Bookscan)1997年8月に創業した後、10月 に最初 の製品 「サイボウズ OB8」を発売開始、12月には単月 で黒字化、翌年 の3月には月 の売上が1千万円を超え た。世間 では、 ウ エブ技術を使 って社内 の情報共有をす る手 法を「イ ント ラネ ット」と名付け、多く の企業 が導入を試 み て いた。時代 に乗 るとはこう いうことか。畑 さんが作 る 「サイボウズ 038」は、既存 のグループウ エアよりも圧倒的 に使いやすく、手軽 に情報共有を実現 できた。「サイボウズ 〇ホいと は我 々3人 の予想を上回るスピ ード で売れて い つた。

  • (Google)1997年8月に創業した後、2月に最 初の製品「サイボウズ Ofce」を発売開始、2月には単月で黒字化、翌年の3月には月の 売上が1千万円を超えた。世間では、ウェブ技術を使って社内の情報共有をする手法を 「イントラネット」と名付け、多くの企業が導入を試みていた。時代に乗るとはこういう ことか。畑さんが作る「サイボウズ Ofce」は、既存のグループウェアよりも圧倒的に使 いやすく、手軽に情報共有を実現できた。「サイボウズ Ofce」は我々3人の予想を上回 るスピードで売れていった。

  • Bookscanでは「サイボウズ OB8」「サイボウズ 038」「サイボウズ 〇ホい、とマチマチな認識
  • Googleのは一貫して「サイボウズ Ofce」になっている
  • それぞれ別のものに変換されるよりは、一通りの「サイボウズOfce」に間違える方がマシ
    • 置換で修正できるので
  • Googleの側に気付きにくいミス「本当は10月と12月なのに2月と書かれている」が発生している
    • 統計的な手法で周囲の文字列から補完する際に、しばしば数値を間違える現象が起こる