TOP > iPhone > title - ScannerProが、とうとう日本語OCRにも対応したぞ!

ITやモバイル機器、iPhone、手帳や本など。
MENU

ScannerProが、とうとう日本語OCRにも対応したぞ!

2016042900.png


情報管理LOGの@yoshinonです。
ScannerProが、OCRに対応したという記事を以前書きましたが、その時はまだ、日本語には対応しておらず、かなり残念な結果に終わってしまいました。しかし、今度こそは、日本語OCRに対応したということで、さっそく検証してみました。

  
【 ScannerProが、とうとう日本語OCRにも対応したぞ! 】  

 1.ScannerProが、とうとう日本語OCRに対応!

 2.横書きの文章でのOCR

 3.縦書きの文章でのOCR

 4.総合評価







checkmark.png 1.ScannerProが、とうとう日本語OCRに対応!

ScannerProに関しては、過去に何度か情報管理LOGでも取り上げさせていただきました。Documentsでおなじみの、Reedleというベンダーで出しているアプリです。

【 過去記事 】
Google Keepの文字認識を使ってみた
Camscannerなき今、iPhoneで日本語OCRができるアプリはOffice Lensだ
GoogleドライブでOCRができなくなったようです【※追記あり】
CamScannerはマルウェアに感染のため削除しました(XcodeGhostに感染アプリの一覧も載せてます)



そして、先月の記事でScannerProが、OCRに対応したことについて記事にしました。しかし、その時は、残念ながら日本語OCRには対応しておらず、結果としても散々なものでした。

Bookmarklet: instantly generate a Card for any web page. | Embedly



しかし、先日のアップデートでとうとう日本語対応とのアナウンスがありました。

2016042901.png



以前は、日本語OCR対応アプリといえば、CamScannerというアプリが代表格でしたが、Xcode-Gohstというウィルスに感染というニュースが流れてからは、きっぱりと削除したままでした(そんな危険な環境で作成されているクラウド対応のアプリは危険すぎるから)。そのため、最近では、もっぱらMicrosoft謹製のOffice LensというアプリでOCRをかけるようにしていました。しかし、これで日本語OCRアプリにやっと幅が出てきました。







checkmark.png 2.横書きの文章でのOCR

それでは、実際にOCRをかけてみましょう。
まずは、横書きの文字でやってみます。

今回は、PARMチョコ味の原材料でやってみました。PARM美味しいよね。



元の画像は、これ。

2016042902.png



テキスト認識は、右上のアイコンから。

2016042903.png



けっこうな速度で認識されます。

2016042904.png



このように画像と重なった状態で見えます。

2016042905.png




では、OCRされた文字を見てみましょう。

<認識された文字>

種類別スクリーム
無脂乳固形分 7.0%
乳脂肪分 8.0%
卵脂肪分 0.4%
原材料名 乳製品、準チコレー卜、
砂糖水め、卵黄、乳化剤、香料、
安定剤(鐵古多糖類)、〈原材料の 一部に卵、大豆を含む)
販売者 東京都,"巷区芝5一33一ー飛瑕業株式会社


<誤判別>

アイ → 殉
チョコレート → チヨコレート
水あめ → 水ぁめ
増粘多糖類 → 鐵古多糖類
内容量 55ml×6本 → なし
港区 → ,"巷区
55-33-1 → 5一33一ー
森永乳業 → 森飛瑕業


まあまあと見るべきか、それとも今一歩とみるべきか、迷うところです。





checkmark.png 3.縦書きの文章でのOCR

次に縦書きの文字でやってみましょう。

縦書きは、村上春樹の「職業としての小説家」という本からやってみます。最近の村上さんは、エッセイの方が好きだな。





使用した画像は、これです。
※クリックしたら、拡大します。

2016042906.png


同じくOCRをかけます。

2016042907.png



上では触れませんでしたが、ScannerProでOCRされた文字列は、ところどころ区切られており、全て選択をしても、文字列全体を一気にコピーすることはできません。特に縦書きは、変な位置で改行が来てしまい、元の文章にするためには、やや苦労を要します。

2016042908.png




<認識された文字列>

そして純粋に内的な衝動というものはそれ自体のフ ォームスタイルを、 自然に自発的に身につけて出てくるものだということになるかもしれません。それは人為的に作り出されるものではありまぜん。頭の切れる人がいくら知恵をしぼっても、 図式を使っても、 なかなかうま〈こしらえられるものではないしたとえこしらられたとしても、 おそらく長続きしないはずです。根がし っかり地中に張っ ていない植物と同じです。 しぱら<雨が降らなければ、それはほどなく


<誤判定>

、 → 丶(2箇所)
フォームや → フ ォームゃ
ありません。 → ありまぜん。
うまく → うま〈
こしらえられた → こしらぇられた


意外と縦書きの方が、健闘している印象ですね。ところどころ、余計な空白が入っているのが気になりますが、そんなものは、後で置換で取り除けるので、問題はありません。





checkmark.png 4.総合評価

さて、日本語の認識精度としては、まあまあ満足のできるものだと思いました。Office Lensと比較しても悪くない結果だと思います。後日、Office Lensとの直接対決をやってみたいと思います。

とはいえ、縦書きに関しては、正直、全く期待していなかったので、逆に嬉しい衝撃でした。Reedleは、日本でも人気のあるベンダーなので、今後さらに精度が上がってくることを期待しています!





eyeglass2.png 情報管理LOGの眼
 こんな小さな機械でOCRできるんだからすごい時代です

情報管理では、過去に何度もOCR関係の記事を書いてきました。そして、ちょっと辛口な評価をしていましたが、実際のところ、iPhoneのような小さな機械でOCRかけることができるなんて、すごい時代になったという実感しかないです。
ちょっと考えれば、ひと昔のパソコン以上のCPUを積んでいるんだから当たり前といえば、当たり前なんですけどね。

ただ、これから心配なことは、日本語というローカル言語が、世界の中で少しずつ存在感が薄くなって、ローカライズされなくなってくるのではないか?という気が日増しにしています。その点が、心配ですね。





関連記事

Leave a reply






管理者にだけ表示を許可する

Trackbacks

trackbackURL:http://hokoxjouhou.blog105.fc2.com/tb.php/574-cabe265f
該当の記事は見つかりませんでした。
SEO
loading
情報管理LOG