TOP > Google > title - GoogleドライブのOCRの実力を検証する

ITやモバイル機器、iPhone、手帳や本など。
MENU

GoogleドライブのOCRの実力を検証する

2015083100.png



情報管理LOGの@yoshinonです。
ここ数回にわたって、GoogleドライブのOCRについて、取り上げてきましたが、今回は、その実力のほどを検証していきたいと思います。
果たして使えるサービスになっているのか?


  
【 GoogleドライブのOCRの実力を検証する 】  

 1.GoogleドライブのOCRの精度が上がっている?

 2.横書きでは

 3.縦書きでは

 4.斜めでは

 5.その他の特徴は?







checkmark.png 1.GoogleドライブのOCRの精度が上がっている?

2015083103.png

最近、数回にわたってGoogleドライブのOCRについて記事にしてきました。

いつの間にか新しいGoogleドライブでOCRができなくなっていたので調べてみた
iPhoneからGoogleのOCRを使う方法


その中で何回か書いたと思うのですが、OCRの性能が以前と比較して、向上してきているような感じがしていました。実際、色々OCRをかけてみましたが、誤字・脱字が少なく、普通に使う分には十分な力があるように感じました。
確か以前に記事に書いたときは、読み取れない字がポツポツあって、これじゃ使い込むほどではないなと思った記憶があります。
また、縦書きも対応していなかったはずです。以下でどれぐらいの性能があるか検証してみました。







checkmark.png 2.横書きでは

まずは、横書きの文章を読めるか試してみます。
この画像をGoogleドライブにアップロードします(元画像は、1700pxぐらいで、jpgです)。

2015083101.png



「新規作成」からアップロードできます。または、直接ドラッグしてもOKみたい。

2015083104.png

2015083105.png




OCRするには、アップロードしたファイルをGoogleドキュメントで開かなくてはいけません。右クリックから開けますよ!

2015083106.png



OCRの結果は…
こんな感じになりました。


OCRされた文字列です。

種類別アイスクリーム 無脂乳固形分 7.0% 乳,脂肪 分 8.0% 卵 脂肪 分 0.2% 原材料名 乳製品、チョコレートコー チング砂糖、水あめ、コーヒー、卵黄、 乳化劑、安定劑(增粘多糖類)、香料、 (原材料の一部に大豆を含む) 内容量 55m1×6本 販克者 東京都港因芝5-33-1 森示乳美株式会社
製造者靜岡果駿東郡長泉町納米里18 富士乳業株式余社 三島工場 保存上の注意要冷凍(ー18°C以下)


<読み取りミスのあった言葉>
安定劑(增粘多糖類)
販克者
港因芝
森示乳美
靜岡果
富士






checkmark.png 3.縦書きでは

では、縦書きではどうでしょうか?
選択の科学」という本の目次を使ってみます。



2015083102.png






なんと、字の大きさまで再現してくれています。




読み取り精度は、こんな感じでした。


オリェンテーション私が「選択」を研究テーマにした理由
シーク教の教えに従って着るものまで決められていた私は、高校にあがる頃に失 明する。が、アメリカの学校で私は「選択」こそ力であることを学ぶことになる
第1講選択は本能である
選択は生物の本能である。なぜ満ち足りた環境にもかかわらず、動物園の動物の 平均寿命は短いのか。なぜ、高ストレスのはずの社長の平均寿命は長いのか
第2講集団のためか、個人のためか %
父は結婚式のその日まで、母の顔を知らなかった。親族と宗教によって決められ た結婚は不幸か。宗教、国家、体制の違いで人々の選択のしかたはどう変わるか
107
第3講「強制」された選択
あなたは自分らしさを発揮して選んだつもりでも、実は他者の選択に大きく影響 されている。その他大勢からは離れ、かといって突飛ではない選択を、人は追う



<読み取りミスのあった言葉>
7
15
43


縦中横で、しかも斜体の半角数字のみでした。かなり精度が高いですよね。







checkmark.png 4.斜めでは

次にちょっと意地悪をして、斜めに撮影したものを読み取らせてみます。

(レベル1)
ちょっと傾いた画像

2015083108.png



F) アィスク リーム
熊脂乳固形分 7.0% 乳脂肪分 8.0% 卵 脂肪 分 0.2% 原材料名 乳製品、チョコレートコー チング砂糖、水あめ、コーヒー、卵黄、 乳化劑、安定劑(增粘多糖類)、香料、 (原材料の一部に大豆を含む) 内容量 55m1×6本 販克者 東京都港因芝5-33-1 森示乳美株式会社
製造者靜岡果駿東郡長泉町納米里18 富士乳業株式余社 三島工場 保存上の注意 要冷凍(18°C以下)



<読み取りミスのあった言葉>
F) アィスク リーム
熊脂乳
安定劑(增粘多糖類)
m1
森示乳美
靜岡果
富士


ほぼ、傾いていない画像と結果は変わりませんでした。苦手な部分が、存在するようです。





(レベル2)
傾いていると感じるぐらいの画像

2015083109.png


種類別アイスクリーム 燕脂乳固形分 7.0% 乳脂肪分 8.0% 卵 脂肪 分 0.2% 原材料名 乳製品、チョコレートコー チング砂糖、水あめ、コーヒー、卵黄、 乳化劑、安定劑(增粘多糖類)、香料、 (原材料の一部に大豆を含む) 内容量 55m1×6本 販克者 東京都港因芝5-33-1 森示乳美株式会社
製造者靜岡果駿東郡長泉町納米里18 富士乳業株式余社 三島工場 保存上の注意 要冷凍(18°C以下)


<読み取りミスのあった言葉>
燕脂
安定劑(增粘多糖類)
m1
港因
森示乳美
靜岡果
富士


こちらも、レベル1と変わらずです。むしろ、レベル1よりも成績がよい?





(レベル3)
90度

2015083110.png



(SLKIQ81—)眠犯腳艦州COT性眠
骤日毗川封茹长类挑衅甘顾 8L酬米桑国聪鸣器恶避账庭雅肥姻郡
杞仙托旧类那T腓》辰旗 L-88-9拟凶鞭输低恶肥眼贤受 Sįž9 × IUGG ĒĒŅd (Q組拠旧KH語ーSシ脈) 菜腳(踩禦沁望卿)姬股函姬口}呼 概園ーMーロQQ>N製診SAト ー口ノーミ1口m小唱km gシ脈 %Z:0石%坦盟国 %08石%坦弧"助 %0Z石%2荣圈欧盟联
W7–G/CYJ-2^[ÉĚł


<読み取りミスのあった言葉>
※計測不能

まあ、そりゃそうーだ。という結果に…。






checkmark.png 5.その他の特徴は?

先ほどの縦書きの目次のOCRでは、フォントの大きさまである程度再現してくれていました。
これ、けっこうすごくないですか?

2015083107.png

ちなみに、GoogleドライブのOCRは、英語、中国語や韓国語のみならず、多言語対応しているようです(150カ国語くらい?)。







 eyeglass2.png 情報管理LOGの眼
 なかなか優秀です!

以前は、Googleドライブのおまけ程度のOCR精度ぐらいしかなかったのですが、さすがGoogleです。
もはや、以前とは比べものにならないぐらいに、精度が高まっています。

ちなみに、今回使用した横書きの画像は、少し薄暗い中で撮影し、ノイズが多めというかなり悪環境での実験でした。
そう考えると、なおさらフリーのOCRとしては、十分な能力があるような気がします。

スキャンしたものを一気にOCRにかけたい場合など、自分のPCパワーを使わないで済むというのは、ありがたいですよね。




関連記事

Leave a reply






管理者にだけ表示を許可する

Trackbacks

trackbackURL:http://hokoxjouhou.blog105.fc2.com/tb.php/373-695ed32a
該当の記事は見つかりませんでした。
SEO
loading
情報管理LOG