LINEでOCRできるって知ってた?

情報管理LOGの@yoshinonです。
ここ最近では、日本語OCRが割と簡単にできるようになってきましたよね。
しかし、皆さんが日々使っているLINEでOCRできるようになったというのを知っている人は、まだ少ないのではないでしょうか?
というわけで今回は、LINEでもOCRできるようになったことについてレポートします。
【 LINEでOCRできるって知ってた? 】 1.LINEにアップした画像をテキスト化できるのです 2.精度を確かめる 3.LINEでOCRを便利に使う方法 |
実は、あまり知られていないような気がするのですが、LINEのトーク画面にアップした画像をテキスト化することができるようになりました。
では、やってみます。
トーク画面で画像をアップしましょう。
※他の人が、アップした画像でも可能です。
それをタップすると、このようになりますね?

右上の「T」とみたいなアイコンをタップ。

そうすると、このように文字の部分が認識されているのが分かります。

上の方に「日本語を検出」とあるのでタップすると、5カ国語から選べます。

テキストを抽出したいところをなぞると、テキストがちゃんと表れます。しかも、かなり高精度だ!

実は、カメラ機能でもOCRできたりします。トーク画面でカメラを選びます。

そうすると、下の方に「OCR」という部分があるので、選択。

で、撮影すると、めっちゃ文字を認識してる!

先ほどと同じように、テキストを抽出したいところをなぞると、ちゃんとテキスト化されます。

とはいえ、精度が悪かったらOCRの意味ありませんので、検証してみましょう。
まずは、先ほど写真で撮影したボックスティッシュの箱の文字で確認。
こちらが、元の画像。

OCRされたもの。
”家庭用品品質表示法による表示
寸法:たて198mm ×よこ216mm
枚数320枚(160組)
日本製紙グループ
日本製紙クレシア株式会社
〒101-8215東京都千代田区神田駿河台4-6
万一、品質に不都合な点がありましたら商品を
お取り置きの上、ご連絡をお願いします。”
お客様相談係(03-6665-5302
※受付時間9:03~16.0(土・日・祝日を除く)”
ほとんど完璧というか、電話の絵文字以外は、全てパーフェクトでした。
他のも行ってみましょう。
今度は、フォントあり、文字サイズあり、反転ありとなかなか難易度があります。

えっと、完璧でした。1箇所ぐらいあるだろうと思って確認してみてもないです。何げにスゴイ!
”使いやすいからいつも身近に
スコッティ
フラワーボックス
パッケージデザインの花:バラ
専用マグネットバー"くっつくん"は別売り商品です。
底面にマグネットバー挿入口のあるクリネックス、スコッティ商品で
ご利用ください。当社オンラインショップにてお買い求めできます。
当社オンラインショップはこちらから
読み取りにくい場合は、右記アドレスヘアクセスしてください。 crecia.jp/magl
":ティシュー箱
:取出し口フィルム
:包装フィルム
4"901750412562
本品は、第一園芸とのコラボレーションデザインです。
DAIICHI-ENGEI
ホームページwww.daiichi-engei.co.jp
”
では、次に斜めかつ、角度ありではいかがでしょう?

さすがに、Google様でも無い限り無理だろ…と思っていた時期が私にもありました。
これまた、パーフェクト!
”〇この商品の主原料はバルプです。高品質バルプからできた紙バック
を原料として一部使用しています。
〇蛍光染料は使用していません。
A使用上の注意
PUSH
においの強い物のそばでの保管は避けてください。
においが移ることがあります
eティシューベーバーは水に溶けにくいので、水洗トイレで使用したり
捨てたりしないでください。
〇取出し口等のミシン目を開ける際、ミシン目で摺先を傷つける
ことがありますので、ご注意ください。
専用マグネットバーは磁気カード等の磁気に弱い物のそばには
近づけないでください。
専用マグネットバーは火気の近くには取付けないでください。”
では、縦書きではどうでしょうか?
こちらの本の96P冒頭の部分です。
統計学が最強の学問である
posted with amazlet at 19.07.04
ダイヤモンド社 (2013-01-28)
紙の本の価格: ¥ 1,728
Kindle 価格: ¥ 1,244
¥ 484の割引 (28%)
紙の本の価格: ¥ 1,728
Kindle 価格: ¥ 1,244
¥ 484の割引 (28%)
あー、そもそも縦ではなく、横で画像が認識されていますね。

OCR上でもこんな感じ…。
”いう引へ必「井歩の平到」Sこ、判ユいみみしゆり及要瞬アー4く42み、判引渕弟ツ子
。しン薄邪ほ明彰亜い
むい羽そ干回国蛍しいマ「3いユしみ歯当子み浦身9一くエ日人ーひ好でと潜、必み員回へ
みと半判丼渉工央判」、承さ異入のいみ首そ昇郵留の詣形幸所スワしひ母困と醤いさうみ
。Sいユ米甲こひこうしいス「り母刊ユ4ェと」こ半し、い母引2丼
渉9回卒国前きい20海邪団こ判しコ、判のしいつく口少中必ミ回の労闘番国丁呼々ー為
S単掛一、必み》平ヲツさ弓彰光#ム輩ユスこ叫上百髪及い勲S異の判還小必補印安迎興
。9いし10聞裂そ子9点
提戦ダヲここいス、山少さ少りさ口母山謝光環河ユ通撃のス出さ入こと姿具?遣弾なく守9
了。sミユ出つこ必安ユへ理夢引溺訴及必しえ少いへ王ご示平沙環らのそこら尽一ゆここ予
叶子型、。母口必中Y山与&判少阜田安羽及動動ユ戦東必葉らみさ只彰ユ単判のこ
。し2緊卓ス払イタのイススい少氏さ”
上のは、LINEのカメラで認識させた結果ですが、ではiPhoneのカメラで撮影したものを認識させたらどうなるでしょう?
おっ、これは、なかなか良い感じ。

OCRされた結果は、こんな感じでした。そもそも、認識されていない部分もあります。
とはいえ、縦書きでさえこの認識率は、なかなか驚異的です。
”と精度こそが現代における統計学の第一の意義であり、うだうだ会議で机上の空論を戦いあ
わせることなどよりもよほど有益だろう。
この時点で得られた仮説が単独で価値を生み出すかはもちろんわからない。だが、私たち
はここからさらにその
らにその仮説が本当に正しいかどうかを実際に検証してみることができる。ど
のような検証を行な
行なえばどれほどの精度で仮説が確かめられるかわかる、ということも統計
学の大きな役割の1つである。
適切な比較から意味
意味のある違いを発見することで裏ワザが得られると述べたが、一時点の
データから因果関係の
件ではない、つまり「”
とはいえ、ほぼ完璧な認識率にかなり驚いています。
では、LINEでOCRをどのように使うべきか?ということですが、情報管理LOG的には、こう考えました。
1.スクショのテキスト化
トーク履歴は、実はテキスト化できるのです。
LINEのトーク履歴を完全テキスト化する方法
まあ、実際テキストで会話しているわけですから、取り出すのは難しくはないわけです。
しかし、LINEのトーク画面のスクショがたまーに送られてくることがあるのですが、それをテキスト化するという時に便利ですね。

2.簡易OCRアプリとして使う
なかなか精度が高い上に、速度的にはかなり高速なので、いっそのこと簡易OCRアプリとして使ってしまえば良いのではないか?と思うわけです。
やり方としては、一人LINEグループを作成します。

こんな感じでOCRしたい写真をどんどん投げていけば、あとは先ほどの要領でテキスト化できるのですよ!
ちなみに、LINEのトーク画面スクショのOCRの認識率は、ハンパなく良かったです。

OCR技術のコモディティ化
今までは、OCRができるというだけで、スゴイ!みたいなイメージがありました。しかし今では、スキャナアプリだったら、割と普通にOCRがついていたりと、なんだかOCR技術自体がコモディティ化している感じがしますね。しかも、みんなそこそこ認識率が良いし。
そうなると、差別化をどのように図っていくかという段階に来ているのかな?と思っています。そういう意味では、LINEのスクショのテキスト化とか、ニッチだけど確実に需要がありそうですよね。
- 関連記事
-
- 「文字起こし ばりぐっどくん」を使ってみたら、なかなか驚異的だったよ
- LINEでOCRできるって知ってた?
- PostEver2が、iOS12に対応!DayEntryとの比較もしたよ