TOP > Google > title - Googleは、死につつあるのか?(パクリ判別問題編)

ITやモバイル機器、iPhone、手帳や本など。
MENU

Googleは、死につつあるのか?(パクリ判別問題編)

2016121200.png


情報管理LOGの@yoshinonです。
先日、「Googleは、死につつあるのか?」という記事を書きました。現在、問題になって大炎上中のキュレーションメディアとGoogleとの関係について書いたものです。今回は、その第2弾ということで、リライト記事によるパクリ問題に対してGoogleが対処しづらいことについて取り上げます。


  
【 Googleは、死につつあるのか?(パクリ判別問題編) 】  

 1.検索スパムまたは検索汚染について

 2.Googleは、必ずしも一次情報を一番とはしていない

 3.記事のパクリ判別問題






checkmark.png 1.検索スパムまたは検索汚染について

先週は、DeNAの運営していたWELQやMERYなどを全て閉鎖というニュースが流れましたね。
それに関しては、こちらの記事がしっかりとまとまっているかと思います。

キュレーションメディアのiemo・MERYに50億円を投じた経営責任 ~DeNAの謝罪会見を解説~ | 中嶋よしふみ
キュレーションメディアのiemo・MERYに50億円を投じた経営責任 ~DeNAの謝罪会見を解説~ | 中嶋よしふみ




また、ネット上の人気者よっぴー氏が、サイバーエージェントが運営するSpotlightという同じようなキュレーションメディアに対して、怒りの声を上げたということがありました。

炎上中のDeNAにサイバーエージェント、その根底に流れるモラル無きDNAとは(ヨッピー) - 個人 - Yahoo!ニュース
炎上中のDeNAにサイバーエージェント、その根底に流れるモラル無きDNAとは(ヨッピー) - 個人 - Yahoo!ニュース






これらに共通するのは、

記事を書いた人に責任があり、運営者には責任はないですよ

ということを全面に押し出しているところです。
しかし、実際のところDeNAの場合は、その記事を書いた人に細かく指示していたことが発覚したわけです。

先日、この記事の第1弾として、「Googleは、死につつあるのか?」という記事を書きました。

Bookmarklet: instantly generate a Card for any web page. | Embedly

この中でも書いていますが、そのキュレーションメディアによって、検索上位が独占されてしまい、一種の「検索スパム」または「検索汚染」と呼ばれる状況が、起こっています。

そして、記事の量産の現場では、「1本につき90分で書き上げる」という、本当の意味でも粗悪な記事の量産が行われていたことが、明らかになりつつあります。

「MERY」記事量産の現場 「90分に1本のノルマ」インターンが証言 - withnews(ウィズニュース)
「MERY」記事量産の現場 「90分に1本のノルマ」インターンが証言 - withnews(ウィズニュース)




そのような、正確性に欠け、なおかつ他のサイトの情報をパクって仕上げるような記事が、上位に来るというのは、スパム行為以外何物でも無いわけです。しかし、Googleの検索では、これらを的確に排除はできておらず、Googleの検索攻略としては、完全にハックされているという状況が続いています。





checkmark.png 2.Googleは、必ずしも一次情報を一番とはしていない

2016121201.png

では、Googleはこのような問題を認識して、すぐにアルゴリズムの変更を加えれば良いじゃないか?と思う向きもあるかもしれませんが、これがなかなか容易ではないような気がするのです。

Googleを日常的に使っている方ならば分かると思うのですが、Googleは必ずしも一次情報を一番に扱っているわけではありません。むしろ、検索者にとって一番知りたかったことを、最初に表示しようという意図が感じられる結果になっています。

例えば、「東京 天気」で検索した場合、このように表示されます。

2016121202.png



一番最初に表示されるのは、Googleがウェザーニュースから取得したデータを分かりやすい形で表示するようにしています。そして、2番目にYahoo!天気、3番目に日本気象協会のサイト、そして4番目に気象庁のサイトと続きます。
この場合、一次情報である気象庁のサイトは、4番目となるわけです。

前回の記事でも書きましたが、Googleは、今年の初めの頃に「コンテンツ」と「被リンク」そして、その他多くの要素によってページランクしていることを明かしました。

だからこそ、調べ物をするとき、Wikipediaが最初に表示されたりするのです。もしも、これが一次情報を優先してということならば、学会の論文とかがズラリと並ぶことも考えられるわけです。でも、利用者としては、そんなことを望んでいるわけではなく、

「分かりやすく、それを知りたい」だけ

なのです。
そのため、わかりやすく解説されている記事などに被リンクが集まり、自然とページランクが上位になるという構造でした。この場合、大手が意図的に拡散することでたくさんの被リンクを稼いだ方が有利に働くのは、ご存じの通りですね。




checkmark.png 3.記事のパクリ判別問題

さらに、具合が良くないのは、記事のリライト問題なのです。記事を書いた本人にしてみれば、「私の記事のパクリだ!」と分かるものであっても、アルゴリズムはそのように判断しづらいのではないかと思うのです。

ここからは、素人仮説で申し訳ないのですが、もう少しおつきあいください。

Googleのアルゴリズムは、正確には文章を読んでいません。

基本的には、文章中にある語句を解析しているだけなのです(もう少し高度なところまでやっていそうですが、だいたいこんな感じ)。人間であったら、文脈を理解して、「この文章は似ているかも?」と感じることがあっても、人がリライトすることによって検索エンジンはそれを読み取ることが難しくなっているのです。
語順の並び替えや大意をくみ取り文章を組み立てたものは、同一だと判別しづらいのです。

Googleは、ページランクを下げる「具体的なガイドライン」として

 ●オリジナルのコンテンツがほとんどまたはまったく存在しないページの作成
 ●コンテンツの無断複製


ということを掲げています。
しかし、現状としては、すれらがスルーされているというのは、まさしくアルゴリズムの盲点を突いているという証拠に他なりません。

確かに著作権の問題に関しては、人間同士でも時々裁判になったりしますが、これが意外と裁判が長引いたりするのは、「同一性」の証明が、なかなかに難しい問題だからです。

大量のライターを雇って記事のリライトをさせるというのは、「人間という不確定なフィルターを用いて、記事をロンダリングする手法」として秀逸ということなのでしょう。
たとえ、それらに正確性や誠実さやコンプライアンスがなくても、です。




 eyeglass2.png 情報管理LOGの眼
 試される巨人、Google

実際のところGoogle以外の検索エンジンとしては、BingやBaiduなど限られた選択肢しかありません。Yahoo!もGoogleの検索エンジンを使っているしね。実際の規模もGoogl一強という状態は、今後もしばらく続きそうです。
一時期のキーワードを隠し文字として盛り込みまくる手法や、人工的に被リンクを稼ぐ手法などのSEOが席巻したときは、Googleのアルゴリズムの変更があるまで続きました(その後、絶滅)。前回も書きましたが、ここまで検索のハックが明らかにされたからには、これをもう少し巧妙な方法で追従する動きは止まらないでしょう。
まさに試されるGoogleなのです。
まさか、人海戦術で対応するようなGoogleではないので、アルゴリズムによる対応をしてくると思いますが、どのような対応をしてくるか少し楽しみです。




関連記事

Leave a reply






管理者にだけ表示を許可する

Trackbacks

trackbackURL:http://hokoxjouhou.blog105.fc2.com/tb.php/757-760ce2ea
該当の記事は見つかりませんでした。
SEO
loading
情報管理LOG