2017年3月15日水曜日

Googleがフェイクニュース&ヘイトスピーチ対策に本腰

Googleの「品質評価ガイドライン」の公式ファイルが更新されました。直リンクだと開けないことがあるので、ここの「 You can find that update here (PDF).」から。

偽ニュース・特定人種・思想等へのヘイト排除、そしてそこらが集客によく使う釣りタイトルの排除に本気で乗り出したようで万歳。

主な変更は、以下のとおり。

■3行で。
フェイクニュース・ヘイトスピーチ・釣りタイトルでの集客を意識したGGG改定を実施。
ニュース全般についてYMYL扱いをするようになった。
メディアがEATに高度の関心を払うことが重要になる。

■日本語で。
Googleが品質評価ガイドラインを改定し、フェイクニュース・ヘイトスピーチ・釣りタイトルの利用を厳しく評価するようになった。
即座にフェイクニュース・ヘイトスピーチがGoogle検索結果から消えるわけではないが、機械学習の教師データに「信頼性の薄いニュース」「不快なヘイトスピーチ」などの視点が盛り込まれるため、これらの情報に対してアルゴリズムで自動的に対処する動きが加速する。
メディアサイトが情報の正確さ・公正さに配慮し、さらにサイト自体や著者の信頼性を担保する情報を提供することが重要な課題となる。

■品質評価ガイドライン?
Googleのアルゴリズムを評価し、同時に教師データを提供する「品質評価者」向けのルールブック。Googleの価値観が示されている。
「ここに書かれた価値観が、すぐにアルゴリズムに反映される」ということはないが、最近は機械学習が導入されて反映までの速度は速まっている感じ。

■「フェイクニュース」「ヘイトスピーチ」ってどんなもの?
新ガイドラインでは、以下の例を「低品質」に分類してます。

=================

  • 他のニュースサイトなどであるかのように偽装しているサイト
  • ニュースサイトを装っているが、実際の目的は特定の「個人・ビジネス・政府・機関などに対して政治的・金銭的・その他の便宜を提供する」であるサイト
  • 不正確な情報によって、ユーザーを誤解させたりだましたりする意図があるサイト
  • 根拠のない陰謀論・デマを、さも真実であるかのように取り上げるサイト
  • 怪しい「科学的な真実」を掲載するサイト・ページ
  • 特定集団へのヘイトクライム・暴力を助長するサイト

(38・39ページ)
=================

大体どれも「フェイクニュース」や「ヘイトスピーチ」に見られる特徴。
虚構新聞さんみたいな、ユーモアサイトにも配慮しているようで一安心。


■もう少し具体的に
しばらく前に問題になった「ホロコーストは本当にあったの?」問題が、ガイドラインに事例として収録済み。
例えば「ホロコーストの歴史」で検索している場合、「ホロコーストがでっち上げである10の証拠」というページを、以下のように評価する。

① 品質=「低品質」
不正確かつユーザーを誤解させる目的のページ。
Page Quality評価は「低品質」

② ニーズへの合致=「一致しない」
ユーザーは「ホロコーストの正しい歴史を知りたい」と思っている。
ホロコーストがあったことは歴史上の事実であり、こんなデマは全く不要。
Needs Met評価は最低の「一致しない(Fails to Meet)」になり、検索ユーザーの目に触れることはまずないはず。

③ 「不快」フラグ
実質的に反ユダヤ主義の主張であり、ユーザーの大半を不快にする。
「不快なページ(Upsetting ‐ Offensive)フラグ」を立てる。

■悪の枢軸Googleによる思想検閲だ!差別だ!Google八分だ!ペナルティだ!etc
わかりましたから落ち着いてください。

ユーザーが「こうした情報を求めている意図」が明確なら、ちゃんと高いNeeds Met評価がつきます。「Stormfront.org」みたな指名検索とか。もっともPageQualityや「不快なページ」フラグはクエリに左右されないので、「低品質かつ不快なページ」として評価される点に変わりはありません。

あと、ヘイトスピーチ系のページが非指名検索で表示されることはまずなくなるはずなので、そこは覚悟しておいていいかも。
「イスラム」で検索して「イスラムが邪悪であることの証明」が出るとか、「ホロコースト」で「ホロコーストがでっち上げである10の証拠」が出るとか、今後はなくなるようにアルゴリズムが調整されるはずです。なにせ129ページに、わざわざこんな規定があるので。

”「女性は邪悪な存在」「キリスト教徒は悪魔崇拝者」「人種差別主義者 白人」などのクエリは「不快な情報を受け入れるクエリ(Upsetting ‐ Offensive tolerant query)」かもしれません。しかしユーザーが求めているのは「高品質な、公正で裏付けのある高品質な情報」であり、「低品質な偏向情報・デマ」ではないとの前提で評価しましょう。”

■じゃあどうすればいいの?
「公正で正確な情報の提供に努め、信頼性を高める」のが大前提。
同時に、ユーザーや検索エンジンに対して「そうした点に配慮していることを、わかりやすく明示する」ことが重要になるかと。
編集・監修ポリシーの明示。著者・ウェブサイトのID情報充実。第三者評価などなど。

■他に注意すべき点は?
① 釣りタイトル(106ページ)
釣りタイトルを利用している場合、Page Quality評価が「低品質」か「最低」になることを明記してます。タイトルは派手だけど、ランディングしてがっかり…みたいな羊頭狗肉のあれ。

ここの説明で使っている「Cost to Click」はユーザー体験を考えるうえで重要な概念なので、意識しておくといろいろ役立ちます。モバイルでは「Cost to Click」が高いことを意識すれば、表示速度の重要性や、UI・導線設計の改善とか見えるものがいろいろあります。

② 細かいところ(38ページ)
以前から「最低品質」の要因に「Googleウェブマスターガイドライン違反」という項目がありました。
今回の更新で、なぜか「例えば、オリジナルコンテンツが欠如するサイト内のページ」
という一文をわざわざ追加。
なんでかなー

2017年2月18日土曜日

ECサイト+αのコピースパム考察

「見覚えのないドメインから、変なリンクが大量に付く」
「クロールエラーが大量発生して怖い」
等のお悩みを最近よく見かけます。
例えばこんな感じ(魚拓)

フォーラムでも   のご相談が。

「どう対処すればいいの?」
「リファラスパムにしては、URLを開いても、コピーページが表示されるだけで転送されない。」
「不自然リンクにしては、不審なサイトへの外部リンクもない。」
「なんでこんなことするのか、意図が読めない」
というお問い合わせが多いので、対処法・目的・背景など考えてみました。ご参考までにどうぞ。

あと話の性質上、怪しげなサイトへのリンクが大量にあります。
↓のようなマークを振っておいたので、踏むときは自己責任でおねがい。
!!!危ないURL.com!!!

■なんでこんなことが起きるの?
原因は「ECサイト+適当なサイト」でつぎはぎしたページを大量に作成するスパム。
具体的にはこんな感じ(魚拓)のページ。
ECサイト+適当なサイト」のつぎはぎで作ってることが多いので、便宜的にパッチワークスパムと呼びます。

■対処法は?
リンクは「気になるなら否認リストに入れて放置」でOK

クロールエラーは原則無視。
例外として「サーバー負荷増大で503が出たり、大切なページのインデックスが滞ったりしてるようなら、HTTPレスポンスの設定やパラ制御で対処」でOKかと。

■パッチワークスパムの作り方
ECサイト+適当なサイト」をスクレープして、ツールでつなぎ合わせてページ作成
適当な安いドメインに載せるか、ハッキングしたサイトに埋め込む。

上のこれ(魚拓)の場合、ジョブセンスさんと楽天さんっぽい。

■なんでこんなページ作るの?
「検索流入を取る」のが目的。

「リファラ―スパムじゃないか」「検索順位を奪い取るのが目的じゃないか」という主張も散見します。
「リファラ―スパム」→実態のないサイト・価値のないドメイン使ってる。直接訪問で転送されない。
「検索順位を奪い取る」→こんな雑な仕組みでだまされるほど、Googleさんもアホじゃない
といった点で、上記のスパムとは目的が違うかと。

■このページに流入させて意味あるの?
ない。そもそもこのページ自体に流入させる気が無い。

■矛盾してない?
細かく言うと、「検索結果にURLを載せて、他の偽ECサイトなどに転送する」のが目的。

!!!このページ !!!がわかりやすい。

「直接URLを入力&一般ユーザー」だとパッチワークをそのまま見せたり、エラーを見せたり。
ウェブマスターや解析やってる人はこのルートで確認しにくることが多い。
なので「なんでやってるんだろう…」「リファラスパム?」などと考えがち。

パッチワークスパム(直接訪問&一般UA)


Googlebotには経路を問わず、パッチワークスパムを表示。Googleにパッチワークスパム内の情報を拾わせる。
パッチワークスパム(Googlebot UA)


そしてここが肝。
Google経由で訪問したとき&一般ユーザー」には、別の偽ECサイトに転送。
パッチワークスパム(検索経由&一般UA)


試したいという方は、「 “bt05-xp10-super-165 site:http://www.teslabel.be」で検索してみましょう。
http://www.teslabel.be自体はまっとうなサイトっぽいので、ハッキングによる埋め込みですかね。

検索経由の一般ユーザーは!!!このサイト!!!に転送。
でも、URLを直打ちしたり、GooglebotUAで訪問するとパッチワークスパムが出る。

これ書いてて見つけた、転送先一覧。
!!!http://www.venne-store.top/!!!
!!!http://www.elestone.pro/!!!
!!!http://www.latte-net.cc/!!!
!!!http://www.kapsps.xyz/!!!
!!!http://www.cnsgyu.top!!!
!!!http://0201v.com/!!!

■これってスパム?
もちろん。
ここらへんの全部盛り。当然、Googleの検索結果からはすぐに消える。


■どんな仕組み?
多分、ChurnBurnの変種。

ChurnBurnを雑に言うと、大量・低コストのスパムページを燃料として使いつぶして、収益化ページに人を流す手法。要は元気玉。



燃料スパムは低コストで量産できるので、ペナルティ受けても使い捨てにできる。



古典的なChurn&Burnは「燃料からの評価シグナルを集めて、収益化ページを上位表示させて、検索流入を集める」という手法。


現在のパッチワークスパムは「燃料を上位表示させて、検索ユーザーを集めて、収益化ページに飛ばす」。
ユーザーを集める経路に違いがあります。




 この構成の利点は以下の通り。

① 耐久力が高い
・ 収益化サイトである偽ECがGoogleに手動対策されても、何も痛くない。
・ 燃料のパッチワークスパムがGoogleに手動対策されても、ほとんど痛くない。

② 低コスト化 
・ パッチワークスパムのコンテンツ生産は自動化・量産可能。
・ パッチワークスパムの掲載先も、低価格のドメイン買い付けやハッキングの効率化でコスト低減可能
・ 収益化サイトである偽ECは1つあれば十分。その分コストをかけて、しっかり作れる。

■採算とれるの?
パッチワークスパムに検索流入とかないだろうし、すぐに消えちゃうわけだし…
おそらく流入があり、採算が取れている。
皮肉なことに、この手のスパム対策として導入したハッキングスパム対策フィルタのおかげ。

このフィルタが適用されると検索結果が数十件~100件前後に絞られるので、今までは検索結果の最下層に追いやられていた低品質なスパムが、ユーザの目に触れちゃうことがあります。 
その結果、「商品名」「ブランド×カテゴリ」等の市場が大きいキーワードで、インデックス削除されるまでの短い間ではあるがパッチワークスパムが10ページ以内を取れることがあるので。

「シャネル お買い得」の3ページ目。
上は偽ECで、下のnavratanindiaがパッチワークスパム。
リンクを踏むと、偽ECに飛ばされる。


「プラダ 財布 メンズ」の2ページ目下部。
2つのパッチワークスパムがランクインしており、下のSplendixは偽ECへの転送も生きている。

ユーザーの「大手サイトだとちょっと高いから、隠れたお買い得サイトないかな…」という心に付け込めるのがポイント。
偽ECの構成にも「極端な値引きはしない」「サイトの外形・連絡先・規約を整える」など、そうしたユーザーに買わせるための工夫が見て取れます。

一個のパッチワークスパムは数日で消えますが、消えたら代わりのパッチワークスパムが出てくるだけ。
偽ECへの転送流入は途切れにくく、採算も合うんじゃないでしょうか。


■根絶する方法は?
ハッキングスパム対策フィルタを調整して、パッチワークスパムが目に触れる機会を減らすのが一番かと。

フィルタを適用すると上から順に
 ① まっとうなFM-MMページ
 ② Google Books(SM-FailsM)
 ③ まっとうなSM-FailsMページ(ごく少数)
 ⓸ スパム
という構成になることが多い。

「②以下をデフォルト表示しなくする」というのが、一番現実的な気がします。
あとは①の部分を拡大するとか、ブラウザ側で対処するとか。

手動・自動での評価が効きにくいのが悩ましいところですね。
偽EC本体に対策しても、痛くもかゆくもない。
パッチワークスパムに対策しようにも「Googleにインデックスされた時点で、ほぼ役目を果たしている」ため、効果が薄い。

がんばれぐっぐるさん!