2017年3月15日水曜日

Googleがフェイクニュース&ヘイトスピーチ対策に本腰

Googleの「品質評価ガイドライン」の公式ファイルが更新されました。直リンクだと開けないことがあるので、ここの「 You can find that update here (PDF).」から。

偽ニュース・特定人種・思想等へのヘイト排除、そしてそこらが集客によく使う釣りタイトルの排除に本気で乗り出したようで万歳。

主な変更は、以下のとおり。

■3行で。
フェイクニュース・ヘイトスピーチ・釣りタイトルでの集客を意識したGGG改定を実施。
ニュース全般についてYMYL扱いをするようになった。
メディアがEATに高度の関心を払うことが重要になる。

■日本語で。
Googleが品質評価ガイドラインを改定し、フェイクニュース・ヘイトスピーチ・釣りタイトルの利用を厳しく評価するようになった。
即座にフェイクニュース・ヘイトスピーチがGoogle検索結果から消えるわけではないが、機械学習の教師データに「信頼性の薄いニュース」「不快なヘイトスピーチ」などの視点が盛り込まれるため、これらの情報に対してアルゴリズムで自動的に対処する動きが加速する。
メディアサイトが情報の正確さ・公正さに配慮し、さらにサイト自体や著者の信頼性を担保する情報を提供することが重要な課題となる。

■品質評価ガイドライン?
Googleのアルゴリズムを評価し、同時に教師データを提供する「品質評価者」向けのルールブック。Googleの価値観が示されている。
「ここに書かれた価値観が、すぐにアルゴリズムに反映される」ということはないが、最近は機械学習が導入されて反映までの速度は速まっている感じ。

■「フェイクニュース」「ヘイトスピーチ」ってどんなもの?
新ガイドラインでは、以下の例を「低品質」に分類してます。

=================

  • 他のニュースサイトなどであるかのように偽装しているサイト
  • ニュースサイトを装っているが、実際の目的は特定の「個人・ビジネス・政府・機関などに対して政治的・金銭的・その他の便宜を提供する」であるサイト
  • 不正確な情報によって、ユーザーを誤解させたりだましたりする意図があるサイト
  • 根拠のない陰謀論・デマを、さも真実であるかのように取り上げるサイト
  • 怪しい「科学的な真実」を掲載するサイト・ページ
  • 特定集団へのヘイトクライム・暴力を助長するサイト

(38・39ページ)
=================

大体どれも「フェイクニュース」や「ヘイトスピーチ」に見られる特徴。
虚構新聞さんみたいな、ユーモアサイトにも配慮しているようで一安心。


■もう少し具体的に
しばらく前に問題になった「ホロコーストは本当にあったの?」問題が、ガイドラインに事例として収録済み。
例えば「ホロコーストの歴史」で検索している場合、「ホロコーストがでっち上げである10の証拠」というページを、以下のように評価する。

① 品質=「低品質」
不正確かつユーザーを誤解させる目的のページ。
Page Quality評価は「低品質」

② ニーズへの合致=「一致しない」
ユーザーは「ホロコーストの正しい歴史を知りたい」と思っている。
ホロコーストがあったことは歴史上の事実であり、こんなデマは全く不要。
Needs Met評価は最低の「一致しない(Fails to Meet)」になり、検索ユーザーの目に触れることはまずないはず。

③ 「不快」フラグ
実質的に反ユダヤ主義の主張であり、ユーザーの大半を不快にする。
「不快なページ(Upsetting ‐ Offensive)フラグ」を立てる。

■悪の枢軸Googleによる思想検閲だ!差別だ!Google八分だ!ペナルティだ!etc
わかりましたから落ち着いてください。

ユーザーが「こうした情報を求めている意図」が明確なら、ちゃんと高いNeeds Met評価がつきます。「Stormfront.org」みたな指名検索とか。もっともPageQualityや「不快なページ」フラグはクエリに左右されないので、「低品質かつ不快なページ」として評価される点に変わりはありません。

あと、ヘイトスピーチ系のページが非指名検索で表示されることはまずなくなるはずなので、そこは覚悟しておいていいかも。
「イスラム」で検索して「イスラムが邪悪であることの証明」が出るとか、「ホロコースト」で「ホロコーストがでっち上げである10の証拠」が出るとか、今後はなくなるようにアルゴリズムが調整されるはずです。なにせ129ページに、わざわざこんな規定があるので。

”「女性は邪悪な存在」「キリスト教徒は悪魔崇拝者」「人種差別主義者 白人」などのクエリは「不快な情報を受け入れるクエリ(Upsetting ‐ Offensive tolerant query)」かもしれません。しかしユーザーが求めているのは「高品質な、公正で裏付けのある高品質な情報」であり、「低品質な偏向情報・デマ」ではないとの前提で評価しましょう。”

■じゃあどうすればいいの?
「公正で正確な情報の提供に努め、信頼性を高める」のが大前提。
同時に、ユーザーや検索エンジンに対して「そうした点に配慮していることを、わかりやすく明示する」ことが重要になるかと。
編集・監修ポリシーの明示。著者・ウェブサイトのID情報充実。第三者評価などなど。

■他に注意すべき点は?
① 釣りタイトル(106ページ)
釣りタイトルを利用している場合、Page Quality評価が「低品質」か「最低」になることを明記してます。タイトルは派手だけど、ランディングしてがっかり…みたいな羊頭狗肉のあれ。

ここの説明で使っている「Cost to Click」はユーザー体験を考えるうえで重要な概念なので、意識しておくといろいろ役立ちます。モバイルでは「Cost to Click」が高いことを意識すれば、表示速度の重要性や、UI・導線設計の改善とか見えるものがいろいろあります。

② 細かいところ(38ページ)
以前から「最低品質」の要因に「Googleウェブマスターガイドライン違反」という項目がありました。
今回の更新で、なぜか「例えば、オリジナルコンテンツが欠如するサイト内のページ」
という一文をわざわざ追加。
なんでかなー