更新さぼってた間にやってたことをつらつらと。
① Googleのオフィスアワーに出た
これ。楽しかったです(*'ω'*)
補足を少々。
1:複数のサイトマップから同じURL送ったら、クロール無駄に発生しない?
鈴木さんが質問して、金谷さんがいい淀んでいたあれ。
無駄クロールが発生しない仕組みはむーさんがわかりやすく解説してたのでおすすめ。
サチコのURL検査機能が、Googleのどの時点の話をしてるのかも理解しやすくなります。
黄色の矢印の部分で、重複の排除が入る。
質問のケースだと、検出されたURLが「URLs」に格納はされるけど、クロールしに行く前の「Scheduler」で重複排除されるため、懸念の多重クロールは起きません。
…という認識であってますでしょうか金谷さん?
2:インデックスされない問題
この解説が役立つかと。以下の点に注意。
■クロールバジェット不足
■正規化の不具合
■内部リンク
■コンテンツが…
② Google Dance Osakaに行った
これ。楽しかったです(*'ω'*)
やはり大阪は天国…
Google公式セッションの中身が気になる人は、以下のリンク先を読んでおこう。
Keynote Speech “Creating the Future of Search Together” - Juan Felipe Rincón, Global Lead, Trust & Safety Search Outreach, Google
→これ
Google Image Search - Gary Illyes, Webmaster Trends Analyst, Google
→これとこれ。
The New Search Console & Helping The Long Tail Web - Idan Avraham, Software Engineer - Search Console, Google
■おまけ
Google DanceのLTで話した”「Google品質評価ガイドライン」の使い方”のスライド。
隠しテキストいいよね…
(´・ω・`)
2019年3月18日月曜日
2018年7月26日木曜日
Google品質評価ガイドライン(2018年7月版)解説
Google Genenral Guidelinesが2018年7月版に更新されました。
前回のバージョンは2017年7月版だったので、約1年ぶりの更新。
後ほどしっかりした解説も書く予定ですが、取り急ぎ要点を整理しました。
品質評価ガイドラインの役割やら用語の解説やらは、以前書いたこちらをご参照あれ。
いろいろと細かな変更があったのですが、以下の3パターンに分類できます。
① 方針変更
…評価の対象や基準が変わるもの
② ニュアンス変更
…対象・基準は同じ。
「この点をもっと意識してね」という事を明確にするために、解説や事例を追加
③ 説明強化
…対象・基準は同じ。
Raterが誤解しやすい点について、解説や事例を追加。
今回は②が大半、①と③が少々といったところ。
それぞれについて、要点を解説します。
==============
① 方針変更
「7.2.7 Obstructed or Inaccessible Main Content」(40P)の評価が厳格化。
既にアルゴリズムにも組み込み済みの、邪魔なインタースティシャルやらポップアップやらのアレ。
これまでは下から2番目のLow評価止まりだったのが、悪質なものは最低のLowestになるように追加変更されました。
妥当な変更かと。
② ニュアンス変更
い ろ い ろ と話題になりがちな検索結果の「品質(Page Quality)」に関する記載が強化されました。主旨は3点。
1:品質を評価するときは、E-A-Tを重視してね!
例えばLow Qualityの判定基準。 旧バージョンでは6.5と後半に配置。
新バージョンでは6.1と、先頭に配置されました。
他の項目でも配列変更や記載追加で「E-A-T大事に!」ということが主張されています。
2:E-A-T判断するときに「人」も気にしてね!
以前から記載されていた事ではあるのですが。
新バージョンでは「Content creator(コンテンツ作成者)」という用語を用いて、E-A-Tの判断対象を「掲載サイト」「Content creator」「双方」のいずれに置くべきかを解説する条項を追加(56P)。
「Content Creater 」を意識しようという注意喚起も、複数の条項に追加されました。
3:フェイク・ヘイトはダメ。
こちらも以前から記載されていた事ではあるのですが。
フェイクニュース・ヘイトスピーチの定義・解説を多数追加。
特にフェイクニュース絡みの解説は旧バージョンから…
大幅に増加。
フェイク・ヘイトを排除するために、重要概念である「ページの目的」の説明も更新しました。
”「Beneficial(善意の目的)」でないページや、「Consensus(一般常識)」と一致しないページを低評価にする”という点を、以前よりも強調しています。
旧バージョンでは、品質評価の目的を「”ユーザーの役に立つ”ページの目的があり、それを達成しているページを評価する事」であると定義していました。図にするとこんな感じ。
問題は「真面目に”ホロコーストはなかった”と主張するページ」「真面目に”地球空洞説”が正しいと語るページ」などをどう評価するか。上の定義だと、少なくともこれらの説を信じる人にとっては「役立つ」目的を達成できていると判断できなくはない。
こうした場合、「Beneficial」と「Consensus」の視点が役立ちます。
「真面目に”ホロコーストはなかった”と主張するページ」は、人道面から見てもホロコーストの被害者から見ても「善意」であるとは言い難い。
「真面目に”地球空洞説”が正しいと語るページ」にはBeneficialかもしれないが、Consensusに合致しているとは言えない。
「ユーザーの役に立つ」だけではなく、「世間一般の常識に照らして正しく」、「特定の思想・信条・人物・団体を害する意図がない」という要件も満たさないと、低品質とみなされます。
③ 説明強化
常識的な内容。
「商品クエリだからって、購入意図だけとは限らない。比較検討に役立つ画像リストとか、すごい役に立つ(149ぺージ)」とか…
「”Youtube”で検索してるなら、サイトに飛ばせばいいよね。YoutubeアプリとかDLの時間かかるし…」とか。
==============
主な変更点は以上。
■所感
とても常識的な変更しかないので、まっとうにSEOやってきたサイトであれば特に対応不要かと。「Googleさんも、いいことやってるサイトをしっかり評価しようとしてるんだ」と安心していい内容です。
一点だけ注意するなら、EATの担保情報。
まっとうにやってるサイトでも(社内事情とかで)外から見ると「どんな人が」「どんな根拠で」書いているのかが分かりにくい所が多いので、これを機会に著者情報の明示をすすめるのが良いかと。
寂しかったのは、高品質の例として昔から載っていたこのページが消されたこと。
内容はこんな感じ。
「コロンブスは1952年生まれ。1942年にフロリダに到達。1939年にはスペインに凱旋。1906年没。」
…タイムトラベルできたんですねこの人。あるいは紀元前の話かも。
一見するとウソしか書いていないスパムページですが、このサイトは「学生にインターネットでの情報収集を教える」ためのページ。有益なページの目的があり、それを達成できている高品質なページです。
Consensusとの関係で消されてしまったのでしょうが、こういう「よくわかってる」事例が消えてしまうのは、ちょっと寂しいです。
前回のバージョンは2017年7月版だったので、約1年ぶりの更新。
後ほどしっかりした解説も書く予定ですが、取り急ぎ要点を整理しました。
品質評価ガイドラインの役割やら用語の解説やらは、以前書いたこちらをご参照あれ。
いろいろと細かな変更があったのですが、以下の3パターンに分類できます。
① 方針変更
…評価の対象や基準が変わるもの
② ニュアンス変更
…対象・基準は同じ。
「この点をもっと意識してね」という事を明確にするために、解説や事例を追加
③ 説明強化
…対象・基準は同じ。
Raterが誤解しやすい点について、解説や事例を追加。
今回は②が大半、①と③が少々といったところ。
それぞれについて、要点を解説します。
==============
① 方針変更
「7.2.7 Obstructed or Inaccessible Main Content」(40P)の評価が厳格化。
既にアルゴリズムにも組み込み済みの、邪魔なインタースティシャルやらポップアップやらのアレ。
これまでは下から2番目のLow評価止まりだったのが、悪質なものは最低のLowestになるように追加変更されました。
妥当な変更かと。
② ニュアンス変更
い ろ い ろ と話題になりがちな検索結果の「品質(Page Quality)」に関する記載が強化されました。主旨は3点。
1:品質を評価するときは、E-A-Tを重視してね!
例えばLow Qualityの判定基準。 旧バージョンでは6.5と後半に配置。
新バージョンでは6.1と、先頭に配置されました。
他の項目でも配列変更や記載追加で「E-A-T大事に!」ということが主張されています。
2:E-A-T判断するときに「人」も気にしてね!
以前から記載されていた事ではあるのですが。
新バージョンでは「Content creator(コンテンツ作成者)」という用語を用いて、E-A-Tの判断対象を「掲載サイト」「Content creator」「双方」のいずれに置くべきかを解説する条項を追加(56P)。
「Content Creater 」を意識しようという注意喚起も、複数の条項に追加されました。
3:フェイク・ヘイトはダメ。
こちらも以前から記載されていた事ではあるのですが。
フェイクニュース・ヘイトスピーチの定義・解説を多数追加。
特にフェイクニュース絡みの解説は旧バージョンから…
大幅に増加。
フェイク・ヘイトを排除するために、重要概念である「ページの目的」の説明も更新しました。
”「Beneficial(善意の目的)」でないページや、「Consensus(一般常識)」と一致しないページを低評価にする”という点を、以前よりも強調しています。
旧バージョンでは、品質評価の目的を「”ユーザーの役に立つ”ページの目的があり、それを達成しているページを評価する事」であると定義していました。図にするとこんな感じ。
問題は「真面目に”ホロコーストはなかった”と主張するページ」「真面目に”地球空洞説”が正しいと語るページ」などをどう評価するか。上の定義だと、少なくともこれらの説を信じる人にとっては「役立つ」目的を達成できていると判断できなくはない。
こうした場合、「Beneficial」と「Consensus」の視点が役立ちます。
「真面目に”ホロコーストはなかった”と主張するページ」は、人道面から見てもホロコーストの被害者から見ても「善意」であるとは言い難い。
「真面目に”地球空洞説”が正しいと語るページ」にはBeneficialかもしれないが、Consensusに合致しているとは言えない。
「ユーザーの役に立つ」だけではなく、「世間一般の常識に照らして正しく」、「特定の思想・信条・人物・団体を害する意図がない」という要件も満たさないと、低品質とみなされます。
③ 説明強化
常識的な内容。
「商品クエリだからって、購入意図だけとは限らない。比較検討に役立つ画像リストとか、すごい役に立つ(149ぺージ)」とか…
「”Youtube”で検索してるなら、サイトに飛ばせばいいよね。YoutubeアプリとかDLの時間かかるし…」とか。
==============
主な変更点は以上。
■所感
とても常識的な変更しかないので、まっとうにSEOやってきたサイトであれば特に対応不要かと。「Googleさんも、いいことやってるサイトをしっかり評価しようとしてるんだ」と安心していい内容です。
一点だけ注意するなら、EATの担保情報。
まっとうにやってるサイトでも(社内事情とかで)外から見ると「どんな人が」「どんな根拠で」書いているのかが分かりにくい所が多いので、これを機会に著者情報の明示をすすめるのが良いかと。
寂しかったのは、高品質の例として昔から載っていたこのページが消されたこと。
内容はこんな感じ。
「コロンブスは1952年生まれ。1942年にフロリダに到達。1939年にはスペインに凱旋。1906年没。」
…タイムトラベルできたんですねこの人。あるいは紀元前の話かも。
一見するとウソしか書いていないスパムページですが、このサイトは「学生にインターネットでの情報収集を教える」ためのページ。有益なページの目的があり、それを達成できている高品質なページです。
Consensusとの関係で消されてしまったのでしょうが、こういう「よくわかってる」事例が消えてしまうのは、ちょっと寂しいです。
2018年1月4日木曜日
品質評価ガイドライン(音声検索版)
品質評価ガイドライン(音声検索版)が出たので、内容の整理と考察など。
全7ページ、かつ大半が評価例なので、英語が苦手でなければ原文見たほうがいいかも。
ここで言う音声検索(search speech)は、Google Assistantの音声回答のことを指す点に注意。Google Homeとかスマホのこういうやつ。
評価は大きく分けて、クエリとの関連性を評価する「Needs Met評価」と、長さ・文章構成・発音などの発話品質を評価する「Speech Quality評価」の二軸。
「クエリとの関連性が高く」「適切な長さで」「自然な文章で」「聞きやすい発音・速度」の回答が高く評価されます。
両者の関係は明示されてません。
関連性のNeeds Metが主で、品質のSpeech Qualityが従、といった感じではないかと推察。本家品質評価ガイドラインがそうだし。
関連性と品質の関係については、本家の15.0「The Relationship between EAT and Needs Met」に詳しい解説があります。
ウェブサイト管理者側で対処するべきこととしては「コンテンツの質を高めること」、「構造化データ・HTMLでのマークアップを正確にすること」そして「文法に気を遣うこと」ではないかと思います。
1つ目は「関連性」を高めるために。
2つ目はGoogleが「適切な長さ」かつ「関連性のある」回答を抽出しやすくするために。
そして3つ目はGoogleが「自然な文章」の回答を作りやすくするために。
以上で概要の解説と考察は終わりです。
以下は各評価の詳細なので、気になる人だけ読むといいでしょう。
■Needs Met評価
詳しくは品質評価ガイドラインを参照。
…手抜きじゃないんです。Googleさんがそう言ってるのだからしょうがないんです。
大体こんな感じの5段階評価。
例はガイドライン内のものを、適宜日本風に。
==========================
① Fully Meets…
ほぼ完璧。
大半のユーザーがこの結果だけで満足。追加情報とかいらない。
例:
クエリ:「ダーウィンの身長は?」
回答 :「180㎝です!」
② Highly Meets…
上出来。
大半のユーザーにとって、とても役に立つ。追加情報が必要なユーザーもいるかも。
例:
クエリ:「平清盛」
回答 :「Wikipediaによると、平清盛は平安時代の武士、政治家。」
③ Moderately Meets…
まあまあ。
人によっては満足するし、ちょっと足りないと思う人もいるかも。
例:
クエリ:「東京の週末の天気」
回答 :「15℃、晴れです」
間違いじゃないけど、週末という長い期間の天気の解説としては不十分。
④ Slightly Meets…
かなりダメ。
ほんの一部の人にしか役立たない。
例:
クエリ:「今のアメリカ大統領は?」
回答 :「アメリカの大統領は、選挙で選出されたアメリカ合衆国の長です。」
完全に違う、というわけではないけどずれてる。
⑤ Fails to Meet
ダメ。役に立たない。
例:
クエリ:「今日は雨?」
回答 :「すみません、その件についてはお役に立てません。」
==========================
■Speech Quality評価
以下の3軸で評価。
① 長さ(Length)
例:
クエリ:「世界の人口は?」
回答 :「69億9999万9989人です」
Formulationと合わせて課題がある例。
文字としてみると概要がつかめるが、読み上げられると理解しにくい。
「約70億人です」と丸めてあげるのが正解。
全7ページ、かつ大半が評価例なので、英語が苦手でなければ原文見たほうがいいかも。
ここで言う音声検索(search speech)は、Google Assistantの音声回答のことを指す点に注意。Google Homeとかスマホのこういうやつ。
評価は大きく分けて、クエリとの関連性を評価する「Needs Met評価」と、長さ・文章構成・発音などの発話品質を評価する「Speech Quality評価」の二軸。
「クエリとの関連性が高く」「適切な長さで」「自然な文章で」「聞きやすい発音・速度」の回答が高く評価されます。
両者の関係は明示されてません。
関連性のNeeds Metが主で、品質のSpeech Qualityが従、といった感じではないかと推察。本家品質評価ガイドラインがそうだし。
関連性と品質の関係については、本家の15.0「The Relationship between EAT and Needs Met」に詳しい解説があります。
ウェブサイト管理者側で対処するべきこととしては「コンテンツの質を高めること」、「構造化データ・HTMLでのマークアップを正確にすること」そして「文法に気を遣うこと」ではないかと思います。
1つ目は「関連性」を高めるために。
2つ目はGoogleが「適切な長さ」かつ「関連性のある」回答を抽出しやすくするために。
そして3つ目はGoogleが「自然な文章」の回答を作りやすくするために。
以上で概要の解説と考察は終わりです。
以下は各評価の詳細なので、気になる人だけ読むといいでしょう。
■Needs Met評価
詳しくは品質評価ガイドラインを参照。
…手抜きじゃないんです。Googleさんがそう言ってるのだからしょうがないんです。
大体こんな感じの5段階評価。
例はガイドライン内のものを、適宜日本風に。
==========================
① Fully Meets…
ほぼ完璧。
大半のユーザーがこの結果だけで満足。追加情報とかいらない。
例:
クエリ:「ダーウィンの身長は?」
回答 :「180㎝です!」
② Highly Meets…
上出来。
大半のユーザーにとって、とても役に立つ。追加情報が必要なユーザーもいるかも。
例:
クエリ:「平清盛」
回答 :「Wikipediaによると、平清盛は平安時代の武士、政治家。」
一見物足りないような気がするが、「Wikipediaによると」と出典を明示しているのがミソ。
この回答からは出典のWikipedia記事に移動できるので、ユーザーの需要を十分に満たしている、という考え方。
③ Moderately Meets…
まあまあ。
人によっては満足するし、ちょっと足りないと思う人もいるかも。
例:
クエリ:「東京の週末の天気」
回答 :「15℃、晴れです」
間違いじゃないけど、週末という長い期間の天気の解説としては不十分。
④ Slightly Meets…
かなりダメ。
ほんの一部の人にしか役立たない。
例:
クエリ:「今のアメリカ大統領は?」
回答 :「アメリカの大統領は、選挙で選出されたアメリカ合衆国の長です。」
完全に違う、というわけではないけどずれてる。
⑤ Fails to Meet
ダメ。役に立たない。
例:
クエリ:「今日は雨?」
回答 :「すみません、その件についてはお役に立てません。」
==========================
■Speech Quality評価
以下の3軸で評価。
① 長さ(Length)
適切な長さであること。
冗長でもいけないし、簡潔すぎて内容不足になってもいけない。
例:
クエリ:「BMIの意味は?」
回答 :「Body Mass Indexの略で、肥満度を測る基準です。ノギスを使った測定や水中での体重測定などのように、実際の脂肪量を計測するわけではありません。」
うん、くどい。後半いらない。
② 構成(Formulation)
クエリ:「BMIの意味は?」
回答 :「Body Mass Indexの略で、肥満度を測る基準です。ノギスを使った測定や水中での体重測定などのように、実際の脂肪量を計測するわけではありません。」
うん、くどい。後半いらない。
② 構成(Formulation)
文法が正しい、自然な文章であること。
ウェブサイトの内容を利用している場合、「~によると」といった具合に出典サイトを明言すること。
例:
クエリ:「皮膚の一番表の部分の名前は?」
回答 :「表 表皮 中央 真皮 内部 皮下組織」
文章としては意味が取れない。
クエリ:「皮膚の一番表の部分の名前は?」
回答 :「表 表皮 中央 真皮 内部 皮下組織」
文章としては意味が取れない。
③ 発音(Elocution)
発音・イントネーション・読み上げ速度が適切であること。
例:
クエリ:「世界の人口は?」
回答 :「69億9999万9989人です」
Formulationと合わせて課題がある例。
文字としてみると概要がつかめるが、読み上げられると理解しにくい。
「約70億人です」と丸めてあげるのが正解。
2017年3月15日水曜日
Googleがフェイクニュース&ヘイトスピーチ対策に本腰
Googleの「品質評価ガイドライン」の公式ファイルが更新されました。直リンクだと開けないことがあるので、ここの「 You can find that update here (PDF).」から。
偽ニュース・特定人種・思想等へのヘイト排除、そしてそこらが集客によく使う釣りタイトルの排除に本気で乗り出したようで万歳。
主な変更は、以下のとおり。
■3行で。
フェイクニュース・ヘイトスピーチ・釣りタイトルでの集客を意識したGGG改定を実施。
ニュース全般についてYMYL扱いをするようになった。
メディアがEATに高度の関心を払うことが重要になる。
■日本語で。
Googleが品質評価ガイドラインを改定し、フェイクニュース・ヘイトスピーチ・釣りタイトルの利用を厳しく評価するようになった。
即座にフェイクニュース・ヘイトスピーチがGoogle検索結果から消えるわけではないが、機械学習の教師データに「信頼性の薄いニュース」「不快なヘイトスピーチ」などの視点が盛り込まれるため、これらの情報に対してアルゴリズムで自動的に対処する動きが加速する。
メディアサイトが情報の正確さ・公正さに配慮し、さらにサイト自体や著者の信頼性を担保する情報を提供することが重要な課題となる。
■品質評価ガイドライン?
Googleのアルゴリズムを評価し、同時に教師データを提供する「品質評価者」向けのルールブック。Googleの価値観が示されている。
「ここに書かれた価値観が、すぐにアルゴリズムに反映される」ということはないが、最近は機械学習が導入されて反映までの速度は速まっている感じ。
■「フェイクニュース」「ヘイトスピーチ」ってどんなもの?
新ガイドラインでは、以下の例を「低品質」に分類してます。
=================
(38・39ページ)
=================
大体どれも「フェイクニュース」や「ヘイトスピーチ」に見られる特徴。
虚構新聞さんみたいな、ユーモアサイトにも配慮しているようで一安心。
■もう少し具体的に
しばらく前に問題になった「ホロコーストは本当にあったの?」問題が、ガイドラインに事例として収録済み。
例えば「ホロコーストの歴史」で検索している場合、「ホロコーストがでっち上げである10の証拠」というページを、以下のように評価する。
① 品質=「低品質」
不正確かつユーザーを誤解させる目的のページ。
Page Quality評価は「低品質」
② ニーズへの合致=「一致しない」
ユーザーは「ホロコーストの正しい歴史を知りたい」と思っている。
ホロコーストがあったことは歴史上の事実であり、こんなデマは全く不要。
Needs Met評価は最低の「一致しない(Fails to Meet)」になり、検索ユーザーの目に触れることはまずないはず。
③ 「不快」フラグ
実質的に反ユダヤ主義の主張であり、ユーザーの大半を不快にする。
「不快なページ(Upsetting ‐ Offensive)フラグ」を立てる。
■悪の枢軸Googleによる思想検閲だ!差別だ!Google八分だ!ペナルティだ!etc
わかりましたから落ち着いてください。
ユーザーが「こうした情報を求めている意図」が明確なら、ちゃんと高いNeeds Met評価がつきます。「Stormfront.org」みたな指名検索とか。もっともPageQualityや「不快なページ」フラグはクエリに左右されないので、「低品質かつ不快なページ」として評価される点に変わりはありません。
あと、ヘイトスピーチ系のページが非指名検索で表示されることはまずなくなるはずなので、そこは覚悟しておいていいかも。
「イスラム」で検索して「イスラムが邪悪であることの証明」が出るとか、「ホロコースト」で「ホロコーストがでっち上げである10の証拠」が出るとか、今後はなくなるようにアルゴリズムが調整されるはずです。なにせ129ページに、わざわざこんな規定があるので。
”「女性は邪悪な存在」「キリスト教徒は悪魔崇拝者」「人種差別主義者 白人」などのクエリは「不快な情報を受け入れるクエリ(Upsetting ‐ Offensive tolerant query)」かもしれません。しかしユーザーが求めているのは「高品質な、公正で裏付けのある高品質な情報」であり、「低品質な偏向情報・デマ」ではないとの前提で評価しましょう。”
■じゃあどうすればいいの?
「公正で正確な情報の提供に努め、信頼性を高める」のが大前提。
同時に、ユーザーや検索エンジンに対して「そうした点に配慮していることを、わかりやすく明示する」ことが重要になるかと。
編集・監修ポリシーの明示。著者・ウェブサイトのID情報充実。第三者評価などなど。
■他に注意すべき点は?
① 釣りタイトル(106ページ)
釣りタイトルを利用している場合、Page Quality評価が「低品質」か「最低」になることを明記してます。タイトルは派手だけど、ランディングしてがっかり…みたいな羊頭狗肉のあれ。
ここの説明で使っている「Cost to Click」はユーザー体験を考えるうえで重要な概念なので、意識しておくといろいろ役立ちます。モバイルでは「Cost to Click」が高いことを意識すれば、表示速度の重要性や、UI・導線設計の改善とか見えるものがいろいろあります。
② 細かいところ(38ページ)
以前から「最低品質」の要因に「Googleウェブマスターガイドライン違反」という項目がありました。
今回の更新で、なぜか「例えば、オリジナルコンテンツが欠如するサイト内のページ」
という一文をわざわざ追加。
なんでかなー
偽ニュース・特定人種・思想等へのヘイト排除、そしてそこらが集客によく使う釣りタイトルの排除に本気で乗り出したようで万歳。
主な変更は、以下のとおり。
■3行で。
フェイクニュース・ヘイトスピーチ・釣りタイトルでの集客を意識したGGG改定を実施。
ニュース全般についてYMYL扱いをするようになった。
メディアがEATに高度の関心を払うことが重要になる。
■日本語で。
Googleが品質評価ガイドラインを改定し、フェイクニュース・ヘイトスピーチ・釣りタイトルの利用を厳しく評価するようになった。
即座にフェイクニュース・ヘイトスピーチがGoogle検索結果から消えるわけではないが、機械学習の教師データに「信頼性の薄いニュース」「不快なヘイトスピーチ」などの視点が盛り込まれるため、これらの情報に対してアルゴリズムで自動的に対処する動きが加速する。
メディアサイトが情報の正確さ・公正さに配慮し、さらにサイト自体や著者の信頼性を担保する情報を提供することが重要な課題となる。
■品質評価ガイドライン?
Googleのアルゴリズムを評価し、同時に教師データを提供する「品質評価者」向けのルールブック。Googleの価値観が示されている。
「ここに書かれた価値観が、すぐにアルゴリズムに反映される」ということはないが、最近は機械学習が導入されて反映までの速度は速まっている感じ。
■「フェイクニュース」「ヘイトスピーチ」ってどんなもの?
新ガイドラインでは、以下の例を「低品質」に分類してます。
=================
- 他のニュースサイトなどであるかのように偽装しているサイト
- ニュースサイトを装っているが、実際の目的は特定の「個人・ビジネス・政府・機関などに対して政治的・金銭的・その他の便宜を提供する」であるサイト
- 不正確な情報によって、ユーザーを誤解させたりだましたりする意図があるサイト
- 根拠のない陰謀論・デマを、さも真実であるかのように取り上げるサイト
- 怪しい「科学的な真実」を掲載するサイト・ページ
- 特定集団へのヘイトクライム・暴力を助長するサイト
(38・39ページ)
=================
大体どれも「フェイクニュース」や「ヘイトスピーチ」に見られる特徴。
虚構新聞さんみたいな、ユーモアサイトにも配慮しているようで一安心。
■もう少し具体的に
しばらく前に問題になった「ホロコーストは本当にあったの?」問題が、ガイドラインに事例として収録済み。
例えば「ホロコーストの歴史」で検索している場合、「ホロコーストがでっち上げである10の証拠」というページを、以下のように評価する。
① 品質=「低品質」
不正確かつユーザーを誤解させる目的のページ。
Page Quality評価は「低品質」
② ニーズへの合致=「一致しない」
ユーザーは「ホロコーストの正しい歴史を知りたい」と思っている。
ホロコーストがあったことは歴史上の事実であり、こんなデマは全く不要。
Needs Met評価は最低の「一致しない(Fails to Meet)」になり、検索ユーザーの目に触れることはまずないはず。
③ 「不快」フラグ
実質的に反ユダヤ主義の主張であり、ユーザーの大半を不快にする。
「不快なページ(Upsetting ‐ Offensive)フラグ」を立てる。
■悪の枢軸Googleによる思想検閲だ!差別だ!Google八分だ!ペナルティだ!etc
わかりましたから落ち着いてください。
ユーザーが「こうした情報を求めている意図」が明確なら、ちゃんと高いNeeds Met評価がつきます。「Stormfront.org」みたな指名検索とか。もっともPageQualityや「不快なページ」フラグはクエリに左右されないので、「低品質かつ不快なページ」として評価される点に変わりはありません。
あと、ヘイトスピーチ系のページが非指名検索で表示されることはまずなくなるはずなので、そこは覚悟しておいていいかも。
「イスラム」で検索して「イスラムが邪悪であることの証明」が出るとか、「ホロコースト」で「ホロコーストがでっち上げである10の証拠」が出るとか、今後はなくなるようにアルゴリズムが調整されるはずです。なにせ129ページに、わざわざこんな規定があるので。
”「女性は邪悪な存在」「キリスト教徒は悪魔崇拝者」「人種差別主義者 白人」などのクエリは「不快な情報を受け入れるクエリ(Upsetting ‐ Offensive tolerant query)」かもしれません。しかしユーザーが求めているのは「高品質な、公正で裏付けのある高品質な情報」であり、「低品質な偏向情報・デマ」ではないとの前提で評価しましょう。”
■じゃあどうすればいいの?
「公正で正確な情報の提供に努め、信頼性を高める」のが大前提。
同時に、ユーザーや検索エンジンに対して「そうした点に配慮していることを、わかりやすく明示する」ことが重要になるかと。
編集・監修ポリシーの明示。著者・ウェブサイトのID情報充実。第三者評価などなど。
■他に注意すべき点は?
① 釣りタイトル(106ページ)
釣りタイトルを利用している場合、Page Quality評価が「低品質」か「最低」になることを明記してます。タイトルは派手だけど、ランディングしてがっかり…みたいな羊頭狗肉のあれ。
ここの説明で使っている「Cost to Click」はユーザー体験を考えるうえで重要な概念なので、意識しておくといろいろ役立ちます。モバイルでは「Cost to Click」が高いことを意識すれば、表示速度の重要性や、UI・導線設計の改善とか見えるものがいろいろあります。
② 細かいところ(38ページ)
以前から「最低品質」の要因に「Googleウェブマスターガイドライン違反」という項目がありました。
今回の更新で、なぜか「例えば、オリジナルコンテンツが欠如するサイト内のページ」
という一文をわざわざ追加。
なんでかなー
2017年2月18日土曜日
ECサイト+αのコピースパム考察
「見覚えのないドメインから、変なリンクが大量に付く」
「クロールエラーが大量発生して怖い」
「どう対処すればいいの?」
「リファラスパムにしては、URLを開いても、コピーページが表示されるだけで転送されない。」
「不自然リンクにしては、不審なサイトへの外部リンクもない。」
「なんでこんなことするのか、意図が読めない」
というお問い合わせが多いので、対処法・目的・背景など考えてみました。ご参考までにどうぞ。
あと話の性質上、怪しげなサイトへのリンクが大量にあります。
↓のようなマークを振っておいたので、踏むときは自己責任でおねがい。
■なんでこんなことが起きるの?
原因は「ECサイト+適当なサイト」でつぎはぎしたページを大量に作成するスパム。
「ECサイト+適当なサイト」のつぎはぎで作ってることが多いので、便宜的にパッチワークスパムと呼びます。
■対処法は?
リンクは「気になるなら否認リストに入れて放置」でOK。
クロールエラーは原則無視。
例外として「サーバー負荷増大で503が出たり、大切なページのインデックスが滞ったりしてるようなら、HTTPレスポンスの設定やパラ制御で対処」でOKかと。
■パッチワークスパムの作り方
「ECサイト+適当なサイト」をスクレープして、ツールでつなぎ合わせてページ作成
↓
適当な安いドメインに載せるか、ハッキングしたサイトに埋め込む。
■なんでこんなページ作るの?
「検索流入を取る」のが目的。
「リファラ―スパムじゃないか」「検索順位を奪い取るのが目的じゃないか」という主張も散見します。
「リファラ―スパム」→実態のないサイト・価値のないドメイン使ってる。直接訪問で転送されない。
「検索順位を奪い取る」→こんな雑な仕組みでだまされるほど、Googleさんもアホじゃない
といった点で、上記のスパムとは目的が違うかと。
■このページに流入させて意味あるの?
ない。そもそもこのページ自体に流入させる気が無い。
■矛盾してない?
細かく言うと、「検索結果にURLを載せて、他の偽ECサイトなどに転送する」のが目的。
「直接URLを入力&一般ユーザー」だとパッチワークをそのまま見せたり、エラーを見せたり。
ウェブマスターや解析やってる人はこのルートで確認しにくることが多い。
なので「なんでやってるんだろう…」「リファラスパム?」などと考えがち。
![]() |
| パッチワークスパム(直接訪問&一般UA) |
Googlebotには経路を問わず、パッチワークスパムを表示。Googleにパッチワークスパム内の情報を拾わせる。
![]() |
| パッチワークスパム(Googlebot UA) |
そしてここが肝。
「Google経由で訪問したとき&一般ユーザー」には、別の偽ECサイトに転送。
![]() |
| パッチワークスパム(検索経由&一般UA) |
試したいという方は、「 “bt05-xp10-super-165” site:http://www.teslabel.be」で検索してみましょう。
http://www.teslabel.be自体はまっとうなサイトっぽいので、ハッキングによる埋め込みですかね。
http://www.teslabel.be自体はまっとうなサイトっぽいので、ハッキングによる埋め込みですかね。
でも、URLを直打ちしたり、GooglebotUAで訪問するとパッチワークスパムが出る。
これ書いてて見つけた、転送先一覧。
■これってスパム?
もちろん。
ここらへんの全部盛り。当然、Googleの検索結果からはすぐに消える。
- コンテンツの自動生成
- オリジナルのコンテンツがほとんどまたはまったく存在しないページの作成
- クローキング
- 不正なリダイレクト
- 誘導ページ
- コンテンツの無断複製
- ページへのコンテンツに関係のないキーワードの詰め込み
- フィッシングや、ウイルス、トロイの木馬、その他のマルウェアのインストールといった悪意のある動作を伴うページの作成
■どんな仕組み?
多分、Churn&Burnの変種。
Churn&Burnを雑に言うと、大量・低コストのスパムページを燃料として使いつぶして、収益化ページに人を流す手法。要は元気玉。
燃料スパムは低コストで量産できるので、ペナルティ受けても使い捨てにできる。
古典的なChurn&Burnは「燃料からの評価シグナルを集めて、収益化ページを上位表示させて、検索流入を集める」という手法。
現在のパッチワークスパムは「燃料を上位表示させて、検索ユーザーを集めて、収益化ページに飛ばす」。
ユーザーを集める経路に違いがあります。
この構成の利点は以下の通り。
① 耐久力が高い
・ 収益化サイトである偽ECがGoogleに手動対策されても、何も痛くない。
・ 燃料のパッチワークスパムがGoogleに手動対策されても、ほとんど痛くない。
② 低コスト化
・ パッチワークスパムのコンテンツ生産は自動化・量産可能。
・ パッチワークスパムの掲載先も、低価格のドメイン買い付けやハッキングの効率化でコスト低減可能
・ 収益化サイトである偽ECは1つあれば十分。その分コストをかけて、しっかり作れる。
■採算とれるの?
パッチワークスパムに検索流入とかないだろうし、すぐに消えちゃうわけだし…
おそらく流入があり、採算が取れている。
このフィルタが適用されると検索結果が数十件~100件前後に絞られるので、今までは検索結果の最下層に追いやられていた低品質なスパムが、ユーザの目に触れちゃうことがあります。
その結果、「商品名」「ブランド×カテゴリ」等の市場が大きいキーワードで、インデックス削除されるまでの短い間ではあるがパッチワークスパムが10ページ以内を取れることがあるので。
「シャネル お買い得」の3ページ目。
上は偽ECで、下のnavratanindiaがパッチワークスパム。
リンクを踏むと、偽ECに飛ばされる。
「プラダ 財布 メンズ」の2ページ目下部。
2つのパッチワークスパムがランクインしており、下のSplendixは偽ECへの転送も生きている。
ユーザーの「大手サイトだとちょっと高いから、隠れたお買い得サイトないかな…」という心に付け込めるのがポイント。
偽ECの構成にも「極端な値引きはしない」「サイトの外形・連絡先・規約を整える」など、そうしたユーザーに買わせるための工夫が見て取れます。
一個のパッチワークスパムは数日で消えますが、消えたら代わりのパッチワークスパムが出てくるだけ。
偽ECへの転送流入は途切れにくく、採算も合うんじゃないでしょうか。
■根絶する方法は?
ハッキングスパム対策フィルタを調整して、パッチワークスパムが目に触れる機会を減らすのが一番かと。
フィルタを適用すると上から順に
① まっとうなFM-MMページ
② Google Books(SM-FailsM)
③ まっとうなSM-FailsMページ(ごく少数)
⓸ スパム
という構成になることが多い。
「②以下をデフォルト表示しなくする」というのが、一番現実的な気がします。
あとは①の部分を拡大するとか、ブラウザ側で対処するとか。
手動・自動での評価が効きにくいのが悩ましいところですね。
偽EC本体に対策しても、痛くもかゆくもない。
パッチワークスパムに対策しようにも「Googleにインデックスされた時点で、ほぼ役目を果たしている」ため、効果が薄い。
がんばれぐっぐるさん!
2016年9月16日金曜日
ペンギン小ネタ
「ペンギンの日取り決まったの?」
「実施されたの?」
って質問をいくつかいただいたので。
元になってるっぽいのが、毎度おなじみGaryさんのこのツイート。
「Any date for Penguin?」
「Yes.」
…まあ
「ペンギンの実施日程決まった?」
「はい」
と解釈できなくもない。
でも、実際の意味はもっと言葉遊びっぽいものじゃないかと。こんな感じの。
「ペンギンが実施される日ってあるの?」
「あるよ!」
どっちの解釈が正しいかはGaryさんだけしか知らないでしょうが、おそらく後者じゃないかな?
話の流れを追っててもそうだし、何よりこのツイートにGaryさん自身がいいね押してますし。
「Garyは”スケジュールが決まった”などとは一言も言ってない。単に”実施する日がある”と言ってるだけだ。いつかは実施するだろうし、その日には○月×日といった日付はあるはずだよね:)」
むーさんの発言とか見てると進展はしているようですが、あまり気にしないのが一番かと。
「実施されたの?」
って質問をいくつかいただいたので。
元になってるっぽいのが、毎度おなじみGaryさんのこのツイート。
「Any date for Penguin?」
「Yes.」
…まあ
「ペンギンの実施日程決まった?」
「はい」
と解釈できなくもない。
でも、実際の意味はもっと言葉遊びっぽいものじゃないかと。こんな感じの。
「ペンギンが実施される日ってあるの?」
「あるよ!」
どっちの解釈が正しいかはGaryさんだけしか知らないでしょうが、おそらく後者じゃないかな?
話の流れを追っててもそうだし、何よりこのツイートにGaryさん自身がいいね押してますし。
「Garyは”スケジュールが決まった”などとは一言も言ってない。単に”実施する日がある”と言ってるだけだ。いつかは実施するだろうし、その日には○月×日といった日付はあるはずだよね:)」
むーさんの発言とか見てると進展はしているようですが、あまり気にしないのが一番かと。
2016年8月15日月曜日
キーワードプランナーの仕様変更 ※画像多いので注意
広告主よりもSEOやらウェブマーケの人の需要のほうが多いんじゃ…
というぐらいに、いろんな人がいろんな使い方をしてるキーワードプランナー様。
たまに「無課金には使わせてやんねー!」というメッセージを間違って表示したりもする、ちょっとお茶目なツールです。
最近アップデートでいろいろ仕様が変わったのでメモ。
① 検索ボリュームがとても大雑把になることがある。
普通だと検索ボリュームは有効数字3桁で返してくれますよね。こんな感じ。
先週末から検索ボリュームが「1万―10万」みたいな大雑把な数値しか出ない、という例がちらほらあり、そしてこれが仕様です、との公式発表がありました。
発表内容は以下の通り。
① 大半の広告主は、今まで通りの検索ボリュームを取得可能だよ。
② 月次運用額の少ないアカウントだと、「1万―10万」みたいな大雑把な数しか取れないことがあるよ。
③ 月次運用額が少ないアカウントだと、クエリの数が一定数超えると、そのあとは大雑把な数しか取れなくなることがあるよ。特にAPI使ってる場合は注意。
⓸ 「トラフィックの予測」データには影響ないよ。
「無課金には使わせてやんねー!」は伊達ではなかった orz
…いえ無課金でも使えないわけではないのですが、「1万―10万」とかの粒度ではねえ…
現時点では②・③ともに100%適用されているわけではない様子。
私の無課金アカウントでも普通に検索ボリューム取れているので。
ただ、今後いつ取れなくなってもおかしくないので対応は早めに考えておかないと。
あとSearch Engine Roundtable記事のタイトルが秀逸。
「Google Keyword Planner Removes Valuable Data For Potential Advertisers」
発表内容は以下の通り。
① 大半の広告主は、今まで通りの検索ボリュームを取得可能だよ。
② 月次運用額の少ないアカウントだと、「1万―10万」みたいな大雑把な数しか取れないことがあるよ。
③ 月次運用額が少ないアカウントだと、クエリの数が一定数超えると、そのあとは大雑把な数しか取れなくなることがあるよ。特にAPI使ってる場合は注意。
⓸ 「トラフィックの予測」データには影響ないよ。
「無課金には使わせてやんねー!」は伊達ではなかった orz
…いえ無課金でも使えないわけではないのですが、「1万―10万」とかの粒度ではねえ…
現時点では②・③ともに100%適用されているわけではない様子。
私の無課金アカウントでも普通に検索ボリューム取れているので。
ただ、今後いつ取れなくなってもおかしくないので対応は早めに考えておかないと。
あとSearch Engine Roundtable記事のタイトルが秀逸。
「Google Keyword Planner Removes Valuable Data For Potential Advertisers」
② 表記ゆれキーワードの検索数を合算することがある。しないこともある。
これは6月末くらいから。
例えば「差し引き」「差引」「差引き」の場合。
例えば「差し引き」「差引」「差引き」の場合。
「差し引き」と…
「差引」は全く同じ検索数を表示するように。
以前はそれぞれ完全一致のデータを出してくれてたのですが。
厄介なのは、全部の表記ゆれが統合されてるとは限らない点。
「差引き」だと別のデータが出る。
さらに、これが「差引き」完全一致だけのデータなのか、ほかの表記ゆれ含むデータなのかはGoogle神のみぞ知る。
英語だと表記ゆれは単数形・複数形・略語あたりで見当つけやすいのですが、日本語だと送り仮名の有無や漢字の有無でパターンがやたら多いのが厄介です。
2016年7月28日木曜日
HTTPSに移行するときのコツ
これの抄訳。
HTTPSに移行するときのコツです。
ちょっとだけ追記(07/30)
Q7のTTLがmax-ageに記載変更されてたので反映。
Google先生ったら几帳面
=========================
HTTPSに移行するときのコツです。
ちょっとだけ追記(07/30)
Q7のTTLがmax-ageに記載変更されてたので反映。
Google先生ったら几帳面
=========================
■移行テストについて
Q1:
HTTPSに移行する場合、サイト全体を一度に移行したほうがいい?それとも少しずつのほうがいい?
A:
まずは一部でテストして、検索流入やインデックスへの影響を見たほうがいい。
また、テストでうまくいったからといって、いきなり対象範囲を広げすぎると問題が発生することもあります。
計画は綿密に。
計画は綿密に。
Q2:
テスト期間はどのくらいがいいかな?
A:
数週間くらい。
クロールして、インデックスして、トラフィックへの影響を確認して…という流れなので、そのくらいの時間が必要。
Q3:
テスト中はHTTPS版がインデックスされるのを避けたい(HTTP版をインデックスしてほしい)という場合、リダイレクトとカノニカルどちらで対応したほうがいい?
A:
カノニカル推奨。
リダイレクトしてしまうと、そもそもテストにならない。
■XMLサイトマップについて
Q4:
robots.txt内で、HTTP版のURLを掲載したXMLサイトマップのURLを記載している。
HTTPS版のXMLサイトマップも、robots.txt内に記載しておいたほうがいい?
A:
まず、HTTP版のサイトとHTTPS版のサイトそれぞに、固有のrobots.txtを置くこと。
その上で、HTTPのrobots.txtにはHTTPのXMLサイトマップを、HTTPSのrobots.txtにはHTTPSのXMLサイトマップを記載する。
また、一つのURLが複数のXMLサイトマップに掲載されないように注意しよう。
Q5:
移行テストする場合、テスト用HTTPSページのURLはどのXMLサイトマップに掲載するといい?
A:
テスト用ページだけを掲載した、専用のXMLサイトマップを作るといい。
インデックス状況が正確に把握できるようになる。
Q6:
HTTPS版のrobots.txtについて、上記の点以外で何か注意すべきことはある?
A:
ない。
Q7:
一部のページだけをHTTPSに対応させた。
「対応していないページのHTTPS版からHTTP版にリダイレクトしている」
「対応しているページのHTTP版からHTTPS版にリダイレクトしている」
などの場合、サイトマップにはどのURLを記載するべき?。
A:
① 「HTTPのXMLサイトマップには、HTTPのURL」
② 「HTTPSのXMLサイトマップには、HTTPSのURL」
転送は気にせず、上記2点を守れば大丈夫。
■HSTSについて
Q8:
HSTSヘッダにincludeSubDomainsを設定した場合、影響範囲はどのドメインまで?
A:
たとえばwww.example.comの場合はこうなる。
影響する:
www.example.com
foo.www.example.com
影響しない:
example.com (サブドメインではない)
foo.example.com (www.example.com自体のサブドメインではない)
HSTSを設定してしまうとロールバックが難しくなるので、以下の手順を推奨する。
1.
HTTPS版を公開するが、HSTSは設定しない。
2.
TTL→max-ageを短く設定して、HSTSヘッダの送信を開始する。ユーザーや他クライアントからのトラフィック・広告などの関連要素を測定する。
3.
HSTSのTTL→max-ageを徐々に伸ばす。
ユーザー・検索エンジンに対して、HSTSによる悪影響がないことが確認できたら、ChromeのHSTS preload listに追加することもできる。
■ニュースメディア用
Q9:
現在、サイト全体で単一のGoogleニュースサイトマップを利用している。
サイトの一部でHTTPS移行テストを行うが、その場合どう対処すべき?
A:
GoogleニュースサイトマップにHTTPSページのURLの掲載を開始する場合、以下の手順で。
① Googleニュースチームに「プロトコル変更します」と連絡
② サーチコンソールのHTTPS版プロパティから、HTTPS版ページを掲載したGoogleニュースサイトマップを提出
Q10:
HTTPS対応する場合、Google ニュース パブリッシャー センターで何かするべきことはある?
A:
原則的には何もしなくて大丈夫。
ただしニュースサイトマップを利用する場合はGoogleニュースチームに連絡する。
「サイト内のこのセクションだけHTTPSに代わるけど、他はHTTPのまま」のように、一部セクションしか変更しない点を伝えることもできる。
登録:
コメント (Atom)


















