2017年2月18日土曜日

ECサイト+αのコピースパム考察

「見覚えのないドメインから、変なリンクが大量に付く」
「クロールエラーが大量発生して怖い」
等のお悩みを最近よく見かけます。
例えばこんな感じ(魚拓)

フォーラムでも   のご相談が。

「どう対処すればいいの?」
「リファラスパムにしては、URLを開いても、コピーページが表示されるだけで転送されない。」
「不自然リンクにしては、不審なサイトへの外部リンクもない。」
「なんでこんなことするのか、意図が読めない」
というお問い合わせが多いので、対処法・目的・背景など考えてみました。ご参考までにどうぞ。

あと話の性質上、怪しげなサイトへのリンクが大量にあります。
↓のようなマークを振っておいたので、踏むときは自己責任でおねがい。
!!!危ないURL.com!!!

■なんでこんなことが起きるの?
原因は「ECサイト+適当なサイト」でつぎはぎしたページを大量に作成するスパム。
具体的にはこんな感じ(魚拓)のページ。
ECサイト+適当なサイト」のつぎはぎで作ってることが多いので、便宜的にパッチワークスパムと呼びます。

■対処法は?
リンクは「気になるなら否認リストに入れて放置」でOK

クロールエラーは原則無視。
例外として「サーバー負荷増大で503が出たり、大切なページのインデックスが滞ったりしてるようなら、HTTPレスポンスの設定やパラ制御で対処」でOKかと。

■パッチワークスパムの作り方
ECサイト+適当なサイト」をスクレープして、ツールでつなぎ合わせてページ作成
適当な安いドメインに載せるか、ハッキングしたサイトに埋め込む。

上のこれ(魚拓)の場合、ジョブセンスさんと楽天さんっぽい。

■なんでこんなページ作るの?
「検索流入を取る」のが目的。

「リファラ―スパムじゃないか」「検索順位を奪い取るのが目的じゃないか」という主張も散見します。
「リファラ―スパム」→実態のないサイト・価値のないドメイン使ってる。直接訪問で転送されない。
「検索順位を奪い取る」→こんな雑な仕組みでだまされるほど、Googleさんもアホじゃない
といった点で、上記のスパムとは目的が違うかと。

■このページに流入させて意味あるの?
ない。そもそもこのページ自体に流入させる気が無い。

■矛盾してない?
細かく言うと、「検索結果にURLを載せて、他の偽ECサイトなどに転送する」のが目的。

!!!このページ !!!がわかりやすい。

「直接URLを入力&一般ユーザー」だとパッチワークをそのまま見せたり、エラーを見せたり。
ウェブマスターや解析やってる人はこのルートで確認しにくることが多い。
なので「なんでやってるんだろう…」「リファラスパム?」などと考えがち。

パッチワークスパム(直接訪問&一般UA)


Googlebotには経路を問わず、パッチワークスパムを表示。Googleにパッチワークスパム内の情報を拾わせる。
パッチワークスパム(Googlebot UA)


そしてここが肝。
Google経由で訪問したとき&一般ユーザー」には、別の偽ECサイトに転送。
パッチワークスパム(検索経由&一般UA)


試したいという方は、「 “bt05-xp10-super-165 site:http://www.teslabel.be」で検索してみましょう。
http://www.teslabel.be自体はまっとうなサイトっぽいので、ハッキングによる埋め込みですかね。

検索経由の一般ユーザーは!!!このサイト!!!に転送。
でも、URLを直打ちしたり、GooglebotUAで訪問するとパッチワークスパムが出る。

これ書いてて見つけた、転送先一覧。
!!!http://www.venne-store.top/!!!
!!!http://www.elestone.pro/!!!
!!!http://www.latte-net.cc/!!!
!!!http://www.kapsps.xyz/!!!
!!!http://www.cnsgyu.top!!!
!!!http://0201v.com/!!!

■これってスパム?
もちろん。
ここらへんの全部盛り。当然、Googleの検索結果からはすぐに消える。


■どんな仕組み?
多分、ChurnBurnの変種。

ChurnBurnを雑に言うと、大量・低コストのスパムページを燃料として使いつぶして、収益化ページに人を流す手法。要は元気玉。



燃料スパムは低コストで量産できるので、ペナルティ受けても使い捨てにできる。



古典的なChurn&Burnは「燃料からの評価シグナルを集めて、収益化ページを上位表示させて、検索流入を集める」という手法。


現在のパッチワークスパムは「燃料を上位表示させて、検索ユーザーを集めて、収益化ページに飛ばす」。
ユーザーを集める経路に違いがあります。




 この構成の利点は以下の通り。

① 耐久力が高い
・ 収益化サイトである偽ECがGoogleに手動対策されても、何も痛くない。
・ 燃料のパッチワークスパムがGoogleに手動対策されても、ほとんど痛くない。

② 低コスト化 
・ パッチワークスパムのコンテンツ生産は自動化・量産可能。
・ パッチワークスパムの掲載先も、低価格のドメイン買い付けやハッキングの効率化でコスト低減可能
・ 収益化サイトである偽ECは1つあれば十分。その分コストをかけて、しっかり作れる。

■採算とれるの?
パッチワークスパムに検索流入とかないだろうし、すぐに消えちゃうわけだし…
おそらく流入があり、採算が取れている。
皮肉なことに、この手のスパム対策として導入したハッキングスパム対策フィルタのおかげ。

このフィルタが適用されると検索結果が数十件~100件前後に絞られるので、今までは検索結果の最下層に追いやられていた低品質なスパムが、ユーザの目に触れちゃうことがあります。 
その結果、「商品名」「ブランド×カテゴリ」等の市場が大きいキーワードで、インデックス削除されるまでの短い間ではあるがパッチワークスパムが10ページ以内を取れることがあるので。

「シャネル お買い得」の3ページ目。
上は偽ECで、下のnavratanindiaがパッチワークスパム。
リンクを踏むと、偽ECに飛ばされる。


「プラダ 財布 メンズ」の2ページ目下部。
2つのパッチワークスパムがランクインしており、下のSplendixは偽ECへの転送も生きている。

ユーザーの「大手サイトだとちょっと高いから、隠れたお買い得サイトないかな…」という心に付け込めるのがポイント。
偽ECの構成にも「極端な値引きはしない」「サイトの外形・連絡先・規約を整える」など、そうしたユーザーに買わせるための工夫が見て取れます。

一個のパッチワークスパムは数日で消えますが、消えたら代わりのパッチワークスパムが出てくるだけ。
偽ECへの転送流入は途切れにくく、採算も合うんじゃないでしょうか。


■根絶する方法は?
ハッキングスパム対策フィルタを調整して、パッチワークスパムが目に触れる機会を減らすのが一番かと。

フィルタを適用すると上から順に
 ① まっとうなFM-MMページ
 ② Google Books(SM-FailsM)
 ③ まっとうなSM-FailsMページ(ごく少数)
 ⓸ スパム
という構成になることが多い。

「②以下をデフォルト表示しなくする」というのが、一番現実的な気がします。
あとは①の部分を拡大するとか、ブラウザ側で対処するとか。

手動・自動での評価が効きにくいのが悩ましいところですね。
偽EC本体に対策しても、痛くもかゆくもない。
パッチワークスパムに対策しようにも「Googleにインデックスされた時点で、ほぼ役目を果たしている」ため、効果が薄い。

がんばれぐっぐるさん!