Продолжаем бороться со спамом в Google Analytics 27


Эта статья для тех, кто встретил в отчетах Google Analytics в источниках трафика всплеск активности переходов с доменов ilovevitaly.xyz, с.новым.годом.рф, ghostvisitor.com и других (см. полный список ниже).

В одной из прошлых статей «Реальный трафик или как сделать Google Analytics точнее» я рассказывал как очистить статистику Google Analytics от фейковых источников трафика. Все бы хорошо и метод отлично работает против Ghost Spam. Но есть еще одна разновидность спама, которую таким способом не обойти. Сегодня будем вычищать Google Analytics от Crawler Spam. Делать это будем с помощью исключающего фильтра.

Для начала я приведу список с популярными и активными в последнее время доменами, которые мы и будем блокировать. Вот он:

ghostvisitor.com
magicdiet.gq
cookie-law-enforcement.xyz
burn-fat.ga
popads.net
link.web-list.xyz
monetizationking.net
ownshop.cf
eu-cookie-law-enforcement.xyz
getlamborghini.ga
topquality.cf
marketland.ml
unpredictable.ga
website-stealer-warning-alert.hdmoviecams.com
smartphonediscount.info
rank-checker.online
makeprogress.ga
free-video-tool.com
socialbuttons.xyz
fuck-paid-share-buttons.xyz
яндех-херня.рф
adtiger.tk
uptime.com
responsive-test.net
китай.с.новым.годом.рф
maps.ilovevitaly.com
free-traffic.xyz
social-widget.xyz
forum.topic.6hopping.com
keywords-monitoring-your-success.com
m-google.xyz
why.does.spacebarnot.work
net-profits.xyz
traffic-cash.xyz
share-buttons.xyz
с.новым.годом.рф
website-analyzer.info
trafficgenius.xyz
traffic2cash.xyz
getrichquick.ml

Последнее обновление таблицы: 01.06.2016




Внимание: список буду дополнять, при появлении новых доменов, поэтому заходите иногда на эту страницу, чтобы вовремя реагировать на ситуацию и дополнять фильтр. Если вы столкнулись с Crawler Spam доменами, которых нет в этом списке, пожалуйста, пишите их в комментариях, буду дополнять таблицу.

Особенность Crawler Spam

И снова немного теории. Долгое время Crawler Spam работал по аналогии с Ghost Spam и после создания включающего фильтра по имени хоста оба спамера блокировались. Но враги не дремлют и со временем эволюционируют. Проблема, которая стала поводом написать эту статью заключается в том, что с недавнего времени Crawler Spam научился подставлять нужные имена хостов при отсылки данных напрямую в Google Analytics. Вот почему, фильтр описанный в предыдущей статье не может бороться с Crawler Spam. И вот почему мы создадим еще один фильтр, который позволит нашему Аналитиксу игнорировать врага.

В отличии от прошлого раза, в этот раз фильтр будет исключающий. Фильтр имеет довольно длинное регулярное выражение и может показаться сложным, но на самом деле это не так. Это просто перечисление всех популярных имен Ghost Spam.

Итак, переходим в админку, выбираем нужный аккаунт, ресурс и представление. Далее «Добавить фильтр». Пишем название, например «Crawler Spam».
Тип фильтра: пользовательский,
Поле фильтра: источник кампании
Шаблон фильтра:
(best|dollar|ess|top1)\-seo|(videos|buttons)\-for|^scripted\.|\-gratis|semalt|forum69|7make|sharebutton|ranksonic|sitevaluation|dailyrank|vitaly|profit\.xyz|rankings\-|\-crew|uptime(bot|check|\.com)|responsive\-|tkpass|video\-tool|keywords\-monitoring

Фильтр Crawler Spam

Вполне может быть, что вашего Crawler Spam в списке нет, тогда просто добавьте его по аналогии. На всякий случай напишу и здесь подсказку о том как использовать регулярные выражения:

  • Для разделения хостов следует использовать вертикальную черту |, обозначающую логическое «или»
  • Не забудьте экранировать точки и дефисы обратным слэшем \.
  • Если в вашем списке доменов присутствует несколько поддоменов, нет необходимости перечислять их все. Просто укажите второй уровень домена. В моем примере, если бы мне пришлось указать два домена, например vash-webmaster.ru и subdomain.vash-webmaster.ru, достаточно было бы указать в регулярном выражении vash-webmaster\.ru
  • Не используйте пробелов.
  • Поле для регулярного выражения предусматривает не более 255 символов. Вы должны уместить ваше регулярное выражение в это количество знаков. Google Analytics не позволит вам создать более одного включающего фильтра для одного параметра (hostname).
  • Не добавляйте вертикальную черту в начале или в конце регулярного выражения.

Далее жмем на ссылку «проверить фильтр» и если все было сделано правильно, вы увидите примерно такие записи в левой части таблицы. Жмем «Сохранить». Фильтр начнет работать в течение 24 часов.

Фильтр Crawler Spam

Данные, который уже проникли в Google Analytics, останутся в нем, поэтому реагировать на появление новых Crawler Spam доменов нужно быстро. Регулярно проверяйте источник входящего трафика Referral и при резком скачке трафика с какого-то подозрительного домена вносите изменения в фильтр. Это позволит вам получать корректную статистику.

Обязательно прочитайте стать о том как бороться с Ghost spam.


Оставьте комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

27 мыслей про “Продолжаем бороться со спамом в Google Analytics

    • admin От автора

      Возможно ошибка при вводе регулярного выражения. Например, при копировании с сайта скопировались пробелы. Пробелов быть не должно. Скопируйте сначала в блокнот, проверьте на пробелы и потом добавляйте в фильтр. Еще причина возможно в том, что в регулярном выражении нет того имени домена, который прописался на вашем сайте. Тогда фильтр просто не будет работать. Уточните этот момент. Еще такую ошибку можно увидеть если вы нажали кнопку «Проверить фильтр» несколько раз.

  • KPOTOB

    Регулярка сильно не верна — достаточно регексптестером на список доменов «стукнуть». Да это и глазами видно — ghostvisitor ни каким боком нету в регулярке

    • admin От автора

      Так регулярка не охватывает весь список доменов, тем более регулярка в фильтре не может быть более 255 знаков, а в этой строке и так 252 символа. ghostvisitor.com в данном случае не учитывается, так как я боролся с другими доменами. Если ваш Spam Crawler это ghostvisitor.com, просто добавьте его в регулярку, а лишнее удалите. В моем случае регулярка работает отлично.

  • Алина

    Простите, но это способ как скрыть статистику, а как сделать так, чтобы этих фэйковых заходов не было вообще? Как убрать свой сайт от них? Или их от своего сайта?

    • admin От автора

      Алина, никак не сделать. Таковы сегодняшние реалии, это спам и вы не можете сказать спамерам не трогать ваш сайт. Ну или пользуйтесь Яндекс Метрикой, там пока не замечал такого спама.

        • admin От автора

          Да, Владимир, вы правы. У себя тоже нашел, а раньше не было. Но на аналитиксе у меня чистая статистика с момента внедрения фильтров. Так что рекомендую.

    • admin От автора

      chostvisitor.com — не зарегистрированный домен. Если вы про ghostvisitor.com, то он есть в списке доменов, относящихся к Crawler Spam. Создайте исключающий фильтр, как показано на этой странице и не забудьте включающий фильтр, направленный против Ghost Spam.

    • admin От автора

      Гуля, вы про что? Я не очень понял? Если вы про добавление фильтра в Гугл Аналитикс, то вот путь: Google Analytics -> Выбираем аккаунт -> Выбираем ресурс -> Выбираем Фильтры в нужном представлении -> Добавить фильтр -> Создать новый фильтр (указываем имя) -> Тип фильтра: пользовательский…

  • Иван

    Как настроить аналогичный фильтр в яндекс-метрике? Есть аналогичная инструкция?

    • admin От автора

      Иван, к сожалению, у Яндекс Метрики нет возможности создать фильтры по имени хоста. Я общался с поддержкой метрики по этому вопросу. Сказали что на данным момент способа борьбы с Ghost Spam и Crawler Spam в Метрике нет, и что мое пожелание учтено и будет передано разработчикам.

    • Мария

      Получается для него будет cookie-love\.xyz
      ?
      Меня смущает www1, откуда тут 1? Ее нужно как-то учитывать?

      • Мария

        И еще один вопрос. Мне не совсем понятно откуда что берется при составлении шаблона фильтра.
        Вот, например, у меня список спамщиков доменов
        eizudcf.br
        hdippbgfe.eu
        odypkc.br
        oiaitzoq.ru
        qhrwfdtn.us
        rmfxodkk.us
        sjdlxpz.net
        vlrzbq.cn
        Шаблон будет выглядеть так? (eizudcf|hdippbgfe|odypkc|oiaitzoq|qhrwfdtn|rmfxodkk|sjdlxpz|vlrzbq)\.(br|eu|ru|us|net|cn)

      • admin От автора

        www1 — это просто поддомен 3-го уровня. Тут может быть что угодно: и www1, и www547, и wgjskwl124 — любое сочетание букв и цифр. www1.cookie-law.xyz и cookie-law.xyz нужно воспринимать как совершенно разные сайты.