Продолжаем бороться со спамом в Google Analytics
Эта статья для тех, кто встретил в отчетах Google Analytics в источниках трафика всплеск активности переходов с доменов ilovevitaly.xyz, с.новым.годом.рф, ghostvisitor.com и других (см. полный список ниже).
В одной из прошлых статей «Реальный трафик или как сделать Google Analytics точнее» я рассказывал как очистить статистику Google Analytics от фейковых источников трафика. Все бы хорошо и метод отлично работает против Ghost Spam. Но есть еще одна разновидность спама, которую таким способом не обойти. Сегодня будем вычищать Google Analytics от Crawler Spam. Делать это будем с помощью исключающего фильтра.
Для начала я приведу список с популярными и активными в последнее время доменами, которые мы и будем блокировать. Вот он:
ghostvisitor.com magicdiet.gq cookie-law-enforcement.xyz burn-fat.ga popads.net link.web-list.xyz monetizationking.net ownshop.cf eu-cookie-law-enforcement.xyz getlamborghini.ga |
topquality.cf marketland.ml unpredictable.ga website-stealer-warning-alert.hdmoviecams.com smartphonediscount.info rank-checker.online makeprogress.ga free-video-tool.com socialbuttons.xyz fuck-paid-share-buttons.xyz яндех-херня.рф |
adtiger.tk uptime.com responsive-test.net китай.с.новым.годом.рф maps.ilovevitaly.com free-traffic.xyz social-widget.xyz forum.topic.6hopping.com keywords-monitoring-your-success.com m-google.xyz why.does.spacebarnot.work |
net-profits.xyz traffic-cash.xyz share-buttons.xyz с.новым.годом.рф website-analyzer.info trafficgenius.xyz traffic2cash.xyz getrichquick.ml |
Последнее обновление таблицы: 01.06.2016
Внимание: список буду дополнять, при появлении новых доменов, поэтому заходите иногда на эту страницу, чтобы вовремя реагировать на ситуацию и дополнять фильтр. Если вы столкнулись с Crawler Spam доменами, которых нет в этом списке, пожалуйста, пишите их в комментариях, буду дополнять таблицу.
Особенность Crawler Spam
И снова немного теории. Долгое время Crawler Spam работал по аналогии с Ghost Spam и после создания включающего фильтра по имени хоста оба спамера блокировались. Но враги не дремлют и со временем эволюционируют. Проблема, которая стала поводом написать эту статью заключается в том, что с недавнего времени Crawler Spam научился подставлять нужные имена хостов при отсылки данных напрямую в Google Analytics. Вот почему, фильтр описанный в предыдущей статье не может бороться с Crawler Spam. И вот почему мы создадим еще один фильтр, который позволит нашему Аналитиксу игнорировать врага.
В отличии от прошлого раза, в этот раз фильтр будет исключающий. Фильтр имеет довольно длинное регулярное выражение и может показаться сложным, но на самом деле это не так. Это просто перечисление всех популярных имен Ghost Spam.
Итак, переходим в админку, выбираем нужный аккаунт, ресурс и представление. Далее «Добавить фильтр». Пишем название, например «Crawler Spam».
Тип фильтра: пользовательский,
Поле фильтра: источник кампании
Шаблон фильтра:
(best|dollar|ess|top1)\-seo|(videos|buttons)\-for|^scripted\.|\-gratis|semalt|forum69|7make|sharebutton|ranksonic|sitevaluation|dailyrank|vitaly|profit\.xyz|rankings\-|\-crew|uptime(bot|check|\.com)|responsive\-|tkpass|video\-tool|keywords\-monitoring
Вполне может быть, что вашего Crawler Spam в списке нет, тогда просто добавьте его по аналогии. На всякий случай напишу и здесь подсказку о том как использовать регулярные выражения:
- Для разделения хостов следует использовать вертикальную черту |, обозначающую логическое «или»
- Не забудьте экранировать точки и дефисы обратным слэшем \.
- Если в вашем списке доменов присутствует несколько поддоменов, нет необходимости перечислять их все. Просто укажите второй уровень домена. В моем примере, если бы мне пришлось указать два домена, например vash-webmaster.ru и subdomain.vash-webmaster.ru, достаточно было бы указать в регулярном выражении vash-webmaster\.ru
- Не используйте пробелов.
- Поле для регулярного выражения предусматривает не более 255 символов. Вы должны уместить ваше регулярное выражение в это количество знаков. Google Analytics не позволит вам создать более одного включающего фильтра для одного параметра (hostname).
- Не добавляйте вертикальную черту в начале или в конце регулярного выражения.
Далее жмем на ссылку «проверить фильтр» и если все было сделано правильно, вы увидите примерно такие записи в левой части таблицы. Жмем «Сохранить». Фильтр начнет работать в течение 24 часов.
Данные, который уже проникли в Google Analytics, останутся в нем, поэтому реагировать на появление новых Crawler Spam доменов нужно быстро. Регулярно проверяйте источник входящего трафика Referral и при резком скачке трафика с какого-то подозрительного домена вносите изменения в фильтр. Это позволит вам получать корректную статистику.
Обязательно прочитайте стать о том как бороться с Ghost spam.
Сделал все как написано, не получается скрин: http://joxi.ru/l2ZYNnJUOdnNmJ
Возможно ошибка при вводе регулярного выражения. Например, при копировании с сайта скопировались пробелы. Пробелов быть не должно. Скопируйте сначала в блокнот, проверьте на пробелы и потом добавляйте в фильтр. Еще причина возможно в том, что в регулярном выражении нет того имени домена, который прописался на вашем сайте. Тогда фильтр просто не будет работать. Уточните этот момент. Еще такую ошибку можно увидеть если вы нажали кнопку «Проверить фильтр» несколько раз.
Регулярка сильно не верна — достаточно регексптестером на список доменов «стукнуть». Да это и глазами видно — ghostvisitor ни каким боком нету в регулярке
Так регулярка не охватывает весь список доменов, тем более регулярка в фильтре не может быть более 255 знаков, а в этой строке и так 252 символа. ghostvisitor.com в данном случае не учитывается, так как я боролся с другими доменами. Если ваш Spam Crawler это ghostvisitor.com, просто добавьте его в регулярку, а лишнее удалите. В моем случае регулярка работает отлично.
Из приведенного списка регулярка только по одному домену попадает 😛
Простите, но это способ как скрыть статистику, а как сделать так, чтобы этих фэйковых заходов не было вообще? Как убрать свой сайт от них? Или их от своего сайта?
Алина, никак не сделать. Таковы сегодняшние реалии, это спам и вы не можете сказать спамерам не трогать ваш сайт. Ну или пользуйтесь Яндекс Метрикой, там пока не замечал такого спама.
Увы, и в Яндекс Метрике в последние дни этот спам присутствует…
Да, Владимир, вы правы. У себя тоже нашел, а раньше не было. Но на аналитиксе у меня чистая статистика с момента внедрения фильтров. Так что рекомендую.
Почему то на сайт заходят по фразе chostvisitor.com , что это значит?
chostvisitor.com — не зарегистрированный домен. Если вы про ghostvisitor.com, то он есть в списке доменов, относящихся к Crawler Spam. Создайте исключающий фильтр, как показано на этой странице и не забудьте включающий фильтр, направленный против Ghost Spam.
ilovevitaly.xyz
Спасибо, Анастасия. Этот домен относится к Ghost Spam. Сегодня как раз обновил список вредителей. Здесь.
Подскажите, мне (тугодумке) как вообще можно такую админку открыть?
Гуля, вы про что? Я не очень понял? Если вы про добавление фильтра в Гугл Аналитикс, то вот путь: Google Analytics -> Выбираем аккаунт -> Выбираем ресурс -> Выбираем Фильтры в нужном представлении -> Добавить фильтр -> Создать новый фильтр (указываем имя) -> Тип фильтра: пользовательский…
да, вы меня правильно поняли, спасибо большое!)
Для добавления в таблицу: ilovevitaly.xyz
Прошу прощения, не увидел, что уже добавили…
Как настроить аналогичный фильтр в яндекс-метрике? Есть аналогичная инструкция?
Иван, к сожалению, у Яндекс Метрики нет возможности создать фильтры по имени хоста. Я общался с поддержкой метрики по этому вопросу. Сказали что на данным момент способа борьбы с Ghost Spam и Crawler Spam в Метрике нет, и что мое пожелание учтено и будет передано разработчикам.
Благодарю за статью. Проблему решил
Вот еще site-auditor.online
Да, спасибо, добавлю.
Это тоже он?
www1.cookie-law.xyz
Получается для него будет cookie-love\.xyz
?
Меня смущает www1, откуда тут 1? Ее нужно как-то учитывать?
И еще один вопрос. Мне не совсем понятно откуда что берется при составлении шаблона фильтра.
Вот, например, у меня список спамщиков доменов
eizudcf.br
hdippbgfe.eu
odypkc.br
oiaitzoq.ru
qhrwfdtn.us
rmfxodkk.us
sjdlxpz.net
vlrzbq.cn
Шаблон будет выглядеть так? (eizudcf|hdippbgfe|odypkc|oiaitzoq|qhrwfdtn|rmfxodkk|sjdlxpz|vlrzbq)\.(br|eu|ru|us|net|cn)
www1 — это просто поддомен 3-го уровня. Тут может быть что угодно: и www1, и www547, и wgjskwl124 — любое сочетание букв и цифр. www1.cookie-law.xyz и cookie-law.xyz нужно воспринимать как совершенно разные сайты.
Всем привет!
Спасибо за статью, очень познавательно и доходчивао.
В Аналитике появились сайты
abc.xyz
thenextweb.com
44657644-1.compliance-fred.xyz
44657644-1.compliance-george.xyz
bukleteg.xyz
buketeg.xyz
biteg.xyz
brateg.xyz
alfabot.xyz
bezlimitko.xyz
boltalko.xyz
Сомнения есть по первым двум, относятся ли они к Ghost spam или нет?