Продолжаем бороться со спамом в Google Analytics

Эта статья для тех, кто встретил в отчетах Google Analytics в источниках трафика всплеск активности переходов с доменов ilovevitaly.xyz, с.новым.годом.рф, ghostvisitor.com и других (см. полный список ниже).

В одной из прошлых статей «Реальный трафик или как сделать Google Analytics точнее» я рассказывал как очистить статистику Google Analytics от фейковых источников трафика. Все бы хорошо и метод отлично работает против Ghost Spam. Но есть еще одна разновидность спама, которую таким способом не обойти. Сегодня будем вычищать Google Analytics от Crawler Spam. Делать это будем с помощью исключающего фильтра.



Для начала я приведу список с популярными и активными в последнее время доменами, которые мы и будем блокировать. Вот он:

ghostvisitor.com
magicdiet.gq
cookie-law-enforcement.xyz
burn-fat.ga
popads.net
link.web-list.xyz
monetizationking.net
ownshop.cf
eu-cookie-law-enforcement.xyz
getlamborghini.ga
topquality.cf
marketland.ml
unpredictable.ga
website-stealer-warning-alert.hdmoviecams.com
smartphonediscount.info
rank-checker.online
makeprogress.ga
free-video-tool.com
socialbuttons.xyz
fuck-paid-share-buttons.xyz
яндех-херня.рф
adtiger.tk
uptime.com
responsive-test.net
китай.с.новым.годом.рф
maps.ilovevitaly.com
free-traffic.xyz
social-widget.xyz
forum.topic.6hopping.com
keywords-monitoring-your-success.com
m-google.xyz
why.does.spacebarnot.work
net-profits.xyz
traffic-cash.xyz
share-buttons.xyz
с.новым.годом.рф
website-analyzer.info
trafficgenius.xyz
traffic2cash.xyz
getrichquick.ml

Последнее обновление таблицы: 01.06.2016




Внимание: список буду дополнять, при появлении новых доменов, поэтому заходите иногда на эту страницу, чтобы вовремя реагировать на ситуацию и дополнять фильтр. Если вы столкнулись с Crawler Spam доменами, которых нет в этом списке, пожалуйста, пишите их в комментариях, буду дополнять таблицу.

Особенность Crawler Spam

И снова немного теории. Долгое время Crawler Spam работал по аналогии с Ghost Spam и после создания включающего фильтра по имени хоста оба спамера блокировались. Но враги не дремлют и со временем эволюционируют. Проблема, которая стала поводом написать эту статью заключается в том, что с недавнего времени Crawler Spam научился подставлять нужные имена хостов при отсылки данных напрямую в Google Analytics. Вот почему, фильтр описанный в предыдущей статье не может бороться с Crawler Spam. И вот почему мы создадим еще один фильтр, который позволит нашему Аналитиксу игнорировать врага.



В отличии от прошлого раза, в этот раз фильтр будет исключающий. Фильтр имеет довольно длинное регулярное выражение и может показаться сложным, но на самом деле это не так. Это просто перечисление всех популярных имен Ghost Spam.

Итак, переходим в админку, выбираем нужный аккаунт, ресурс и представление. Далее «Добавить фильтр». Пишем название, например «Crawler Spam».
Тип фильтра: пользовательский,
Поле фильтра: источник кампании
Шаблон фильтра:
(best|dollar|ess|top1)\-seo|(videos|buttons)\-for|^scripted\.|\-gratis|semalt|forum69|7make|sharebutton|ranksonic|sitevaluation|dailyrank|vitaly|profit\.xyz|rankings\-|\-crew|uptime(bot|check|\.com)|responsive\-|tkpass|video\-tool|keywords\-monitoring

Фильтр Crawler Spam

Вполне может быть, что вашего Crawler Spam в списке нет, тогда просто добавьте его по аналогии. На всякий случай напишу и здесь подсказку о том как использовать регулярные выражения:

  • Для разделения хостов следует использовать вертикальную черту |, обозначающую логическое «или»
  • Не забудьте экранировать точки и дефисы обратным слэшем \.
  • Если в вашем списке доменов присутствует несколько поддоменов, нет необходимости перечислять их все. Просто укажите второй уровень домена. В моем примере, если бы мне пришлось указать два домена, например vash-webmaster.ru и subdomain.vash-webmaster.ru, достаточно было бы указать в регулярном выражении vash-webmaster\.ru
  • Не используйте пробелов.
  • Поле для регулярного выражения предусматривает не более 255 символов. Вы должны уместить ваше регулярное выражение в это количество знаков. Google Analytics не позволит вам создать более одного включающего фильтра для одного параметра (hostname).
  • Не добавляйте вертикальную черту в начале или в конце регулярного выражения.



Далее жмем на ссылку «проверить фильтр» и если все было сделано правильно, вы увидите примерно такие записи в левой части таблицы. Жмем «Сохранить». Фильтр начнет работать в течение 24 часов.

Фильтр Crawler Spam

Данные, который уже проникли в Google Analytics, останутся в нем, поэтому реагировать на появление новых Crawler Spam доменов нужно быстро. Регулярно проверяйте источник входящего трафика Referral и при резком скачке трафика с какого-то подозрительного домена вносите изменения в фильтр. Это позволит вам получать корректную статистику.

Обязательно прочитайте стать о том как бороться с Ghost spam.

Реальный трафик или как сделать Google Analytics точнее

Владельцы сайтов, которые пользуются системой Google Analytics и активно изучают статистику посещаемости, рано или поздно сталкиваются с проблемой фейкового трафика. Это когда резко возрастает трафик с других сайтов без видимых на то причин. Иногда такой всплеск носит временный характер, а иногда принимает хронический эффект. Для того чтобы локализовать такой трафик достаточно перейти в раздел Источники трафика -> Весь трафик -> Каналы -> Referral. Липовый трафик будет скрываться за одним из доменов в списке. Как правило, к моменту обнаружения негодяя с этого домена совершено уже достаточно много сеансов, поэтому ищите его в начале списка. В моем случае вражеский домен имеет имя rank-checker.online. Вот еще некоторые домены, обнаруженные на других моих сайтах, передающие липовый трафик:



0n-line.tv
100dollars-seo.com
12masterov.com
4webmasters.org
adf.ly/1SDmxr
adtiger.tk
adviceforum.info
alfa9.com
alibestsale.com
amanda-porn.ga
anal-acrobats.hol.es
best-seo-offer.com
best-seo-software.xyz
bestwebsitesawards.com
black-friday.ga
boost-my-site.com
build-a-better-business.2your.site
build-audience.for-your.website
burn-fat.ga
buy-cheap-online.info
cash4traffic.xyz
cenokos.ru
cenoval.ru
chinese-amezon.com
claim381811.copyrightclaims.org
cookie-law-enforcement-.xyz
copyrightclaims.org
cyber-monday.ga
dailyrank.net
darodar.com
dbutton.net
depositfiles-porn.ga
descargar-musica-gratis.net
dktr.ru
domain-tracker.com
dominateforex.ml
domination.ml
e-buyeasy.com
easycommerce.cf
econom.co
egovaleo.it
erot.co
eu cookie law eu-cookie-law.info
eu-cookie-law-enforcement-#.xyz
event-tracking.com
facebook-mobile.xyz
fast-wordpress-start.com
feedback.sharemyfile.ru
feedback.sharemyfile.ru
fix-website-errors.com
floating-share-buttons.com
forum.darodar.com
forum.smailik.org
forum.topic.6hopping.com
forum.topic123456.ilovevitaly.xyz
forum20.smailik.org
forum69.info
free-floating-buttons.com
free-share-buttons.com
free-share-buttons.xyz
free-social-buttons-.xyz
free-social-buttons.com
free-social-buttons.xyz
free-social-buttons#.xyz
free-traffic.xyz
free-video-tool.com
fuck-paid-share-buttons.xyz
generalporn.org
get-free-social-traffic.com
get-free-traffic-now.com
get-your-social-buttons.info
getlamborghini.ga
getrichquick.ml
getrichquickly.info
ghostvisitor.com
go.ekatalog.xyz
go.ekatalog.xyz
googlemare.com
googlsucks.com
guardlink.org
happy.new.yeartwit.com
hdmoviecamera.net
hongfanji.com
hosting-tracker.com
how-to-earn-quick-money.com
how.to.travel…ilovevitaly.com
howtostopreferralspam.eu
hulfingtonpost.com
humanorightswatch.org
iedit.ilovevitaly.com
ilikevitaly.com
iloveitaly.ro
iloveitaly.ru
ilovevitaly.co
ilovevitaly.com
ilovevitaly.com
ilovevitaly.info
ilovevitaly.org
ilovevitaly.ru
increasewwwtraffic.info
iskalko.ru
kabbalah-red-bracelets.com
kambasoft.com
law-enforcement-.xyz
law-enforcement-bot-.xyz
law-enforcement-check-.xyz
link.web-list.xyz
lomb.co
lombia.co
lombia.com
lsex.xyz
lumb.co
m-google.xyz
magicdiet.gq
make-money-online.7makemoneyonline.com
makeprogress.ga
maps.ilovevitaly.com
marketland.ml
meendo-free-traffic.ga
monetizationking.net
naturehelps.me
net-profits.xyz
new-look.for-your.website
nufaq.com
o-o-6-o-o.com
o-o-6-o-o.ru
o-o-8-o-o.com
o-o-8-o-o.ru
onlinetvseries.me
onlinetvseries.me
ownshop.cf
popads.net
pops.foundation
pornhub-forum.uni.me pornhub-forum.ga
priceg.com pornhub-ru.com
qualitymarketzone.com
quit-smoking.ga
rank-checker.online
ranksonic.com
ranksonic.info
ranksonic.net
ranksonic.org
rapidgator-porn.ga
rednise.com
resellerclub
resellerclub scam
resellerclub.com
rusexy.xyz
s.click.aliexpress.com/e/ay3rfmzfi
sanjosestartups.com
santasgift.ml
satellite.maps.ilovevitaly.com
see-your-website-here.com
seo-platform.com
sexyali.com
share buttons sharebutton.org
share buttons www.get-free-social-traffic.com
share-button.xyz
share-buttons.xyz
sharebutton.net
sharebutton.to
shopping.ilovevitaly.com
simple-share-buttons.com
site-auditor.online
site.social-buttons.com
site#.floating-share-buttons.com
site#.free-share-buttons.com
slow-website.xyz
smailik.org
smarter-content.for-your.website
smartphonediscount.info
snip.to
snip.tw
social-button.xyz
social-buttons-.xyz
social-buttons.com
social-buttons.xyz
social-traffic-#.xyz
social-widget.xyz
socialbutton.xyz
socialbuttons.xyz
teedle.co
theguardlan.com
top1-seo-service.com
topquality.cf
topseoservices.co
torture.ml
traffic-cash.xyz
traffic2cash.net
traffic2cash.org
traffic2cash.xyz
traffic2money.com
trafficgenius.xyz
trafficmonetize.org
trafficmonetizer.org
traffictomoney.com
unpredictable.ga
video—production.com
vitaly rules google
w3javascript.com
web-revenue.xyz
webmaster-traffic.com
webmonetizer.net
website-analyzer.info
website-stealer-warning-alert.hdmoviecams.com
websites-reviews.com
why.does.spacebarnot work
wordpresscore.com
work-from-home-earn-money-online.com
wpsecuritycheck.co.uk
wpthemedetector.co.uk
www.event-tracking.com
www.Get-Free-Traffic-Now.com
www*.free-social-buttons.com
youporn-forum.ga
youporn-forum.uni.me
youporn-ru.com
yourserverisdown.com
китай.с.новым.годом.рф
непереводимая.рф
с.новым.годом.рф
снятьдомвсевастополе.рф
яндех-херня.рф

Последнее обновление таблицы: 28.06.2016

Список продолжать можно до бесконечности, так как новые спамерские домены появляются регулярно.



Сегодня я расскажу подробно что это за трафик и с ним бороться, чтобы он не портил вашу статистику. Спам такого типа называется Ghost spam (призрачный спам). Это и не реальный пользователь, и не бот, а все следы что он оставляет являются фейковыми и негативно влияют на статистику. Задача этого призрака не навредить вам, а привлечь внимание к их сайту, чтобы затем продать вам какую-то услугу или товар. То есть перейдя по ссылке, в моем случае rank-checker.online, вы попадете на сайт ranksonic.com. Спамеры могут легко заменять этот адрес на любой другой.

Кстати, далеко не всегда сайт, на который идет редирект является заказчиком спамерской услуги. Очень часто оказывается так, что это сайт вполне законопослушной компании, которая платит комиссию за привлечение к ней пользователей по определенной партнерской ссылке. Спамеры берет эту ссылку и через несколько грязных редиректов перенаправляет по ней тех, кто ввел в адресной строке тот самый rank-checker.online, или любой другой адрес призрачного спамера из своего сервиса статистики. Вы ведь наверняка захотите перейти по ссылке, увидим ее в своей статистике, захотите узнать кто же поставил на ваш сайт ссылку, по которой в день приходят десятки, а то и сотни посетителей.

Переходим к самому интересному. Как же остановить такого бота? Есть много способов, но, к сожалению, далеко не все удачные. Давайте рассмотрим способы, которые не следует использовать.

  • Не используйте исключающие реферальные списки в фильтрах Google Analytics.
  • Не используйте серверные решения, такие как плагины wordpress или внесение ручных изменений в файл .htaccess.
  • Избегайте создания фильтров для каждого спамера. Это не эффективно и только приводит к беспорядку в разделе фильтров.
  • Призрачный спам не навредит вашей SEO оптимизации и работе по продвижению сайта в целом. Он не влияет на поисковое ранжирование вашего сайта, хотя и искажает в статистике поведенческие факторы, такие как показатель отказов, глубина просмотра, время проведенное на сайте.

Ghost spam — это один из самых агрессивных видов спама. Он постоянно изменяет имена и может регулярно подменять сайты для редиректов. Фильтр по имени хоста — самый эффективный метод борьбы с таким видом спама, который избавит вас от сомнений, насколько точна ваша статистика. Вот главные преимущества этого фильтра:

  • Профилактическое решение не похожее на другие, которые позволяют спаму обходить их.
  • Минимальные временные затраты на установку и обслуживание фильтра. Не нужно каждый раз при обнаружении нового призрачного спама вносить изменения.
  • Фильтр остановит любые известные формы призрачного спама.
  • И самое главное — фильтр поможет вам избежать искажение статистики.

Как работает фильтр по имени хоста (hostname)

Чтобы понять как работает фильтр, давайте сначала разберемся что такое имя хоста. Каждое посещение в Google Analytics имеет источник посещения и имя хоста.

Источник посещения: место, откуда пользователь пришел, например:

  • direct — прямой заход
  • referral — переход с другого сайта
  • organic — переход из поисковых систем
  • social — переход из социальных сетей



Имя хоста: место, куда пользователь прибыл. В большинстве случаев — это ваше доменное имя. Это также может быть поддомен или даже другой домен, на котором установлен ваш счетчик.

Весь трафик от призрачного спама фейковый, так как на ваш сайт не заходит ни человек, ни робот. Вот почему призрачный спам и получил свое название (Ghost spam). Он проникает напрямую в Google Analytics и оставляет за собой фейковые данные об источнике трафика, имени хоста, показателе отказа, времени сессии и другие данные.

Идея фильтра по имени хоста заключается в том, чтобы сказать системе Google Analytics каким хостам следует доверять и только их учитывать в статистике. Таким образом, все сторонние хосты будут проигнорированы. Нужно только найти необходимые имена хостов, которые мы будет разрешать учитывать.

Как найти нужные имена хостов

Здесь важно не ошибиться и найти действительно правильные хосты иначе вы рискуете заблокировать реальный трафик. Рассмотрим на примере одного из моих сайтов. В прошлом году я приобрел на аукционе сайт meatless.ru и некоторое время назад заподозрил на нем небольшой всплеск посещаемости с других сайтов. Поскольку я не рекламировал сайт, такое могло случиться только если кто-то поставил ссылку на сайт на каком-то известном ресурсе или это Ghost spam. Давайте найдем причину всех бед :). Итак, выполним следующую последовательность:

Заходим в Google Analytics -> Отчеты -> Аудитория -> Технологии -> Сеть

Смотрим на основной параметр: по умолчанию будет выбран «Интернет-провайдер».

Google Analytics - интернет-провайдер


Жмем на «Имя хоста». Откроется список реальных и фейковых хостов. В списке вы увидите по крайней мере один хост — это домен вашего сайта. В моем примере — это meatless.ru. Наличие остальных хостов в этом списке будет зависеть от настроек вашего сайта, размещен ли счетчик статистики на других доменах и поддоменах. Например, на изображении видно два хоста от youtube.com. Вполне ожидаемые хосты, ведь у сайта meatless.ru есть канал на ютубе с точно таким же счетчиком как на основном сайте.

Google Analytics - имя хоста rank-checker.online


Изучив список из четырех хостов видно, что 3 из них настоящие, а вот один выглядит, мягко говоря, подозрительно. Это и есть нежданный поразит (inst.webinstantservice.com), который портит всю статистику. Как понять что это именно он? Очень просто: в источниках трафика в реферралах найдите все тот же rank-checker.online, кликните по нему и в дополнительных параметрах выберите Поведение и далее имя хоста. Там и будет написано inst.webinstantservice.com.

Вражеским хостами можно считать все те, которые вы не смогли распознать как свои. Однако и это еще не все. Иногда имя хоста может принимать значения, вроде google.com или любого другого известного сайта. Это спамеры пытаются ввести вас в заблуждение, придумывая имя хоста с популярным доменом. Поэтому такие хосты тоже нужно отнести к фейковым. Если у вас есть сомнения, рекомендую изучить такой хост детальнее. Для этого можно отследить дату начала активности по этому хосту просто нажав на имя хоста. По графику будет видно начало активности и можно будет сделать вывод имеете ли вы отношение к этому хосту или это действительно призрак. Еще один из призраков скрывается за значением (not set). Это, пожалуй, самый популярный hostname для спамеров. Означает это, что спамеры даже не удосужились придумать имя для фейкового хоста.

Теперь, когда проблема локализована можно и нужно перейти к ее устранению.

Как настроить фильтр по имени хоста

Особенностью фильтра будет его тип. Он будет не исключающий, а включающий. Для создания фильтра потребуется написать регулярное выражение. Если у вас как в моем случае в белом списке будет всего пара хостов, то регулярка будет довольно простой, по сути, это будет просто перечисление этих хостов. Однако, при составлении регулярных выражений стоит помнить некоторые вещи.

  • Для разделения хостов следует использовать вертикальную черту |, обозначающую логическое «или»
  • Не забудьте экранировать точки и дефисы обратным слэшем \.
  • Если в вашем списке доменов присутствует несколько поддоменов, нет необходимости перечислять их все. Просто укажите второй уровень домена. В моем примере, если бы мне пришлось указать два домена, например meatless.ru и subdomain.meatless.ru, достаточно было бы указать в регулярном выражении meatless\.ru
  • Не используйте пробелов.
  • Поле для регулярного выражения предусматривает не более 255 символов. Вы должны уместить ваше регулярное выражение в это количество знаков. Google Analytics не позволит вам создать более одного включающего фильтра для одного параметра (hostname).
  • Не добавляйте вертикальную черту в начале или в конце регулярного выражения.



Составьте регулярно выражение, используя эту подсказку. Внимательно проверьте выражение перед добавлением его в фильтр. Незначительная ошибка может привести к тому что вы рискуете потерять значительную часть реального трафика. Если хотите прокачать знания по регулярным выражениям советую почитать у гугла здесь.

Теперь когда вы все проверили можно приступать к добавлению фильтра. Обратите внимание, что фильтр лучше добавлять к конкретному ресурсу, а не ко всему аккаунту, если конечно у вас не один сайт. Это обезопасит остальные сайты, если вы вдруг сделаете ошибку в настройке фильтра.

Google Analytics -> Выбираем аккаунт -> Выбираем ресурс -> Выбираем Фильтры в нужном представлении -> Добавить фильтр -> Создать новый фильтр (указываем имя) -> Тип фильтра: пользовательский -> Включить -> Поле фильтра: имя хоста -> Шаблон фильтра: ваше регулярное выражение.

В моем случае регулярное выражение будет иметь вид:

meatless\.ru|youtube\.com

Не спешите сохранять фильтр. Нажмите кнопку «Проверить этот фильтр». Откроется таблица, как на на рисунке.

Google Analytics - проверка фильтра


Таблица покажет результаты проверки до применения фильтра и после. Нас интересует левый столбец (до применения). Обратите внимание на последнюю запись в столбце, это тот самый вражеский хост, который мы локализовали ранее. Правый столбец, как видите пустой. Это значит что после применения фильтра не осталось ни одного постороннего хоста. Значит наш фильтр работает корректно и задачу можно считать выполненной.

Еще небольшое замечание: если вы решите проверить фильтр второй раз через некоторое время, нажатием соответствующей кнопки, система вернет сообщение «Этот фильтр не изменяет данные. Конфигурация фильтра неправильная или данных недостаточно». Это происходит потому что фильтр уже работает, поэтому сравнивает данные хостов с теми же что уже отфильтрованы. Поэтому если вы хотите проверить как работает ваш фильтр, придется его удалить и создать точно такой же заново.

Не забудьте, что если вы добавите ваш счетчик на другой сайт, вам потребуется добавить новое имя хоста в ваше регулярное выражение.