Биллинговая система Nodeny

Главная категория => Курилка => Тема начата: kuhar от 29 Октября 2013, 19:41:29



Название: Определить кто из клиентов парсит
Отправлено: kuhar от 29 Октября 2013, 19:41:29
Всем привет.
Решил создать тему, в качестве заметки для себя или возможно ком-то тоже пригодится, а может кто-то уже это делал и напишет свой вариант.

В общем, у меня в сетки используется только один статический ip на всех клиентов и недавно столкнулся с тем, что кто-то из клиентов начал парсить google и yandex, после чего у всех клиентов постоянно вылазила капча, задался целью найти и наказать :)

Чтобы определить кто это делает, нам нужно из базы вытащить id клиента и ip к которым он обращался за сутки, эти данные находятся в таблице вида z2013x10x24.
Чтобы вытащить инфу по клиенту и поместить в файл для изучения, я выполнял:
Код:
echo "SELECT inet_ntoa(ip) from z2013x10x24 where mid='62'" | mysql -p<MySQL password> bill | sort | uniq -c | sort -n > /home/clients/user
mid='62' - id клиента, который можно глянуть в админке биллинга
/home/clients/user - файл куда нам все сохранять

в итоге в файле у нас записывается следующее:
Код:
1013 31.42.115.11 
1268 157.56.126.52
1986 87.240.131.102
2367 217.69.141.171
2468 87.240.131.104
2790 87.250.250.79
2908 157.55.130.166
3171 217.20.147.94 
3395 94.100.180.215
4364 173.194.70.189

Первый столбец - количество запросов, второй - ip куда юзверь обращался.

Проверив через
Код:
host
я увидел какому ресурсу принадлежит ip.
Конечно это не идеальный вариант, а кривой и долгий, но другого способа я не нашел...

Хочу также привести примеры вывода обращений к ip со всей сети за определенный день:
Код:
echo "SELECT inet_ntoa(ip) from z2013x10x24" | mysql -p<MySQL password> bill | sort | uniq -c | sort -n > /home/ips.txt
ips.txt - сюда помещаем инфу по ip-шникам
Код:
awk '{print $2}' /home/ips.txt | xargs -I '{}' host '{}' >> /home/hosts.txt
hosts.txt - сюда помещаем инфу про хосты, и с этой инфы уже можно получить какие именно запросы идут на гугл или на яндекс:
Код:
cat /home/hosts.txt | grep google >> /home/google.txt
или
Код:
cat /home/hosts.txt | grep yandex >> /home/yandex.txt

Операясь на эту инфу можно определить куда больше всего было запросов.


Название: Re: Определить кто из клиентов парсит
Отправлено: sov от 29 Октября 2013, 20:16:28
В общем, у меня в сетки используется только один статический ip на всех клиентов и недавно столкнулся с тем, что кто-то из клиентов начал парсить google и yandex, после чего у всех клиентов постоянно вылазила капча, задался целью найти и наказать :)
За что наказывать? У вас в договоре с клиентом написано - не парсить выдачу гугла?

Хотя, конечно, человека нужно найти и объяснить ему, что так он делает себе-же хуже - парсить выдачу гугла нужно используя прокси-серверы, не сохраняя куки, изменяя значение User Agent, и лучше всего - в несколько потоков, так оно быстрее будет :)


Название: Re: Определить кто из клиентов парсит
Отправлено: Cell от 29 Октября 2013, 22:37:19
Да это повсеместная проблема при использовании NAT Никто не парсит этот несчастный гуль. Но когда куча народу пользуется сервисами гугля - он с недавних пор (месяца так три назад) начал сильно на это обижаться. Ну как бы такое впечатление, что люди не знаю о существовании НАТ. На самом деле все они прекрасно знают и делают это ИМХО со смыслом - ускоряя таким нехитрым способом освоение, введение в строй и переход на IPv6. Не претендую на истину в последней инстанции, но другого вменяемого объяснения столь  глупому решению нет.


Название: Re: Определить кто из клиентов парсит
Отправлено: kuhar от 30 Октября 2013, 00:44:00
Что верно, то верно.
Предоставить выделенный ip каждому не могу, поэтому пришлось таким образом искать, так как остальные абоны страдают и жалуются, что постоянно в гугле или в яндексе нужно вносить капчу.
Нужно было хотя бы найти от идут запрос, может он даже не осознано это делает, а например вирусня какае-то у него...


Название: Re: Определить кто из клиентов парсит
Отправлено: Efendy от 30 Октября 2013, 01:15:26
Просветите, что значит "парсить гугл"? Делать множество запросов и что-то там выцеплять? С какой целью?


Название: Re: Определить кто из клиентов парсит
Отправлено: kuhar от 30 Октября 2013, 08:40:13
Как правило таким страдают сеошники для продвижения сайтов, но нормальные это делают через vpn или проксю.

Просветите, что значит "парсить гугл"? Делать множество запросов и что-то там выцеплять? С какой целью?


Название: Re: Определить кто из клиентов парсит
Отправлено: cojiict от 30 Октября 2013, 11:14:26
як на рахунок стандартних утіліт???
Код:
tcpdump -i em1 -w [...] host google.com.ua


Название: Re: Определить кто из клиентов парсит
Отправлено: ser970 от 30 Октября 2013, 20:31:59
як на рахунок стандартних утіліт???
Код:
tcpdump -i em1 -w [...] host google.com.ua

pf max-src-conn-rate


Название: Re: Определить кто из клиентов парсит
Отправлено: cojiict от 17 Декабря 2013, 11:39:48
Останнім часом дана проблема стає все більш критичною. Можливо це звязано з масовими пошуком подій що робляться в Україні ... Які ще в кого ідеї бородьби???
Скаже чесно - звязатись с підтримкою Google завдання з не легких!


Название: Re: Определить кто из клиентов парсит
Отправлено: 0xbad0c0d3 от 17 Декабря 2013, 11:49:19
Выводить людей на какую-то из площадей киева! Проблема, довольно-таки серьезная - Google издевается над людьми! Короче, всем, кому не все равно, собирайтесь и идите на барикады! Валите памятник Пушкину! ну или кого-то, кого найдете - не суть.

P.S. если по делу, то ничего с этим не поделаешь. т.к. даже выставив какие-то лимиты это, возможно, решит одну проблему, а создаст другую. Потому: 1. связь с гуглом. 2. "белые" ипы


Название: Re: Определить кто из клиентов парсит
Отправлено: cojiict от 17 Декабря 2013, 12:27:56
Колись давно вже намагались звязатись з їх представництвом. Писали листи, навіть якийсь контактний телефон знайшли. Все марно.
Видати всім абонентам "білі" ІР  - за межею реальності в звязку з фінансовою стороною.
Можливо ще хтось стикався з даною проблемаю?


Название: Re: Определить кто из клиентов парсит
Отправлено: Cell от 20 Декабря 2013, 00:07:34
все сталкиваются


Название: Re: Определить кто из клиентов парсит
Отправлено: Cell от 20 Декабря 2013, 00:09:09
Выводить людей на какую-то из площадей киева! Проблема, довольно-таки серьезная - Google издевается над людьми! Короче, всем, кому не все равно, собирайтесь и идите на барикады! Валите памятник Пушкину! ну или кого-то, кого найдете - не суть.
Хорошая идея... про памятник Пушкину мне тоже понравилось )))