Название: Определить кто из клиентов парсит Отправлено: kuhar от 29 Октября 2013, 19:41:29 Всем привет.
Решил создать тему, в качестве заметки для себя или возможно ком-то тоже пригодится, а может кто-то уже это делал и напишет свой вариант. В общем, у меня в сетки используется только один статический ip на всех клиентов и недавно столкнулся с тем, что кто-то из клиентов начал парсить google и yandex, после чего у всех клиентов постоянно вылазила капча, задался целью найти и наказать :) Чтобы определить кто это делает, нам нужно из базы вытащить id клиента и ip к которым он обращался за сутки, эти данные находятся в таблице вида z2013x10x24. Чтобы вытащить инфу по клиенту и поместить в файл для изучения, я выполнял: Код: echo "SELECT inet_ntoa(ip) from z2013x10x24 where mid='62'" | mysql -p<MySQL password> bill | sort | uniq -c | sort -n > /home/clients/user /home/clients/user - файл куда нам все сохранять в итоге в файле у нас записывается следующее: Код: 1013 31.42.115.11 Первый столбец - количество запросов, второй - ip куда юзверь обращался. Проверив через Код: host Конечно это не идеальный вариант, а кривой и долгий, но другого способа я не нашел... Хочу также привести примеры вывода обращений к ip со всей сети за определенный день: Код: echo "SELECT inet_ntoa(ip) from z2013x10x24" | mysql -p<MySQL password> bill | sort | uniq -c | sort -n > /home/ips.txt Код: awk '{print $2}' /home/ips.txt | xargs -I '{}' host '{}' >> /home/hosts.txt Код: cat /home/hosts.txt | grep google >> /home/google.txt Код: cat /home/hosts.txt | grep yandex >> /home/yandex.txt Операясь на эту инфу можно определить куда больше всего было запросов. Название: Re: Определить кто из клиентов парсит Отправлено: sov от 29 Октября 2013, 20:16:28 В общем, у меня в сетки используется только один статический ip на всех клиентов и недавно столкнулся с тем, что кто-то из клиентов начал парсить google и yandex, после чего у всех клиентов постоянно вылазила капча, задался целью найти и наказать :) За что наказывать? У вас в договоре с клиентом написано - не парсить выдачу гугла?Хотя, конечно, человека нужно найти и объяснить ему, что так он делает себе-же хуже - парсить выдачу гугла нужно используя прокси-серверы, не сохраняя куки, изменяя значение User Agent, и лучше всего - в несколько потоков, так оно быстрее будет :) Название: Re: Определить кто из клиентов парсит Отправлено: Cell от 29 Октября 2013, 22:37:19 Да это повсеместная проблема при использовании NAT Никто не парсит этот несчастный гуль. Но когда куча народу пользуется сервисами гугля - он с недавних пор (месяца так три назад) начал сильно на это обижаться. Ну как бы такое впечатление, что люди не знаю о существовании НАТ. На самом деле все они прекрасно знают и делают это ИМХО со смыслом - ускоряя таким нехитрым способом освоение, введение в строй и переход на IPv6. Не претендую на истину в последней инстанции, но другого вменяемого объяснения столь глупому решению нет.
Название: Re: Определить кто из клиентов парсит Отправлено: kuhar от 30 Октября 2013, 00:44:00 Что верно, то верно.
Предоставить выделенный ip каждому не могу, поэтому пришлось таким образом искать, так как остальные абоны страдают и жалуются, что постоянно в гугле или в яндексе нужно вносить капчу. Нужно было хотя бы найти от идут запрос, может он даже не осознано это делает, а например вирусня какае-то у него... Название: Re: Определить кто из клиентов парсит Отправлено: Efendy от 30 Октября 2013, 01:15:26 Просветите, что значит "парсить гугл"? Делать множество запросов и что-то там выцеплять? С какой целью?
Название: Re: Определить кто из клиентов парсит Отправлено: kuhar от 30 Октября 2013, 08:40:13 Как правило таким страдают сеошники для продвижения сайтов, но нормальные это делают через vpn или проксю.
Просветите, что значит "парсить гугл"? Делать множество запросов и что-то там выцеплять? С какой целью? Название: Re: Определить кто из клиентов парсит Отправлено: cojiict от 30 Октября 2013, 11:14:26 як на рахунок стандартних утіліт???
Код: tcpdump -i em1 -w [...] host google.com.ua Название: Re: Определить кто из клиентов парсит Отправлено: ser970 от 30 Октября 2013, 20:31:59 як на рахунок стандартних утіліт??? pf max-src-conn-rateКод: tcpdump -i em1 -w [...] host google.com.ua Название: Re: Определить кто из клиентов парсит Отправлено: cojiict от 17 Декабря 2013, 11:39:48 Останнім часом дана проблема стає все більш критичною. Можливо це звязано з масовими пошуком подій що робляться в Україні ... Які ще в кого ідеї бородьби???
Скаже чесно - звязатись с підтримкою Google завдання з не легких! Название: Re: Определить кто из клиентов парсит Отправлено: 0xbad0c0d3 от 17 Декабря 2013, 11:49:19 Выводить людей на какую-то из площадей киева! Проблема, довольно-таки серьезная - Google издевается над людьми! Короче, всем, кому не все равно, собирайтесь и идите на барикады! Валите памятник Пушкину! ну или кого-то, кого найдете - не суть.
P.S. если по делу, то ничего с этим не поделаешь. т.к. даже выставив какие-то лимиты это, возможно, решит одну проблему, а создаст другую. Потому: 1. связь с гуглом. 2. "белые" ипы Название: Re: Определить кто из клиентов парсит Отправлено: cojiict от 17 Декабря 2013, 12:27:56 Колись давно вже намагались звязатись з їх представництвом. Писали листи, навіть якийсь контактний телефон знайшли. Все марно.
Видати всім абонентам "білі" ІР - за межею реальності в звязку з фінансовою стороною. Можливо ще хтось стикався з даною проблемаю? Название: Re: Определить кто из клиентов парсит Отправлено: Cell от 20 Декабря 2013, 00:07:34 все сталкиваются
Название: Re: Определить кто из клиентов парсит Отправлено: Cell от 20 Декабря 2013, 00:09:09 Выводить людей на какую-то из площадей киева! Проблема, довольно-таки серьезная - Google издевается над людьми! Короче, всем, кому не все равно, собирайтесь и идите на барикады! Валите памятник Пушкину! ну или кого-то, кого найдете - не суть. Хорошая идея... про памятник Пушкину мне тоже понравилось ))) |