Страница 10 из 11

Re: Бан и борьба с ним

СообщениеДобавлено: 23 мар 2011, 11:10
Tolik
fishman писал(а):Ну вот! Яндекс, оказывается, тоже банит!
Раньше я этого не замечал. Пауза стоит 0, не считал количество скачанных тайлов, но не очень много.
Через час после бана позволяет качать дальше, потом опять "стоп"...

Говорят, помогает смена IP после бана.

Re: Бан и борьба с ним

СообщениеДобавлено: 23 мар 2011, 17:48
fishman
Tolik писал(а):Говорят, помогает смена IP после бана.


У меня статический...

Re: Бан и борьба с ним

СообщениеДобавлено: 25 мар 2011, 22:12
DJ VK
Чтобы сменить IP нужно прописать прокси в программе. То есть качать не напрямую а через подставной сайт.

Parasite писал(а):Иногда этот вариант на порядки быстрее операций через САС, особенно учитывая САСовскую фирменную фичу "в одном окошке - только один поток без хидеров/POST/GZIP/HTTPS/REFERRER/Keep-Alive/докачки/итд". :)


Есть один отменный способ. Нужно в операцию с выделенной областью добавить еще 1 пункт. Экспортировать список тайлов. Во первых просто имена в кеше и во вторых список Url тайлов выделенной области. Подробно о втором.
Дельше этот список можно скормить любому качальщику. На примере телепорта я делю так. Вмето адресов тайлов я создаю htm с соответственным количеством ссылок a href , из списка url его можно получить простой заменой и дописыванием шапки в текстовом редакторе, если уж совсем некогда. (когда есть время генрю программой).
Код: Выделить всё
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML>
<HEAD>
<TITLE> htmllistgen </TITLE>
<META NAME="Generator" CONTENT="EditPlus">
<META NAME="Author" CONTENT="">
<META NAME="Keywords" CONTENT="">
<META NAME="Description" CONTENT="">
</HEAD>
<BODY>
<a href="http://137.229.36.30/cgi-bin/scmag/disp-scmag.cgi?date=20100101&Bx=on">Link</a>
<a href="http://137.229.36.30/cgi-bin/scmag/disp-scmag.cgi?date=20100102&Bx=on">Link</a>
<a href="http://137.229.36.30/cgi-bin/scmag/disp-scmag.cgi?date=20100103&Bx=on">Link</a>
...
<a href="http://137.229.36.30/cgi-bin/scmag/disp-scmag.cgi?date=20110316&Bx=on">Link</a>
</BODY>
</HTML>


Далее заливаю на хостинг. некстмейл очень хорошо подходит. В телепорте указываю глубину ссылок общую 1, но не более 0 от ссылок на чужие домены. В результате скачивается залитый на хостинг файл и все прописанные в нем url. Осталось скриптом их переместить.
при количестве тайлов более 60к лучше взять телепорт ВэЭлИкс или разбить список на части.

Re: Бан и борьба с ним

СообщениеДобавлено: 25 мар 2011, 22:23
Parasite
DJ VK писал(а):
Parasite писал(а):Иногда этот вариант на порядки быстрее операций через САС, особенно учитывая САСовскую фирменную фичу "в одном окошке - только один поток без хидеров/POST/GZIP/HTTPS/REFERRER/Keep-Alive/докачки/итд". :)

Есть один отменный способ. Нужно в операцию с выделенной областью добавить еще 1 пункт. Экспортировать список тайлов. Во первых просто имена в кеше и во вторых список Url тайлов выделенной области. Подробно о втором.
Дельше этот список можно скормить любому качальщику.

И все бы хорошо, но опять же с тем же гуглом это не пройдет (ибо там добывать куку надо несколько извращенным способом, не через стандартные SET_COOKIE кои теоретически может поддерживать качалка).
Другими словами, гугль вскоре забанит телепорта ровно с тем же успехом если тот куку не отдаст - а он ее не отдаст, потому что не знает. Механизмов же обучения телепорта какой-то дополнительной логике (скрипты, плагины итд) - в нем нет, увы.

PS: а список тайлов с САСа добывается тем же проксификатором вот прямо сегодня. Логика та же, только вместо хождения на сервер за контентом - класть полученную от САСа ссылку в лог-файл, а сасу отдавать "404" чтобы тот не тратил время на отрисовку\сохранение тайлов. Так как в этом случае всё будет в пределах одного компьютера - то это будет весьма и весьма быстро.

Re: Бан и борьба с ним

СообщениеДобавлено: 26 мар 2011, 21:08
DJ VK
Parasite писал(а):PS: а список тайлов с САСа добывается тем же проксификатором вот прямо сегодня. Логика та же, только вместо хождения на сервер за контентом - класть полученную от САСа ссылку в лог-файл, а сасу отдавать "404" чтобы тот не тратил время на отрисовку\сохранение тайлов. Так как в этом случае всё будет в пределах одного компьютера - то это будет весьма и весьма быстро.

Вот извращение то. Уж точно не в духе линуксоида. Уж проще самостоятельно сгенерить.
расскажи подробнее насчет куксей от гугля. в личку. попробую в своих экспериментах с качалкой если реализуемо на с++\дельфи.

Re: Бан и борьба с ним

СообщениеДобавлено: 26 мар 2011, 21:35
Parasite
DJ VK писал(а):Вот извращение то. Уж точно не в духе линуксоида. Уж проще самостоятельно сгенерить.

Это как раз много проще, чем генерить самостоятельно все возможные варианты ссылок на все возможные серверы. Проксик получается один на все возможные карты (включая еще невыпущенные).
Сас умеет генерить урлы на основании ЗМП? Ну так и пусть генерит, и нечего дублировать этот функционал - наша задача лишь взять готовые результаты вот буквально парой строчек доп.кодинга.
Принцип KISS, коллега. Или ты предлагаешь написать хотелку и нудно ждать года так до 2015го? Так работа-то не ждет...:roll:

Re: Бан и борьба с ним

СообщениеДобавлено: 01 июл 2011, 21:13
AlexKan
Нельзя ли сделать для начала просто и надёжно?
Добавить в параметрах количество запрашиваемых файлов за один период и время паузы между периодами.
Установил 2000 запрашиваемых файлов, время паузы 1 минута и можно ложиться спать.
Сейчас приходится это делать вручную, чтобы не забанили.

Re: Бан и борьба с ним

СообщениеДобавлено: 18 июн 2014, 00:01
sergeifromrussia
AlexKan писал(а):Нельзя ли сделать для начала просто и надёжно?
Добавить в параметрах количество запрашиваемых файлов за один период и время паузы между периодами.
Установил 2000 запрашиваемых файлов, время паузы 1 минута и можно ложиться спать.
Сейчас приходится это делать вручную, чтобы не забанили.


Тоже думал об этом же, но недавно вот на что обратил внимание. У меня бан обычно начинается после очень примерно 50 000 тайлов. Я скачивал 40 000 тайлов, ставил программу на паузу. Через полчаса или даже час снимал с паузы, и в тот же момент, не скачав ни одного тайла, нарывался на бан. Вначале я думал, что это совпадение, но такое происходило несколько раз. Получается вообще странно: качаешь-качаешь с высокой скоростью - и ничего (бан всё равно приходит, но позже), а как только начинаешь качать медленнее, делая паузы, то тут же тебя банят. Может, дело не только в скорости скачивания, но и во времени?

Re: Бан и борьба с ним

СообщениеДобавлено: 18 июн 2014, 06:24
Ivan30
Вчера скачал 137 000 тайлов на z16. Бан пришёл в конце выделенной области от большого количества ответов сервера с ошибкой 404

Re: Бан и борьба с ним

СообщениеДобавлено: 18 июн 2014, 08:31
DJ VK
А я вот уже вторую неделю сижу на прокси. Если не изменяет память немецком.
За рабочий день (часов 9 примерно) сливаю по 3-4гб тайлов.
Банить никто не пытается.

Беру прокси в последнее время тут,
скрытый текст: показать
http://hideme.ru/proxy-list/


Русские прокси банят первыми, как я понимаю, это касается и скачки без онных ;)

Лучше минимальное время отклика прокси и более или менее стандартные порты (80, 8080, 3128). ФАЙЛЫ потом желательно 1) попробовать перекачать, бывают пропуски, 2)проверить на битость, бывают недокачанные.
Ну или сформировать из скачаного масштаба нечто поменьше и глазами ездить искать, нет ли где квадратных дырок, битые тайлы при сформировании пропускаются, появляются видимые пропуски (там перекачать).