Показать сообщение отдельно
Старый 22.02.2018, 15:22   #4
 
Регистрация: 30.09.2017
Сообщений: 11
Доменные сделки: 0
Реноме: 38
Одобрения
Спасибо (Отдано):
Спасибо (Получено):
Наша система восстановления сайтов из Веб Архива стала еще лучше, мы научились обходить при скачивании сайтов инструкции robots.txt. Известно что archive.org учитывает параметр Disallow: но он не удаляет этот контент а просто "скрывает" доступ, открыть его можно разрешив индексацию спайдеру архива в файле robots.txt купив домен и загрузив туда этот файл.
Мы разработали алгоритм игнорирующий "скрытость" архивных файлов и позволяющий восстанавливать даже сайты на которых в robots.txt было прописано закрытие от индексации. То есть теперь можно скачать контент с любого имеющегося в archive.org сайта, даже если владельцами его был закрыт вход для ботов параметром Disallow: На сколько я знаю таких возможностей пока не предоставляет ни одна другая программа или сервис по восстановлению из Веб архива.
archivarix вне форума   Ответить с цитированием