Недавно мы обновили нашу систему и теперь у нас появились две новых опции.
Теперь с помощью системы скачивания существующих сайтов можно скачать даркнетовские .onion сайты. Просто введите адрес .onion сайта в поле "домен"
https://ru.archivarix.com/website-do...cms-converter/ и сайт будет качаться из сети Tor так же как и обычный.
А ещё Archivarix может не только скачивать существующие сайты или восстанавливать их из Веб Архива, но и вытаскивать из них контент. Для этого тут
https://ru.archivarix.com/restore/ в "продвинутых параметрах" надо выбрать "Извлечь структурированный контент".
После завершения скачивания сайта вместе с полным архивом всего сайта формируется архив статей в формате xml, csv, wxr и json.
При формировании архива статей наш парсер учитывает только значащий контент исключая дубли статей, управляющие элементы и служебные страницы.