Веб-краулер — программа, перебирающая веб-страницы и сохраняющая с этих страниц данные и медиафайлы.
Взаимодействие с утилитой происходит с помощью CLI через командную строку.
- Перейдите в директорию, куда установлена программа с помощью команды cd;
- В командной строке пропишите:
python CLI.py --scan <URL>илиpython CLI.py -s <URL>
Если необходимо, добавьте дополнительные флаги. - Программа запустится. Начнется вывод сообщений об обрабатываемых веб-страницах:
YYYY-mm-dd HH:MM:SS [Bot N] Веб-краулер сохраняет: <URL>
YYYY-mm-dd HH:MM:SS Загрузка содержимого страниц закончена. - После сообщения об окончании обработки проверьте директорию, которая была выбрана для сохранения обработанных веб-страниц.
Список дополнительных флагов:
-s, --scan TEXT URL сканируемого сайта или файл .txt с несколькими URL-ами
Пример: --scan https://example.com или --scan urls.txt
-d, --depth INTEGER Глубина сканирования ресурса [default: 3]
-p, --path TEXT Директория для скачивания файлов
Пример: --path C:/Users/User/directory
-b, --bots INTEGER Количество ботов для обхода [default: 4]
-dm, --domain TEXT Переход только по ссылкам указанного домена
Пример: --domain example.org или --domain domains.txt
--help Show this message and exit.
Автор: Соколова Татьяна