Web Crawler

Веб-краулер — программа, перебирающая веб-страницы и сохраняющая с этих страниц данные и медиафайлы.

Взаимодействие с утилитой происходит с помощью CLI через командную строку.

Как начать перебор страниц:

Перейдите в директорию, куда установлена программа с помощью команды cd;
В командной строке пропишите:
python CLI.py --scan <URL> или python CLI.py -s <URL>
Если необходимо, добавьте дополнительные флаги.
Программа запустится. Начнется вывод сообщений об обрабатываемых веб-страницах:
YYYY-mm-dd HH:MM:SS [Bot N] Веб-краулер сохраняет: <URL>
YYYY-mm-dd HH:MM:SS Загрузка содержимого страниц закончена.
После сообщения об окончании обработки проверьте директорию, которая была выбрана для сохранения обработанных веб-страниц.

Список дополнительных флагов:

  -s, --scan TEXT      URL сканируемого сайта или файл .txt с несколькими URL-ами
                       Пример: --scan https://example.com или --scan urls.txt
  -d, --depth INTEGER  Глубина сканирования ресурса  [default: 3]
  -p, --path TEXT      Директория для скачивания файлов
                       Пример: --path C:/Users/User/directory
  -b, --bots INTEGER   Количество ботов для обхода  [default: 4]
  -dm, --domain TEXT   Переход только по ссылкам указанного домена
                       Пример: --domain example.org или --domain domains.txt
  --help               Show this message and exit.

Автор: Соколова Татьяна

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
tests		tests
CLI.py		CLI.py
README.md		README.md
URL_parser.py		URL_parser.py
bot_process.py		bot_process.py
crawler.py		crawler.py
domains_parser.py		domains_parser.py
requirements.txt		requirements.txt
robot_parser.py		robot_parser.py
saver.py		saver.py
urls.txt		urls.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Web Crawler

Как начать перебор страниц:

About

Uh oh!

Releases

Packages

Languages

aynats/webcrawler

Folders and files

Latest commit

History

Repository files navigation

Web Crawler

Как начать перебор страниц:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages