Данная программа собирает список публикаций автора по его идентификатору eLibrary и информацию о статьях. В текущей версии сохраняется следующая информация:
- Список авторов (authors),
- Заголовок публикации (title),
- Год публикации (year),
- Библиографическая информация (source title),
- Количество цитирований(cited by),
- Ссылка на страницу публикации (link),
- Ссылка на источник (source id).
HTML-страницы с публикациями автора/организаций загружаются в папку <data_path>/raw/<organization_id>. Информация о публикациях сохраняется в файл формата CSV в папку <data_path>/processed/<organization_id>/publications.csv.
Вам потребуется Python 3.5 или более поздней версии. Вы можете иметь несколько установленных версий, это не должно вызвать проблем.
Также для корректной работы Вам подребуется установить некоторые библиотеки. Для этого можно просто указать путь до requirements.txt в консоли и ввести команду.
$ pip install -r /path/to/requirements.txtЧтобы библиотека selenium могла имитировать работу браузера необходимо иметь предустановленным браузер Firefox, а также gekodriver.exe, затем указать в файле config.py путь до gekodriver на Вашем компьютере.