Esse repositório é parte dos projetos desenvolvidos pelos membros do LABHDUFBA e tem como objetivo oferecer ferramentas de raspagem, organização e análise de artigos ciêntíficos publicados na plataforma Scielo.br.
Para executar os Scripts desse repositório, você precisa clonar ou fazer download para sua máquina. Antes de executar os scripts, é preciso preparar seu computador, como mostramos abaixo.
A ferramentas desse projeto foram escritas em Python 3.8. Esta é uma linguagem de programação que te permite trabalhar rapidamente e integrar diferentes sistemas com maior eficiência. Para executar o arquivo .py é preciso instalar o Python3 em seu computador.
Clique aqui para um tutorial de instalação do Python no Windows, clique aqui para Linux e clique aqui para Mac.
Após a instalação, vc pode executar o arquivo .py direto do prompt de comando do Windows ou pelo terminal do Linux, ou utilizar as diversas IDE disponíveis.
Exemplo de como executar utilizando o terminal do Linux, após instalar o Python3.8:
- Acesse o diretório em que o arquivo .py está salvo:
$ cd user/local
- Instale as bibliotecas requeridas:
$ pip3 install -r requirements.txt
- Execute o arquivo usando Python3.8
$ python3.8 run_scielo_scraper.py
Esse script permite aos usuário selecionar qual assunto ele pretende raspar de acordo com a categorização estabelecida pela plataforma Scielo.br. É possível escolher entre oito assunto:
- Ciências Agrárias
- Ciências Biológicas
- Ciências da Saúde
- Ciêncas Exatas e da Terra
- Ciências Humanas
- Ciências Sociais Aplicadas
- Engenharias
- Linguística, Letras e Artes
Após a definição do assunto, é preciso definir o tipo de raspagem:
-
Realizar o download de todos os arquivos PDF de cada revista do assunto selecionado. É criado um CSV com informações básicas sobre a raspagem (nome da revista, ISSN, nome do arquivo e link para o PDF)
⚠️ Devido ao volume de dados, contando dezenas de milhares de artigos, o download de todos os arquivos PDF demandará muito tempo e uso intenso de sua máquina. -
Realizar o download dos arquivos XML de cada revista do assunto selecionado.
⚠️ Os arquivos XML possuem todos os metadados dos artigos, incluíndo as referências bibliográficas). Após o download dos arquivos XML é posssível utilizar a ferramentascielo_xml_to_csv
para convertar todos os XML para uma planilha.Acesse a pasta
scielo_xml_to_csv
e execute o arquivorun.py
.Para mais informações leia o README.md da ferramenta.
Nesse script é possível raspar uma revista ou uma lista de revistas através do ISSN.
Possui as mesmas características do run_scielo_scraper.py
, porém a definição da(s) revista(s) a ser raspada é feita ISSN.
Ambos os scripts criarão diretórios para armazenar os arquivos e dados.
scielo/pdf/nomeDaRevista
no caso da raspagem de PDFs;scielo/xml/nomeDaRevista
no caso da raspagem de XMls.
Entretanto, se a pasta com o nome de uma revista já exixtir, o algoritmo entenderá que a raspagem dela já foi efetuada e passará para a revista seguinte seguinte.
2020 Eric Brasil (IHL/UNILAB, LABHDUFBA), Gabriel Andrade (UFBA, LABHDUFBA), Leonardo Nascimento (UFBA, LABHDUFBA)