ferramentas_scielo

Esse repositório é parte dos projetos desenvolvidos pelos membros do LABHDUFBA e tem como objetivo oferecer ferramentas de raspagem, organização e análise de artigos ciêntíficos publicados na plataforma Scielo.br.

Instalação

Para executar os Scripts desse repositório, você precisa clonar ou fazer download para sua máquina. Antes de executar os scripts, é preciso preparar seu computador, como mostramos abaixo.

Python

A ferramentas desse projeto foram escritas em Python 3.8. Esta é uma linguagem de programação que te permite trabalhar rapidamente e integrar diferentes sistemas com maior eficiência. Para executar o arquivo .py é preciso instalar o Python3 em seu computador.

Clique aqui para um tutorial de instalação do Python no Windows, clique aqui para Linux e clique aqui para Mac.

Após a instalação, vc pode executar o arquivo .py direto do prompt de comando do Windows ou pelo terminal do Linux, ou utilizar as diversas IDE disponíveis.

Exemplo de como executar utilizando o terminal do Linux, após instalar o Python3.8:

Acesse o diretório em que o arquivo .py está salvo:
```
$ cd user/local
```
Instale as bibliotecas requeridas:
```
$ pip3 install -r requirements.txt
```
Execute o arquivo usando Python3.8
```
$ python3.8 run_scielo_scraper.py
```

run_scielo_scraper.py

Esse script permite aos usuário selecionar qual assunto ele pretende raspar de acordo com a categorização estabelecida pela plataforma Scielo.br. É possível escolher entre oito assunto:

Ciências Agrárias
Ciências Biológicas
Ciências da Saúde
Ciêncas Exatas e da Terra
Ciências Humanas
Ciências Sociais Aplicadas
Engenharias
Linguística, Letras e Artes

Após a definição do assunto, é preciso definir o tipo de raspagem:

Realizar o download de todos os arquivos PDF de cada revista do assunto selecionado. É criado um CSV com informações básicas sobre a raspagem (nome da revista, ISSN, nome do arquivo e link para o PDF)

⚠️ Devido ao volume de dados, contando dezenas de milhares de artigos, o download de todos os arquivos PDF demandará muito tempo e uso intenso de sua máquina.
Realizar o download dos arquivos XML de cada revista do assunto selecionado.

⚠️ Os arquivos XML possuem todos os metadados dos artigos, incluíndo as referências bibliográficas). Após o download dos arquivos XML é posssível utilizar a ferramenta scielo_xml_to_csv para convertar todos os XML para uma planilha.

Acesse a pasta scielo_xml_to_csv e execute o arquivo run.py.

Para mais informações leia o README.md da ferramenta.

run_scielo_ISSN.py

Nesse script é possível raspar uma revista ou uma lista de revistas através do ISSN.

Possui as mesmas características do run_scielo_scraper.py, porém a definição da(s) revista(s) a ser raspada é feita ISSN.

⚠️ Atenção

Ambos os scripts criarão diretórios para armazenar os arquivos e dados.

scielo/pdf/nomeDaRevista no caso da raspagem de PDFs;
scielo/xml/nomeDaRevista no caso da raspagem de XMls.

Entretanto, se a pasta com o nome de uma revista já exixtir, o algoritmo entenderá que a raspagem dela já foi efetuada e passará para a revista seguinte seguinte.

Licença

MIT Licence

2020 Eric Brasil (IHL/UNILAB, LABHDUFBA), Gabriel Andrade (UFBA, LABHDUFBA), Leonardo Nascimento (UFBA, LABHDUFBA)

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
img		img
scielo_xml_to_csv		scielo_xml_to_csv
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
artigos_scraper.py		artigos_scraper.py
requirements.txt		requirements.txt
revistas_pdf.py		revistas_pdf.py
revistas_xml.py		revistas_xml.py
run_scielo_ISSN.py		run_scielo_ISSN.py
run_scielo_scraper.py		run_scielo_scraper.py
xml_scraper.py		xml_scraper.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ferramentas_scielo

Instalação

Python

run_scielo_scraper.py

run_scielo_ISSN.py

⚠️ Atenção

Licença

About

Releases

Packages

Languages

License

ericbrasiln/ferramentas_scielo

Folders and files

Latest commit

History

Repository files navigation

ferramentas_scielo

Instalação

Python

run_scielo_scraper.py

run_scielo_ISSN.py

⚠️ Atenção

Licença

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages