Coleção de noticias do site ARQUISP.ORG.BR

Webscrapping dos dados da seção de notícias do site Arquidiocese de SP, com uso de Python.

Projeto pessoal @author: sliatecinos

Instalação das dependências usadas no scrapping

Fazer a instalação via pip:

pip install scrapy

Bloco de captura dos dados

import scrapy 

# Função de recuperação dos dados (Html scrap)
def recupera_noticia(response):
..    
    # html DIV tags infos
    title = response.css('div.title-box')
    h1 =  title.css('div.node_titulo h1::text').get()

    box = response.css('div.box-corpo')
    corpo = box.css('div div div div.region')
    content = corpo.css('div div.content div.node')
    clearfix = content.css('div.-content')

    chamada = clearfix.css('div.field.field-name-field-out-noticia-chamada div div::text').get()

    postdate = clearfix.css('div.noticia_node_data-e-fonte div span::text').get()

    noticia = clearfix.css('div.noticia_corpo p *::text')
    noticiafinal = ' '.join(noticia.getall())
..

Estrutura do projeto

.
├── ...             
├── .pytest_cache             # Compiled files (alternatively `dist`)
├── .vscode                   # Compiled files (alternatively `dist`)
├── README.md                  
└── noticiasarquisp              # Source files (alternatively `py`)
    ├── __pycache__              # Compiled files (alternatively `dist`)
    └── spiders                  # Runner "spider" location
        └── __pycache__          # Compiled files (alternatively `dist`)

Links externos

Site de Scrapy: dj

Scrapy - official documentation: DOCS

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.vscode		.vscode
noticiasarquisp		noticiasarquisp
.gitignore		.gitignore
README.md		README.md
runner.py		runner.py
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Coleção de noticias do site ARQUISP.ORG.BR

Instalação das dependências usadas no scrapping

Bloco de captura dos dados

Estrutura do projeto

Links externos

About

Releases

Packages

Languages

sliatecinos/noticiasarquisp

Folders and files

Latest commit

History

Repository files navigation

Coleção de noticias do site ARQUISP.ORG.BR

Instalação das dependências usadas no scrapping

Bloco de captura dos dados

Estrutura do projeto

Links externos

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages