Webscrapping dos dados da seção de notícias do site Arquidiocese de SP, com uso de Python.
Projeto pessoal @author: sliatecinos
Fazer a instalação via pip:
pip install scrapy
import scrapy
# Função de recuperação dos dados (Html scrap)
def recupera_noticia(response):
..
# html DIV tags infos
title = response.css('div.title-box')
h1 = title.css('div.node_titulo h1::text').get()
box = response.css('div.box-corpo')
corpo = box.css('div div div div.region')
content = corpo.css('div div.content div.node')
clearfix = content.css('div.-content')
chamada = clearfix.css('div.field.field-name-field-out-noticia-chamada div div::text').get()
postdate = clearfix.css('div.noticia_node_data-e-fonte div span::text').get()
noticia = clearfix.css('div.noticia_corpo p *::text')
noticiafinal = ' '.join(noticia.getall())
..
.
├── ...
├── .pytest_cache # Compiled files (alternatively `dist`)
├── .vscode # Compiled files (alternatively `dist`)
├── README.md
└── noticiasarquisp # Source files (alternatively `py`)
├── __pycache__ # Compiled files (alternatively `dist`)
└── spiders # Runner "spider" location
└── __pycache__ # Compiled files (alternatively `dist`)
Site de Scrapy: dj
Scrapy - official documentation: DOCS