Skip to content

Scrapping dos dados da seção de notícias do site da arquidiocese.

Notifications You must be signed in to change notification settings

sliatecinos/noticiasarquisp

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Coleção de noticias do site ARQUISP.ORG.BR

Webscrapping dos dados da seção de notícias do site Arquidiocese de SP, com uso de Python.

Projeto pessoal @author: sliatecinos

Instalação das dependências usadas no scrapping

Fazer a instalação via pip:

pip install scrapy

Bloco de captura dos dados

import scrapy 

# Função de recuperação dos dados (Html scrap)
def recupera_noticia(response):
..    
    # html DIV tags infos
    title = response.css('div.title-box')
    h1 =  title.css('div.node_titulo h1::text').get()

    box = response.css('div.box-corpo')
    corpo = box.css('div div div div.region')
    content = corpo.css('div div.content div.node')
    clearfix = content.css('div.-content')

    chamada = clearfix.css('div.field.field-name-field-out-noticia-chamada div div::text').get()

    postdate = clearfix.css('div.noticia_node_data-e-fonte div span::text').get()

    noticia = clearfix.css('div.noticia_corpo p *::text')
    noticiafinal = ' '.join(noticia.getall())
..    
    

Estrutura do projeto

.
├── ...             
├── .pytest_cache             # Compiled files (alternatively `dist`)
├── .vscode                   # Compiled files (alternatively `dist`)
├── README.md                  
└── noticiasarquisp              # Source files (alternatively `py`)
    ├── __pycache__              # Compiled files (alternatively `dist`)
    └── spiders                  # Runner "spider" location
        └── __pycache__          # Compiled files (alternatively `dist`)

Links externos

Site de Scrapy: dj

Scrapy - official documentation: DOCS

About

Scrapping dos dados da seção de notícias do site da arquidiocese.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages