Skip to content

Scrapes Data from Brazilian Adoption Support Groups

License

Unknown, MIT licenses found

Licenses found

Unknown
LICENSE
MIT
LICENSE.md
Notifications You must be signed in to change notification settings

abjur/gaaScraper

Repository files navigation

gaaScraper

O objetivo do pacote gaaScraper é facilitar a coleta de dados do site dos GAAs (Grupos de Apoio à Adoção) de todo o Brasil.

Instalação

Você pode instalar a versão de desenvolvimento do gaaScraper do GitHub com:

# install.packages("remotes")
remotes::install_github("abjur/gaaScraper")

Dados

A parte importante do pacote são os dados organizados:

dplyr::glimpse(gaaScraper::da_gaas)
Rows: 202
Columns: 23
$ id               <int> 1, 42, 5, 11, 5, 7, 2, 12, 2, 10, 6, 7, 48, 10, 11, 5, 1, 1, 2, 4, …
$ link             <chr> "https://www.angaad.org.br/portal/acalanto-rondonia/", "https://www…
$ img_link         <chr> "https://www.angaad.org.br/portal/wp-content/uploads/2018/06/GAAS-D…
$ title            <chr> "GAA Acalanto Rondônia", "GAA Acolher", "ADOTE E AME – Grupo de Apo…
$ city             <chr> "Porto Velho", "São Paulo", "Duque de Caxias", "Rio das Ostras", "C…
$ uf               <chr> "RO", "SP", "RJ", "RJ", "RS", "MS", "MT", "RJ", "BA", "RJ", "RJ", "…
$ ibge             <chr> "1100205", "3550308", "3301702", "3304524", "4304630", "5007901", "…
$ file             <chr> "data-raw/gaas/acalanto-rondonia.html", "data-raw/gaas/acolhersp.ht…
$ cep              <chr> "76803-778", "04647-010", NA, "28893-076", "95555-000", NA, "78.058…
$ cnpj             <chr> NA, "04.823.726/0001-85", NA, NA, NA, NA, "10.718.071/0001-88", NA,…
$ contato          <chr> "Cristiane Zemuner", "Cecília Zelic", NA, "Dora", "Karina Meneghett…
$ data_de_fundacao <chr> "14/05/2016", "13/05/1999", NA, "01/05/2007", NA, NA, "05/03/2009",…
$ e_mail           <chr> "cristianezemuner@gmail.com", "contato@acolhergaad.org.br", NA, NA,…
$ endereco         <chr> "R. Pio XII, 2240 – São João Bosco – Porto Velho/RO", "Rua Jacatirã…
$ facebook         <chr> "Acalanto Rondônia", "Acolher Grupo de Apoio à Adoção", NA, "Facebo…
$ instagram        <chr> NA, "@acolhergaad", NA, NA, "@adottaregrupodeapoio", NA, "@amparacu…
$ nome             <chr> "Grupo de Apoio à Adoção Acalanto Rondônia", "Acolher Grupo de Apoi…
$ reunioes         <chr> "Por enquanto somente whatsapp. Logo voltaremos com a reunião prese…
$ sigla            <chr> "Acalanto Rondônia", "Acolher", NA, "ADOTE", "Adottare", "AFAGAS", …
$ site             <chr> NA, "Acolher Grupo de Apoio à Adoção", NA, NA, NA, "www.afagas.org.…
$ telefone         <chr> "(69) 99343 8606", "(11) 97682-3754", NA, NA, "(51) 98137-9365", "(…
$ youtube          <chr> NA, "Acolher Grupo de Apoio à Adoção SP", NA, NA, NA, NA, NA, NA, "…
$ txt_completo     <chr> "\n\t\t\t\r\n\t\t\t\t 1.845\r\n\t\t\tNOME: Grupo de Apoio à Adoção …

As informações id, link, img_link, title, city, uf, ibge, são extraídas da página inicial do site. As demais informações são extraídas da página de cada GAA. O código IBGE é extraído utilizando-se o pacote munifacil.

As informações dos GAAS não são muito consistentes, já que a estrutura da página pode variar. Por isso, adicionamos uma coluna txt_completo com o texto completo da página, para que você possa fazer a extração de informações que não estão no pacote.

A base bruta dos GAAS, em formato .rds, foram adicionados nos Releases do repositório. Os arquivos HTML também foram adicionados nos Releases.

Licença

MIT

About

Scrapes Data from Brazilian Adoption Support Groups

Resources

License

Unknown, MIT licenses found

Licenses found

Unknown
LICENSE
MIT
LICENSE.md

Stars

Watchers

Forks

Languages