De 28 de setembro a 2 de outubro de 2020, das 18h30 às 21h30.
Os encontros serão nos dias 28 e 30 de setembro e 02 de outubro via Zoom.
O laboratório apresenta as principais ferramentas de captura de dados na Internet e análise quantitativa de texto utilizando R. Além de ser um software livre voltado para estatística computacional e análise de dados, R é uma linguagem focada na aplicação de funções que, entre outras possibilidades, permite a captura de dados de forma automatizada na internet. A partir de informações disponíveis em portais de notícias, apresentaremos esse processo de raspagem de dados de páginas web (especialmente de tabelas e de páginas construídas em html) e construção de bases de dados com textos de Internet tratados como informações quantitativas, o que permitirá introduzir algumas das práticas de mineração de texto. Faremos um exercício empírico partindo de uma questão de pesquisa que conduzirá a experimentação, de forma a capacitar os participantes com ferramentas e procedimentos que depois poderão ser usadas para a construção de suas próprias bases de dados. Para participação no curso, espera-se conhecimento prévio da linguagem R ou uma preparação de nivelamento por meio de tutoriais indicados antes do início das aulas.
Esse repositório será alimentado ao longo do curso com roteiros de aula e tutoriais atualizados tentado atender as particularidades da turma.
As aulas terão conteúdo expositivo sobre conceitos e ferramentas básicas utilizados durante o curso, mas a maior parte do tempo será dedicada à realização de tutoriais assistidos. Trabalharemos em dupla, cada um em seu computador. O professor acompanhará o andamento de cada dupla, tirando as dúvidas (sim, elas surgirão).
Não esqueçam de preencher a planilha enviada por e-mail e disponível aqui indicando seu nível de R entre: nunca usei; usei pouco ou há muito tempo; ou utilizo com frequência. Isso será usado para a formação das duplas.
Em todos os roteiros teremos links para a sala do Zoom e para a lista virtual.
O requisito para a emissão de certificado é a presença em dois dos três encontros virtuais.
No entanto, ressalto a importância das atividades de terça e quinta-feira. O primeiro por ser um desafio de colocar em prática com seu material o que veremos na segunda-feira. O segundo por dar uma visão mais ampla sobre text mining com os quais trabalharemos no último encontro.
A participação no curso requer uma exposição prévia à linguagem R e ao ambiente de tabalho do RStudio.
Caso não tenha nenhum contato com a linguagem, é mandatória a realização de um tutorial de preparação antes do início das aulas.
Ainda que tenha conhecimento básico das estruturas da linguagem, é fortemente recomendado que tambem o façam.
O tempo estimado para o tutorial é de aproximadamente 4 horas.
Como a maior parte do curso é baseada em tutoriais em que vocês aprenderão "colocando a mão na massa", é mandatório que acompanhem as aulas no computador.
Foi preparado um Roteiro pré-curso onde estão as instruções para a instalação dos softwares necessários.
Os participantes, ao fim do curso, serão capazes de:
- Coletar dados de sites de estrutura mais simples, como jornais e legislativos brasileiros;
- Realizar tarefas relacionadas a mineração de texto a partir de diferentes abordagens
- Produzir gráficos e grafos mais simples a partir dos dados coletados
- Entender e aplicar conceitos básicos de text mining
Todas os dias de curso terão roteiros a cumprir. Pouco antes de cada encontro, as linhas abaixo serão preenchidas com links com as descrições do que esperamos em cada dia de curso e como o faremos.
28/09/2020 - O básico da raspagem de dados
30/09/2020 - Desafios de raspagem de dados
01/10/2020 - Introdução à manipulação de textos como dados
02/10/2020 - A pesquisa quantitativa com texto
03/10/2020 - Text mining em R
Os links para os tutoriais estarão abaixo antes de cada aula.
Tutorial 1: Páginas com tabelas
Tutorial 2: Realizar a extração de qualquer conteúdo de uma página utilizando os "caminhos" dos elementos da página no código html - Introdução ao XPath
Tutorial 3: Extrair informações de uma sequência páginas (ex. portal de notícias) - Captura de notícias da Folha
Tutorial 4: Captura de notícias do Data Folha
Tutorial 5: Mineração de Texto - pacote stringr
Tutorial 6: Mineração de Texto - pacote tm
Tutorial 7: Mineração de Texto - pacote tidytext
Tutorial 8 Texto como dados e o pacote quanteda
- Grolemund, Garrett (2014). Hands-On Programming with R. Ed: O'Reilly Media. Não distribuído gratuitamente. Informações no site da editora aqui
- Wichkam, Hadley e Grolemund, Garrett (2016). R for Data Science. Ed: O'Reilly Media. Disponível gratuitamente Disponível gratuitamente aqui
- Wichkam, Hadley (2014). Advanced R. Ed: Chapman and Hall/CRC. Disponível gratuitamente Disponível gratuitamente aqui
- Gillespie, Colin e Lovelace, Robin (2016). Efficient R programming. Ed: O'Reilly Media. Disponível gratuitamente Disponível gratuitamente aqui