Skip to content

Commit

Permalink
Criacao do repositorio de slides com o conteudo do semestre 2017.1
Browse files Browse the repository at this point in the history
  • Loading branch information
rvimieiro committed Aug 8, 2017
0 parents commit 8a5349c
Show file tree
Hide file tree
Showing 71 changed files with 43,165 additions and 0 deletions.
2 changes: 2 additions & 0 deletions .gitignore
Original file line number Diff line number Diff line change
@@ -0,0 +1,2 @@
.DS_Store
.ipynb_checkpoints
61 changes: 61 additions & 0 deletions Source.gv
Original file line number Diff line number Diff line change
@@ -0,0 +1,61 @@
digraph Tree {
node [shape=box, style="filled, rounded", color="black", fontname=helvetica] ;
edge [fontname=helvetica] ;
0 [label=<lpsa &le; 2.1026<br/>gini = 0.4678<br/>samples = 67<br/>value = [25, 42]<br/>class = mau>, fillcolor="#399de567"] ;
1 [label=<lcp &le; -0.6982<br/>gini = 0.4032<br/>samples = 25<br/>value = [18, 7]<br/>class = bom>, fillcolor="#e581399c"] ;
0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ;
2 [label=<lweight &le; 3.0178<br/>gini = 0.2659<br/>samples = 19<br/>value = [16, 3]<br/>class = bom>, fillcolor="#e58139cf"] ;
1 -> 2 ;
3 [label=<lcavol &le; -0.5453<br/>gini = 0.4444<br/>samples = 3<br/>value = [1, 2]<br/>class = mau>, fillcolor="#399de57f"] ;
2 -> 3 ;
4 [label=<gini = 0.0<br/>samples = 1<br/>value = [1, 0]<br/>class = bom>, fillcolor="#e58139ff"] ;
3 -> 4 ;
5 [label=<gini = 0.0<br/>samples = 2<br/>value = [0, 2]<br/>class = mau>, fillcolor="#399de5ff"] ;
3 -> 5 ;
6 [label=<lcp &le; -1.0924<br/>gini = 0.1172<br/>samples = 16<br/>value = [15, 1]<br/>class = bom>, fillcolor="#e58139ee"] ;
2 -> 6 ;
7 [label=<gini = 0.0<br/>samples = 13<br/>value = [13, 0]<br/>class = bom>, fillcolor="#e58139ff"] ;
6 -> 7 ;
8 [label=<lcavol &le; 0.399<br/>gini = 0.4444<br/>samples = 3<br/>value = [2, 1]<br/>class = bom>, fillcolor="#e581397f"] ;
6 -> 8 ;
9 [label=<gini = 0.0<br/>samples = 2<br/>value = [2, 0]<br/>class = bom>, fillcolor="#e58139ff"] ;
8 -> 9 ;
10 [label=<gini = 0.0<br/>samples = 1<br/>value = [0, 1]<br/>class = mau>, fillcolor="#399de5ff"] ;
8 -> 10 ;
11 [label=<lcavol &le; 2.0351<br/>gini = 0.4444<br/>samples = 6<br/>value = [2, 4]<br/>class = mau>, fillcolor="#399de57f"] ;
1 -> 11 ;
12 [label=<gini = 0.0<br/>samples = 4<br/>value = [0, 4]<br/>class = mau>, fillcolor="#399de5ff"] ;
11 -> 12 ;
13 [label=<gini = 0.0<br/>samples = 2<br/>value = [2, 0]<br/>class = bom>, fillcolor="#e58139ff"] ;
11 -> 13 ;
14 [label=<lcavol &le; 0.6014<br/>gini = 0.2778<br/>samples = 42<br/>value = [7, 35]<br/>class = mau>, fillcolor="#399de5cc"] ;
0 -> 14 [labeldistance=2.5, labelangle=-45, headlabel="False"] ;
15 [label=<lbph &le; 0.9307<br/>gini = 0.4444<br/>samples = 6<br/>value = [4, 2]<br/>class = bom>, fillcolor="#e581397f"] ;
14 -> 15 ;
16 [label=<lpsa &le; 2.8845<br/>gini = 0.4444<br/>samples = 3<br/>value = [1, 2]<br/>class = mau>, fillcolor="#399de57f"] ;
15 -> 16 ;
17 [label=<gini = 0.0<br/>samples = 2<br/>value = [0, 2]<br/>class = mau>, fillcolor="#399de5ff"] ;
16 -> 17 ;
18 [label=<gini = 0.0<br/>samples = 1<br/>value = [1, 0]<br/>class = bom>, fillcolor="#e58139ff"] ;
16 -> 18 ;
19 [label=<gini = 0.0<br/>samples = 3<br/>value = [3, 0]<br/>class = bom>, fillcolor="#e58139ff"] ;
15 -> 19 ;
20 [label=<lcp &le; -1.0924<br/>gini = 0.1528<br/>samples = 36<br/>value = [3, 33]<br/>class = mau>, fillcolor="#399de5e8"] ;
14 -> 20 ;
21 [label=<lcavol &le; 1.4635<br/>gini = 0.3967<br/>samples = 11<br/>value = [3, 8]<br/>class = mau>, fillcolor="#399de59f"] ;
20 -> 21 ;
22 [label=<gini = 0.0<br/>samples = 5<br/>value = [0, 5]<br/>class = mau>, fillcolor="#399de5ff"] ;
21 -> 22 ;
23 [label=<lweight &le; 3.7046<br/>gini = 0.5<br/>samples = 6<br/>value = [3, 3]<br/>class = bom>, fillcolor="#e5813900"] ;
21 -> 23 ;
24 [label=<gini = 0.0<br/>samples = 2<br/>value = [0, 2]<br/>class = mau>, fillcolor="#399de5ff"] ;
23 -> 24 ;
25 [label=<lbph &le; 2.1997<br/>gini = 0.375<br/>samples = 4<br/>value = [3, 1]<br/>class = bom>, fillcolor="#e58139aa"] ;
23 -> 25 ;
26 [label=<gini = 0.0<br/>samples = 3<br/>value = [3, 0]<br/>class = bom>, fillcolor="#e58139ff"] ;
25 -> 26 ;
27 [label=<gini = 0.0<br/>samples = 1<br/>value = [0, 1]<br/>class = mau>, fillcolor="#399de5ff"] ;
25 -> 27 ;
28 [label=<gini = 0.0<br/>samples = 25<br/>value = [0, 25]<br/>class = mau>, fillcolor="#399de5ff"] ;
20 -> 28 ;
}
Binary file added Source.gv.pdf
Binary file not shown.
184 changes: 184 additions & 0 deletions aula01-datascience.Rmd
Original file line number Diff line number Diff line change
@@ -0,0 +1,184 @@
---
title: "IF1015 -- Introdução a Ciência dos Dados"
subtitle: "Aula01 -- O que é Ciência dos Dados?"
author: "Renato Vimieiro <br> rv2 [em] cin.ufpe.br"
date: "março -- 2017"
output:
ioslides_presentation:
footer: "Copyright (c) 2017, Renato Vimieiro"
css: mytemplate.css
widescreen: true
smart: true
self_contained: false
# mathjax: local
bibliography: reference.bib
fig_caption: true

---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = FALSE)
```

## Dilúvio de dados (1/2)

- Houve uma evolução drástica da infraestrutura para armanezagem e coleta de dados nos últimos 15 anos
- Praticamente todas as instituições coletam dados sobre seus processos e clientes
- Estima-se que 90% de todos os dados disponíveis no mundo hoje foram coletados nos últimos 5 anos

> A IBM estimou que, em 2012, 2.5 bilhões de gigabytes eram produzidos diariamente, sendo 75% dos dados não estruturados (texto, voz, vídeo e imagens) (Wall, 2014)
## Dilúvio de dados (2/2)

- De acordo com um estudo da EMC (Burn-Murdoch, 2012), a quantidade de dados armazenado em 2012 era de **2.8 ZB**, com projeções de chegar a **40 ZB em 2020**

- Contudo, o mesmo estudo revela que, dentre esses mesmos **2.8 ZB de dados**, apenas **0.5%** foram analisados

- Esse contexto mostra a necessidade eminente de usar os dados coletados para extrair informação e conhecimento. Isto é, esse é o contexto que surge *Data Science*

## Oportunidades nos dados

- A análise de dados para se obter vantagens competitivas não é algo novo
- Empresas já contratavam times de estatísticos e/ou atuários desde o início do século passado
- A mudança para os dias de hoje está na inviabilidade da análise manual desses dados
- Os computadores modernos possibilitaram automatizar o cruzamento de dados, o que, consequentemente, permitiu que análises mais profundas fossem realizadas

## Data Science, Data Mining, Machine Learning, Business Intelligence ...

- A formalização do processo (semi)automatizado de análise de dados tem recebido diferentes nomes ao longo dos anos
- Muitos dos métodos classificados como de Data Mining, também são classificados como de Aprendizado de Máquinas
- Há ainda interseções (ou sobreposições) com Business Intelligence, que muitas vezes inclui métodos de data mining/machine learning e outras técnicas da área de Banco de Dados
- Mais recentemente, o processo de análise de dados tem sido conhecido como Data Science

## Vantagens competitivas da análise de dados

- Para exemplificar as vantagens competitivas que a análise sistemática de dados pode trazer, veremos alguns casos reais de sua aplicação
- São eles:
- Previsão do consumo de itens em situações de emergência
- Antecipação da possibilidade de troca de cia telefônicas
- Avaliação de crédito

## Previsão do consumo de itens em situações de emergência (1/2)

- Em 2004, um ciclone tropical (Furacão Frances) se formou nas águas do Atlântico entre a América do Sul e África, cruzando o Caribe em direção ao Atlântico norte
- Dada a previsão de que o furacão atingiria a Flórida, os executivos do Wal-Mart decidiram testar algumas das suas novas armas para análise de dados (Hays, 2004)
- Usando dados de outro furacão (Charley) que atingira a costa sul dos EUA no mesmo ano, eles queriam prever quais itens seriam consumidos para reforçar o estoque em suas lojas

## Previsão do consumo de itens em situações de emergência (2/2)

- Qual o comportamento esperado numa situação como esta?
- Aumento no consumo de água mineral ou de pilhas?
- Aumento no consumo de um determinado DVD?
- A análise dos dados mostrou que há um aumento nas vendas de:
<div class="centered">
<img src="http://cdn.alleywatch.com/wp-content/uploads/2014/07/beer-and-pop-tarts.jpg"
alt="Wal-Mart previsão furacão Frances" height="58%" width="55%">
</div>


## Previsão de churn em telecomunicações (1/3)

- Número de telefones celulares em relação a população de acordo com o Banco Mundial

<div class="centered">
<img src="http://blogs.worldbank.org/publicsphere/files/publicsphere/Johanna/Screen%20Shot%202013-07-24%20at%2012.23.41%20PM%20copy.jpg"
alt="Número de celulares em relação a população" height="58%" width="55%">
</div>

## Previsão de churn em telecomunicações (2/3)

- O mercado de telefonia móvel já está saturado na maioria dos lugares
- Estudos mostram que no Brasil já existem cerca de 250 milhões de usuários
- Oportunidades reduzidas de conquistar novos clientes
- Operadoras lutam para manter seus clientes e evitar migrações para outras empresas (**churn**)

## Previsão de churn em telecomunicações (3/3)

- Esse cenário oferece uma excelente oportunidade para entender o motivo da troca e, assim,
tentar manter o cliente antes que o contrato expire
- Várias empresas de telecomunicações possuem grandes equipes de cientistas de dados para
estudar esse e outros problemas como fraude, planejamento de capacidade, melhoria na satisfação de clientes, ...

## Análise de crédito (1/3)

- Na década de 1990, Richard Fairbank e Nigel Morris revolucionaram a indústria de crédito
- Eles propuseram flexibilizar as linhas de crédito (inicialmente via cartões de crédito) para os clientes de instituições financeiras
- Anteriormente, as taxas e valores dos cartões de crédito eram fixos, e os clientes eram somente aprovados ou reprovados

## Análise de crédito (2/3)

- A proposta de Fairbank e Morris era usar as informações dos clientes para prever o risco de inadimplência e ajustar os valores consequentemente
- O problema era que as instituições financeiras não possuíam essa informação
- Após várias tentativas fracassadas, eles convenceram um pequeno banco (Signet Bank) a coletar esses dados para realizar a modelagem

## Análise de crédito (3/3)

- A coleta de dados resultou em prejuízos para o banco inicialmente, mas depois as taxas de inadimplência decaíram substancialmente, aumentando o lucro da instituição
- Esse processo foi estendido a outras linhas de crédito e é o padrão das indústria atualmente
- De fato, essa linha de raciocínio de aprimorar a experiência dos usuários é usada pelas gigantes da internet (Amazon, Google, Facebook, etc.)

## Perfil de um cientista de dados

- Vimos que data science é a sistematização da análise de dados
- Assim, qual o perfil de um cientista de dados
- De acordo com [Drew Conway](http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram), o profissional deve possuir o seguinte perfil

<div class="centered">
<img src="https://static1.squarespace.com/static/5150aec6e4b0e340ec52710a/t/51525c33e4b0b3e0d10f77ab/1364352052403/Data_Science_VD.png?format=750w"
alt="Perfil de um cientista de dados" height="38%" width="35%">
</div>

## Data Science não é Big Data

- Há uma frequente associação entre Data Science e Big Data
- Essa associação não implica que ambos sejam a mesma coisa
- Data Science é o processo de análise
- Big Data é: ?????

## Big Data

- Big data, apesar de ser um termo muito usado, não possui uma definição precisa
- Em linhas gerais, entende-se que o termo expressa grandes volumes de dados estruturados ou não
- Muitas vezes é associado aos 3 V's
- **Volume**: grande quantidade de dados coletados de diferentes fontes
- **Velocidade**: dados de streaming (tempo real), ocorrendo atualizações constantes
- **Variedade**: mistura de dados de diferentes tipos; estruturados, não-estruturados; emails, texto, áudio, vídeo, ...

## O ecossistema de data science

- Vimos que o perfil de um cientista de dados exige diferentes proficiências
- No entanto, a pessoa normalmente possui uma área de formação básica que, certamente, ainda não é em data science
- Pessoas com diferentes formações vão escolher diferentes ferramentas de trabalho
- Diferentes empresas também ofertam diferentes ferramentas

## O ecossistema de data science

- Se fizermos uma busca pelo ecossistema de data science, encontramos

<div class="centered">
<a href=https://www.datameer.com/wp-content/uploads/2016/06/matt_turck_big_data_landscape_v11r.png target="_blank">
<img src="https://www.datameer.com/wp-content/uploads/2016/06/matt_turck_big_data_landscape_v11r.png"
alt="Ecossistema de data science" height="58%" width="55%"></a>
</div>

## O ecossistema de data science

- Existem outras imagens que mostram esquematicamente a divisão das ferramentas necessárias

<div class="centered">
<a href="https://cdn.datafloq.com/cms/os_big_data_open_source_tools-v2.png" target="_blank">
<img src="https://cdn.datafloq.com/cms/os_big_data_open_source_tools-v2.png"
alt="Ecossistema resumido de data science" height="68%" width="65%"></a>
</div>



## Referências

<font size=3>
Wall, M. (2014) *Big Data: Are you ready for blast-off?*. BBC News. http://www.bbc.com/news/business-26383058

Burn-Murdoch, J. (2012) *Study: less than 1% of the world's data is analysed, over 80% is unprotected*. The Guardian. https://www.theguardian.com/news/datablog/2012/dec/19/big-data-study-digital-universe-global-volume

Hays, C. L. (2004) *What Wal-Mart Knows About Customers' Habits*. The New York Times. http://www.nytimes.com/2004/11/14/business/yourmoney/what-walmart-knows-about-customers-habits.html
</font>
Loading

0 comments on commit 8a5349c

Please sign in to comment.