-
Notifications
You must be signed in to change notification settings - Fork 9
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Criacao do repositorio de slides com o conteudo do semestre 2017.1
- Loading branch information
0 parents
commit 8a5349c
Showing
71 changed files
with
43,165 additions
and
0 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,2 @@ | ||
.DS_Store | ||
.ipynb_checkpoints |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,61 @@ | ||
digraph Tree { | ||
node [shape=box, style="filled, rounded", color="black", fontname=helvetica] ; | ||
edge [fontname=helvetica] ; | ||
0 [label=<lpsa ≤ 2.1026<br/>gini = 0.4678<br/>samples = 67<br/>value = [25, 42]<br/>class = mau>, fillcolor="#399de567"] ; | ||
1 [label=<lcp ≤ -0.6982<br/>gini = 0.4032<br/>samples = 25<br/>value = [18, 7]<br/>class = bom>, fillcolor="#e581399c"] ; | ||
0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ; | ||
2 [label=<lweight ≤ 3.0178<br/>gini = 0.2659<br/>samples = 19<br/>value = [16, 3]<br/>class = bom>, fillcolor="#e58139cf"] ; | ||
1 -> 2 ; | ||
3 [label=<lcavol ≤ -0.5453<br/>gini = 0.4444<br/>samples = 3<br/>value = [1, 2]<br/>class = mau>, fillcolor="#399de57f"] ; | ||
2 -> 3 ; | ||
4 [label=<gini = 0.0<br/>samples = 1<br/>value = [1, 0]<br/>class = bom>, fillcolor="#e58139ff"] ; | ||
3 -> 4 ; | ||
5 [label=<gini = 0.0<br/>samples = 2<br/>value = [0, 2]<br/>class = mau>, fillcolor="#399de5ff"] ; | ||
3 -> 5 ; | ||
6 [label=<lcp ≤ -1.0924<br/>gini = 0.1172<br/>samples = 16<br/>value = [15, 1]<br/>class = bom>, fillcolor="#e58139ee"] ; | ||
2 -> 6 ; | ||
7 [label=<gini = 0.0<br/>samples = 13<br/>value = [13, 0]<br/>class = bom>, fillcolor="#e58139ff"] ; | ||
6 -> 7 ; | ||
8 [label=<lcavol ≤ 0.399<br/>gini = 0.4444<br/>samples = 3<br/>value = [2, 1]<br/>class = bom>, fillcolor="#e581397f"] ; | ||
6 -> 8 ; | ||
9 [label=<gini = 0.0<br/>samples = 2<br/>value = [2, 0]<br/>class = bom>, fillcolor="#e58139ff"] ; | ||
8 -> 9 ; | ||
10 [label=<gini = 0.0<br/>samples = 1<br/>value = [0, 1]<br/>class = mau>, fillcolor="#399de5ff"] ; | ||
8 -> 10 ; | ||
11 [label=<lcavol ≤ 2.0351<br/>gini = 0.4444<br/>samples = 6<br/>value = [2, 4]<br/>class = mau>, fillcolor="#399de57f"] ; | ||
1 -> 11 ; | ||
12 [label=<gini = 0.0<br/>samples = 4<br/>value = [0, 4]<br/>class = mau>, fillcolor="#399de5ff"] ; | ||
11 -> 12 ; | ||
13 [label=<gini = 0.0<br/>samples = 2<br/>value = [2, 0]<br/>class = bom>, fillcolor="#e58139ff"] ; | ||
11 -> 13 ; | ||
14 [label=<lcavol ≤ 0.6014<br/>gini = 0.2778<br/>samples = 42<br/>value = [7, 35]<br/>class = mau>, fillcolor="#399de5cc"] ; | ||
0 -> 14 [labeldistance=2.5, labelangle=-45, headlabel="False"] ; | ||
15 [label=<lbph ≤ 0.9307<br/>gini = 0.4444<br/>samples = 6<br/>value = [4, 2]<br/>class = bom>, fillcolor="#e581397f"] ; | ||
14 -> 15 ; | ||
16 [label=<lpsa ≤ 2.8845<br/>gini = 0.4444<br/>samples = 3<br/>value = [1, 2]<br/>class = mau>, fillcolor="#399de57f"] ; | ||
15 -> 16 ; | ||
17 [label=<gini = 0.0<br/>samples = 2<br/>value = [0, 2]<br/>class = mau>, fillcolor="#399de5ff"] ; | ||
16 -> 17 ; | ||
18 [label=<gini = 0.0<br/>samples = 1<br/>value = [1, 0]<br/>class = bom>, fillcolor="#e58139ff"] ; | ||
16 -> 18 ; | ||
19 [label=<gini = 0.0<br/>samples = 3<br/>value = [3, 0]<br/>class = bom>, fillcolor="#e58139ff"] ; | ||
15 -> 19 ; | ||
20 [label=<lcp ≤ -1.0924<br/>gini = 0.1528<br/>samples = 36<br/>value = [3, 33]<br/>class = mau>, fillcolor="#399de5e8"] ; | ||
14 -> 20 ; | ||
21 [label=<lcavol ≤ 1.4635<br/>gini = 0.3967<br/>samples = 11<br/>value = [3, 8]<br/>class = mau>, fillcolor="#399de59f"] ; | ||
20 -> 21 ; | ||
22 [label=<gini = 0.0<br/>samples = 5<br/>value = [0, 5]<br/>class = mau>, fillcolor="#399de5ff"] ; | ||
21 -> 22 ; | ||
23 [label=<lweight ≤ 3.7046<br/>gini = 0.5<br/>samples = 6<br/>value = [3, 3]<br/>class = bom>, fillcolor="#e5813900"] ; | ||
21 -> 23 ; | ||
24 [label=<gini = 0.0<br/>samples = 2<br/>value = [0, 2]<br/>class = mau>, fillcolor="#399de5ff"] ; | ||
23 -> 24 ; | ||
25 [label=<lbph ≤ 2.1997<br/>gini = 0.375<br/>samples = 4<br/>value = [3, 1]<br/>class = bom>, fillcolor="#e58139aa"] ; | ||
23 -> 25 ; | ||
26 [label=<gini = 0.0<br/>samples = 3<br/>value = [3, 0]<br/>class = bom>, fillcolor="#e58139ff"] ; | ||
25 -> 26 ; | ||
27 [label=<gini = 0.0<br/>samples = 1<br/>value = [0, 1]<br/>class = mau>, fillcolor="#399de5ff"] ; | ||
25 -> 27 ; | ||
28 [label=<gini = 0.0<br/>samples = 25<br/>value = [0, 25]<br/>class = mau>, fillcolor="#399de5ff"] ; | ||
20 -> 28 ; | ||
} |
Binary file not shown.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,184 @@ | ||
--- | ||
title: "IF1015 -- Introdução a Ciência dos Dados" | ||
subtitle: "Aula01 -- O que é Ciência dos Dados?" | ||
author: "Renato Vimieiro <br> rv2 [em] cin.ufpe.br" | ||
date: "março -- 2017" | ||
output: | ||
ioslides_presentation: | ||
footer: "Copyright (c) 2017, Renato Vimieiro" | ||
css: mytemplate.css | ||
widescreen: true | ||
smart: true | ||
self_contained: false | ||
# mathjax: local | ||
bibliography: reference.bib | ||
fig_caption: true | ||
|
||
--- | ||
|
||
```{r setup, include=FALSE} | ||
knitr::opts_chunk$set(echo = FALSE) | ||
``` | ||
|
||
## Dilúvio de dados (1/2) | ||
|
||
- Houve uma evolução drástica da infraestrutura para armanezagem e coleta de dados nos últimos 15 anos | ||
- Praticamente todas as instituições coletam dados sobre seus processos e clientes | ||
- Estima-se que 90% de todos os dados disponíveis no mundo hoje foram coletados nos últimos 5 anos | ||
|
||
> A IBM estimou que, em 2012, 2.5 bilhões de gigabytes eram produzidos diariamente, sendo 75% dos dados não estruturados (texto, voz, vídeo e imagens) (Wall, 2014) | ||
## Dilúvio de dados (2/2) | ||
|
||
- De acordo com um estudo da EMC (Burn-Murdoch, 2012), a quantidade de dados armazenado em 2012 era de **2.8 ZB**, com projeções de chegar a **40 ZB em 2020** | ||
|
||
- Contudo, o mesmo estudo revela que, dentre esses mesmos **2.8 ZB de dados**, apenas **0.5%** foram analisados | ||
|
||
- Esse contexto mostra a necessidade eminente de usar os dados coletados para extrair informação e conhecimento. Isto é, esse é o contexto que surge *Data Science* | ||
|
||
## Oportunidades nos dados | ||
|
||
- A análise de dados para se obter vantagens competitivas não é algo novo | ||
- Empresas já contratavam times de estatísticos e/ou atuários desde o início do século passado | ||
- A mudança para os dias de hoje está na inviabilidade da análise manual desses dados | ||
- Os computadores modernos possibilitaram automatizar o cruzamento de dados, o que, consequentemente, permitiu que análises mais profundas fossem realizadas | ||
|
||
## Data Science, Data Mining, Machine Learning, Business Intelligence ... | ||
|
||
- A formalização do processo (semi)automatizado de análise de dados tem recebido diferentes nomes ao longo dos anos | ||
- Muitos dos métodos classificados como de Data Mining, também são classificados como de Aprendizado de Máquinas | ||
- Há ainda interseções (ou sobreposições) com Business Intelligence, que muitas vezes inclui métodos de data mining/machine learning e outras técnicas da área de Banco de Dados | ||
- Mais recentemente, o processo de análise de dados tem sido conhecido como Data Science | ||
|
||
## Vantagens competitivas da análise de dados | ||
|
||
- Para exemplificar as vantagens competitivas que a análise sistemática de dados pode trazer, veremos alguns casos reais de sua aplicação | ||
- São eles: | ||
- Previsão do consumo de itens em situações de emergência | ||
- Antecipação da possibilidade de troca de cia telefônicas | ||
- Avaliação de crédito | ||
|
||
## Previsão do consumo de itens em situações de emergência (1/2) | ||
|
||
- Em 2004, um ciclone tropical (Furacão Frances) se formou nas águas do Atlântico entre a América do Sul e África, cruzando o Caribe em direção ao Atlântico norte | ||
- Dada a previsão de que o furacão atingiria a Flórida, os executivos do Wal-Mart decidiram testar algumas das suas novas armas para análise de dados (Hays, 2004) | ||
- Usando dados de outro furacão (Charley) que atingira a costa sul dos EUA no mesmo ano, eles queriam prever quais itens seriam consumidos para reforçar o estoque em suas lojas | ||
|
||
## Previsão do consumo de itens em situações de emergência (2/2) | ||
|
||
- Qual o comportamento esperado numa situação como esta? | ||
- Aumento no consumo de água mineral ou de pilhas? | ||
- Aumento no consumo de um determinado DVD? | ||
- A análise dos dados mostrou que há um aumento nas vendas de: | ||
<div class="centered"> | ||
<img src="http://cdn.alleywatch.com/wp-content/uploads/2014/07/beer-and-pop-tarts.jpg" | ||
alt="Wal-Mart previsão furacão Frances" height="58%" width="55%"> | ||
</div> | ||
|
||
|
||
## Previsão de churn em telecomunicações (1/3) | ||
|
||
- Número de telefones celulares em relação a população de acordo com o Banco Mundial | ||
|
||
<div class="centered"> | ||
<img src="http://blogs.worldbank.org/publicsphere/files/publicsphere/Johanna/Screen%20Shot%202013-07-24%20at%2012.23.41%20PM%20copy.jpg" | ||
alt="Número de celulares em relação a população" height="58%" width="55%"> | ||
</div> | ||
|
||
## Previsão de churn em telecomunicações (2/3) | ||
|
||
- O mercado de telefonia móvel já está saturado na maioria dos lugares | ||
- Estudos mostram que no Brasil já existem cerca de 250 milhões de usuários | ||
- Oportunidades reduzidas de conquistar novos clientes | ||
- Operadoras lutam para manter seus clientes e evitar migrações para outras empresas (**churn**) | ||
|
||
## Previsão de churn em telecomunicações (3/3) | ||
|
||
- Esse cenário oferece uma excelente oportunidade para entender o motivo da troca e, assim, | ||
tentar manter o cliente antes que o contrato expire | ||
- Várias empresas de telecomunicações possuem grandes equipes de cientistas de dados para | ||
estudar esse e outros problemas como fraude, planejamento de capacidade, melhoria na satisfação de clientes, ... | ||
|
||
## Análise de crédito (1/3) | ||
|
||
- Na década de 1990, Richard Fairbank e Nigel Morris revolucionaram a indústria de crédito | ||
- Eles propuseram flexibilizar as linhas de crédito (inicialmente via cartões de crédito) para os clientes de instituições financeiras | ||
- Anteriormente, as taxas e valores dos cartões de crédito eram fixos, e os clientes eram somente aprovados ou reprovados | ||
|
||
## Análise de crédito (2/3) | ||
|
||
- A proposta de Fairbank e Morris era usar as informações dos clientes para prever o risco de inadimplência e ajustar os valores consequentemente | ||
- O problema era que as instituições financeiras não possuíam essa informação | ||
- Após várias tentativas fracassadas, eles convenceram um pequeno banco (Signet Bank) a coletar esses dados para realizar a modelagem | ||
|
||
## Análise de crédito (3/3) | ||
|
||
- A coleta de dados resultou em prejuízos para o banco inicialmente, mas depois as taxas de inadimplência decaíram substancialmente, aumentando o lucro da instituição | ||
- Esse processo foi estendido a outras linhas de crédito e é o padrão das indústria atualmente | ||
- De fato, essa linha de raciocínio de aprimorar a experiência dos usuários é usada pelas gigantes da internet (Amazon, Google, Facebook, etc.) | ||
|
||
## Perfil de um cientista de dados | ||
|
||
- Vimos que data science é a sistematização da análise de dados | ||
- Assim, qual o perfil de um cientista de dados | ||
- De acordo com [Drew Conway](http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram), o profissional deve possuir o seguinte perfil | ||
|
||
<div class="centered"> | ||
<img src="https://static1.squarespace.com/static/5150aec6e4b0e340ec52710a/t/51525c33e4b0b3e0d10f77ab/1364352052403/Data_Science_VD.png?format=750w" | ||
alt="Perfil de um cientista de dados" height="38%" width="35%"> | ||
</div> | ||
|
||
## Data Science não é Big Data | ||
|
||
- Há uma frequente associação entre Data Science e Big Data | ||
- Essa associação não implica que ambos sejam a mesma coisa | ||
- Data Science é o processo de análise | ||
- Big Data é: ????? | ||
|
||
## Big Data | ||
|
||
- Big data, apesar de ser um termo muito usado, não possui uma definição precisa | ||
- Em linhas gerais, entende-se que o termo expressa grandes volumes de dados estruturados ou não | ||
- Muitas vezes é associado aos 3 V's | ||
- **Volume**: grande quantidade de dados coletados de diferentes fontes | ||
- **Velocidade**: dados de streaming (tempo real), ocorrendo atualizações constantes | ||
- **Variedade**: mistura de dados de diferentes tipos; estruturados, não-estruturados; emails, texto, áudio, vídeo, ... | ||
|
||
## O ecossistema de data science | ||
|
||
- Vimos que o perfil de um cientista de dados exige diferentes proficiências | ||
- No entanto, a pessoa normalmente possui uma área de formação básica que, certamente, ainda não é em data science | ||
- Pessoas com diferentes formações vão escolher diferentes ferramentas de trabalho | ||
- Diferentes empresas também ofertam diferentes ferramentas | ||
|
||
## O ecossistema de data science | ||
|
||
- Se fizermos uma busca pelo ecossistema de data science, encontramos | ||
|
||
<div class="centered"> | ||
<a href=https://www.datameer.com/wp-content/uploads/2016/06/matt_turck_big_data_landscape_v11r.png target="_blank"> | ||
<img src="https://www.datameer.com/wp-content/uploads/2016/06/matt_turck_big_data_landscape_v11r.png" | ||
alt="Ecossistema de data science" height="58%" width="55%"></a> | ||
</div> | ||
|
||
## O ecossistema de data science | ||
|
||
- Existem outras imagens que mostram esquematicamente a divisão das ferramentas necessárias | ||
|
||
<div class="centered"> | ||
<a href="https://cdn.datafloq.com/cms/os_big_data_open_source_tools-v2.png" target="_blank"> | ||
<img src="https://cdn.datafloq.com/cms/os_big_data_open_source_tools-v2.png" | ||
alt="Ecossistema resumido de data science" height="68%" width="65%"></a> | ||
</div> | ||
|
||
|
||
|
||
## Referências | ||
|
||
<font size=3> | ||
Wall, M. (2014) *Big Data: Are you ready for blast-off?*. BBC News. http://www.bbc.com/news/business-26383058 | ||
|
||
Burn-Murdoch, J. (2012) *Study: less than 1% of the world's data is analysed, over 80% is unprotected*. The Guardian. https://www.theguardian.com/news/datablog/2012/dec/19/big-data-study-digital-universe-global-volume | ||
|
||
Hays, C. L. (2004) *What Wal-Mart Knows About Customers' Habits*. The New York Times. http://www.nytimes.com/2004/11/14/business/yourmoney/what-walmart-knows-about-customers-habits.html | ||
</font> |
Oops, something went wrong.