-
Notifications
You must be signed in to change notification settings - Fork 9
/
Copy pathaula01-datascience.html
329 lines (252 loc) · 15.9 KB
/
aula01-datascience.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
<!DOCTYPE html>
<html>
<head>
<title>IF1015 – Introdução a Ciência dos Dados</title>
<meta charset="utf-8">
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta http-equiv="X-UA-Compatible" content="chrome=1">
<meta name="generator" content="pandoc" />
<meta name="viewport" content="width=device-width, initial-scale=1">
<meta name="apple-mobile-web-app-capable" content="yes">
<base target="_blank">
<script type="text/javascript">
var SLIDE_CONFIG = {
// Slide settings
settings: {
title: 'IF1015 – Introdução a Ciência dos Dados',
subtitle: 'Aula01 – O que é Ciência dos Dados?',
useBuilds: true,
usePrettify: true,
enableSlideAreas: true,
enableTouch: true,
},
// Author information
presenters: [
{
name: 'Renato Vimieiro <br> rv2 [em] cin.ufpe.br' ,
company: '',
gplus: '',
twitter: '',
www: '',
github: ''
},
]
};
</script>
<link href="aula01-datascience_files/ioslides-13.5.1/fonts/fonts.css" rel="stylesheet" />
<link href="aula01-datascience_files/ioslides-13.5.1/theme/css/default.css" rel="stylesheet" />
<link href="aula01-datascience_files/ioslides-13.5.1/theme/css/phone.css" rel="stylesheet" />
<script src="aula01-datascience_files/ioslides-13.5.1/js/modernizr.custom.45394.js"></script>
<script src="aula01-datascience_files/ioslides-13.5.1/js/prettify/prettify.js"></script>
<script src="aula01-datascience_files/ioslides-13.5.1/js/prettify/lang-r.js"></script>
<script src="aula01-datascience_files/ioslides-13.5.1/js/prettify/lang-yaml.js"></script>
<script src="aula01-datascience_files/ioslides-13.5.1/js/hammer.js"></script>
<script src="aula01-datascience_files/ioslides-13.5.1/js/slide-controller.js"></script>
<script src="aula01-datascience_files/ioslides-13.5.1/js/slide-deck.js"></script>
<style type="text/css">
b, strong {
font-weight: bold;
}
em {
font-style: italic;
}
slides > slide {
-webkit-transition: all 0.4s ease-in-out;
-moz-transition: all 0.4s ease-in-out;
-o-transition: all 0.4s ease-in-out;
transition: all 0.4s ease-in-out;
}
.auto-fadein {
-webkit-transition: opacity 0.6s ease-in;
-webkit-transition-delay: 0.4s;
-moz-transition: opacity 0.6s ease-in 0.4s;
-o-transition: opacity 0.6s ease-in 0.4s;
transition: opacity 0.6s ease-in 0.4s;
opacity: 0;
}
</style>
<link rel="stylesheet" href="mytemplate.css" type="text/css" />
</head>
<body style="opacity: 0">
<slides class="layout-widescreen">
<slide class="title-slide segue nobackground">
<!-- The content of this hgroup is replaced programmatically through the slide_config.json. -->
<hgroup class="auto-fadein">
<h1 data-config-title><!-- populated from slide_config.json --></h1>
<h2 data-config-subtitle><!-- populated from slide_config.json --></h2>
<p data-config-presenter><!-- populated from slide_config.json --></p>
<p style="margin-top: 6px; margin-left: -2px;">março – 2017</p>
</hgroup>
</slide>
<slide class=''><hgroup><h2>Dilúvio de dados (1/2)</h2></hgroup><article id="diluvio-de-dados-12">
<ul>
<li>Houve uma evolução drástica da infraestrutura para armanezagem e coleta de dados nos últimos 15 anos</li>
<li>Praticamente todas as instituições coletam dados sobre seus processos e clientes</li>
<li>Estima-se que 90% de todos os dados disponíveis no mundo hoje foram coletados nos últimos 5 anos</li>
</ul>
<blockquote>
<p>A IBM estimou que, em 2012, 2.5 bilhões de gigabytes eram produzidos diariamente, sendo 75% dos dados não estruturados (texto, voz, vídeo e imagens) (Wall, 2014)</p>
</blockquote>
</article></slide><slide class=''><hgroup><h2>Dilúvio de dados (2/2)</h2></hgroup><article id="diluvio-de-dados-22">
<ul>
<li><p>De acordo com um estudo da EMC (Burn-Murdoch, 2012), a quantidade de dados armazenado em 2012 era de <strong>2.8 ZB</strong>, com projeções de chegar a <strong>40 ZB em 2020</strong></p></li>
<li><p>Contudo, o mesmo estudo revela que, dentre esses mesmos <strong>2.8 ZB de dados</strong>, apenas <strong>0.5%</strong> foram analisados</p></li>
<li><p>Esse contexto mostra a necessidade eminente de usar os dados coletados para extrair informação e conhecimento. Isto é, esse é o contexto que surge <em>Data Science</em></p></li>
</ul>
</article></slide><slide class=''><hgroup><h2>Oportunidades nos dados</h2></hgroup><article id="oportunidades-nos-dados">
<ul>
<li>A análise de dados para se obter vantagens competitivas não é algo novo</li>
<li>Empresas já contratavam times de estatísticos e/ou atuários desde o início do século passado</li>
<li>A mudança para os dias de hoje está na inviabilidade da análise manual desses dados</li>
<li>Os computadores modernos possibilitaram automatizar o cruzamento de dados, o que, consequentemente, permitiu que análises mais profundas fossem realizadas</li>
</ul>
</article></slide><slide class=''><hgroup><h2>Data Science, Data Mining, Machine Learning, Business Intelligence …</h2></hgroup><article id="data-science-data-mining-machine-learning-business-intelligence-...">
<ul>
<li>A formalização do processo (semi)automatizado de análise de dados tem recebido diferentes nomes ao longo dos anos</li>
<li>Muitos dos métodos classificados como de Data Mining, também são classificados como de Aprendizado de Máquinas</li>
<li>Há ainda interseções (ou sobreposições) com Business Intelligence, que muitas vezes inclui métodos de data mining/machine learning e outras técnicas da área de Banco de Dados</li>
<li>Mais recentemente, o processo de análise de dados tem sido conhecido como Data Science</li>
</ul>
</article></slide><slide class=''><hgroup><h2>Vantagens competitivas da análise de dados</h2></hgroup><article id="vantagens-competitivas-da-analise-de-dados">
<ul>
<li>Para exemplificar as vantagens competitivas que a análise sistemática de dados pode trazer, veremos alguns casos reais de sua aplicação</li>
<li>São eles:
<ul>
<li>Previsão do consumo de itens em situações de emergência</li>
<li>Antecipação da possibilidade de troca de cia telefônicas</li>
<li>Avaliação de crédito</li>
</ul></li>
</ul>
</article></slide><slide class=''><hgroup><h2>Previsão do consumo de itens em situações de emergência (1/2)</h2></hgroup><article id="previsao-do-consumo-de-itens-em-situacoes-de-emergencia-12">
<ul>
<li>Em 2004, um ciclone tropical (Furacão Frances) se formou nas águas do Atlântico entre a América do Sul e África, cruzando o Caribe em direção ao Atlântico norte</li>
<li>Dada a previsão de que o furacão atingiria a Flórida, os executivos do Wal-Mart decidiram testar algumas das suas novas armas para análise de dados (Hays, 2004)</li>
<li>Usando dados de outro furacão (Charley) que atingira a costa sul dos EUA no mesmo ano, eles queriam prever quais itens seriam consumidos para reforçar o estoque em suas lojas</li>
</ul>
</article></slide><slide class=''><hgroup><h2>Previsão do consumo de itens em situações de emergência (2/2)</h2></hgroup><article id="previsao-do-consumo-de-itens-em-situacoes-de-emergencia-22">
<ul>
<li>Qual o comportamento esperado numa situação como esta?
<ul>
<li>Aumento no consumo de água mineral ou de pilhas?</li>
<li>Aumento no consumo de um determinado DVD?</li>
</ul></li>
<li>A análise dos dados mostrou que há um aumento nas vendas de:
<div class="centered">
<img src="http://cdn.alleywatch.com/wp-content/uploads/2014/07/beer-and-pop-tarts.jpg"
alt="Wal-Mart previsão furacão Frances" height="58%" width="55%"></div></li>
</ul>
</article></slide><slide class=''><hgroup><h2>Previsão de churn em telecomunicações (1/3)</h2></hgroup><article id="previsao-de-churn-em-telecomunicacoes-13">
<ul>
<li>Número de telefones celulares em relação a população de acordo com o Banco Mundial</li>
</ul>
<div class="centered">
<p><img src="http://blogs.worldbank.org/publicsphere/files/publicsphere/Johanna/Screen%20Shot%202013-07-24%20at%2012.23.41%20PM%20copy.jpg"
alt="Número de celulares em relação a população" height="58%" width="55%"></p></div>
</article></slide><slide class=''><hgroup><h2>Previsão de churn em telecomunicações (2/3)</h2></hgroup><article id="previsao-de-churn-em-telecomunicacoes-23">
<ul>
<li>O mercado de telefonia móvel já está saturado na maioria dos lugares</li>
<li>Estudos mostram que no Brasil já existem cerca de 250 milhões de usuários</li>
<li>Oportunidades reduzidas de conquistar novos clientes</li>
<li>Operadoras lutam para manter seus clientes e evitar migrações para outras empresas (<strong>churn</strong>)</li>
</ul>
</article></slide><slide class=''><hgroup><h2>Previsão de churn em telecomunicações (3/3)</h2></hgroup><article id="previsao-de-churn-em-telecomunicacoes-33">
<ul>
<li>Esse cenário oferece uma excelente oportunidade para entender o motivo da troca e, assim, tentar manter o cliente antes que o contrato expire</li>
<li>Várias empresas de telecomunicações possuem grandes equipes de cientistas de dados para estudar esse e outros problemas como fraude, planejamento de capacidade, melhoria na satisfação de clientes, …</li>
</ul>
</article></slide><slide class=''><hgroup><h2>Análise de crédito (1/3)</h2></hgroup><article id="analise-de-credito-13">
<ul>
<li>Na década de 1990, Richard Fairbank e Nigel Morris revolucionaram a indústria de crédito</li>
<li>Eles propuseram flexibilizar as linhas de crédito (inicialmente via cartões de crédito) para os clientes de instituições financeiras</li>
<li>Anteriormente, as taxas e valores dos cartões de crédito eram fixos, e os clientes eram somente aprovados ou reprovados</li>
</ul>
</article></slide><slide class=''><hgroup><h2>Análise de crédito (2/3)</h2></hgroup><article id="analise-de-credito-23">
<ul>
<li>A proposta de Fairbank e Morris era usar as informações dos clientes para prever o risco de inadimplência e ajustar os valores consequentemente</li>
<li>O problema era que as instituições financeiras não possuíam essa informação</li>
<li>Após várias tentativas fracassadas, eles convenceram um pequeno banco (Signet Bank) a coletar esses dados para realizar a modelagem</li>
</ul>
</article></slide><slide class=''><hgroup><h2>Análise de crédito (3/3)</h2></hgroup><article id="analise-de-credito-33">
<ul>
<li>A coleta de dados resultou em prejuízos para o banco inicialmente, mas depois as taxas de inadimplência decaíram substancialmente, aumentando o lucro da instituição</li>
<li>Esse processo foi estendido a outras linhas de crédito e é o padrão das indústria atualmente</li>
<li>De fato, essa linha de raciocínio de aprimorar a experiência dos usuários é usada pelas gigantes da internet (Amazon, Google, Facebook, etc.)</li>
</ul>
</article></slide><slide class=''><hgroup><h2>Perfil de um cientista de dados</h2></hgroup><article id="perfil-de-um-cientista-de-dados">
<ul>
<li>Vimos que data science é a sistematização da análise de dados</li>
<li>Assim, qual o perfil de um cientista de dados</li>
<li>De acordo com <a href='http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram' title=''>Drew Conway</a>, o profissional deve possuir o seguinte perfil</li>
</ul>
<div class="centered">
<p><img src="https://static1.squarespace.com/static/5150aec6e4b0e340ec52710a/t/51525c33e4b0b3e0d10f77ab/1364352052403/Data_Science_VD.png?format=750w"
alt="Perfil de um cientista de dados" height="38%" width="35%"></p></div>
</article></slide><slide class=''><hgroup><h2>Data Science não é Big Data</h2></hgroup><article id="data-science-nao-e-big-data">
<ul>
<li>Há uma frequente associação entre Data Science e Big Data</li>
<li>Essa associação não implica que ambos sejam a mesma coisa</li>
<li>Data Science é o processo de análise</li>
<li>Big Data é: ?????</li>
</ul>
</article></slide><slide class=''><hgroup><h2>Big Data</h2></hgroup><article id="big-data">
<ul>
<li>Big data, apesar de ser um termo muito usado, não possui uma definição precisa</li>
<li>Em linhas gerais, entende-se que o termo expressa grandes volumes de dados estruturados ou não</li>
<li>Muitas vezes é associado aos 3 V's
<ul>
<li><strong>Volume</strong>: grande quantidade de dados coletados de diferentes fontes</li>
<li><strong>Velocidade</strong>: dados de streaming (tempo real), ocorrendo atualizações constantes</li>
<li><strong>Variedade</strong>: mistura de dados de diferentes tipos; estruturados, não-estruturados; emails, texto, áudio, vídeo, …</li>
</ul></li>
</ul>
</article></slide><slide class=''><hgroup><h2>O ecossistema de data science</h2></hgroup><article id="o-ecossistema-de-data-science">
<ul>
<li>Vimos que o perfil de um cientista de dados exige diferentes proficiências</li>
<li>No entanto, a pessoa normalmente possui uma área de formação básica que, certamente, ainda não é em data science</li>
<li>Pessoas com diferentes formações vão escolher diferentes ferramentas de trabalho</li>
<li>Diferentes empresas também ofertam diferentes ferramentas</li>
</ul>
</article></slide><slide class=''><hgroup><h2>O ecossistema de data science</h2></hgroup><article id="o-ecossistema-de-data-science-1">
<ul>
<li>Se fizermos uma busca pelo ecossistema de data science, encontramos</li>
</ul>
<div class="centered">
<p><a href=https://www.datameer.com/wp-content/uploads/2016/06/matt_turck_big_data_landscape_v11r.png target="_blank"> <img src="https://www.datameer.com/wp-content/uploads/2016/06/matt_turck_big_data_landscape_v11r.png"
alt="Ecossistema de data science" height="58%" width="55%"></a></p></div>
</article></slide><slide class=''><hgroup><h2>O ecossistema de data science</h2></hgroup><article id="o-ecossistema-de-data-science-2">
<ul>
<li>Existem outras imagens que mostram esquematicamente a divisão das ferramentas necessárias</li>
</ul>
<div class="centered">
<p><a href="https://cdn.datafloq.com/cms/os_big_data_open_source_tools-v2.png" target="_blank"> <img src="https://cdn.datafloq.com/cms/os_big_data_open_source_tools-v2.png"
alt="Ecossistema resumido de data science" height="68%" width="65%"></a></p></div>
</article></slide><slide class=''><hgroup><h2>Referências</h2></hgroup><article id="referencias">
<p><font size=3> Wall, M. (2014) <em>Big Data: Are you ready for blast-off?</em>. BBC News. <a href='http://www.bbc.com/news/business-26383058' title=''>http://www.bbc.com/news/business-26383058</a></p>
<p>Burn-Murdoch, J. (2012) <em>Study: less than 1% of the world's data is analysed, over 80% is unprotected</em>. The Guardian. <a href='https://www.theguardian.com/news/datablog/2012/dec/19/big-data-study-digital-universe-global-volume' title=''>https://www.theguardian.com/news/datablog/2012/dec/19/big-data-study-digital-universe-global-volume</a></p>
<p>Hays, C. L. (2004) <em>What Wal-Mart Knows About Customers' Habits</em>. The New York Times. <a href='http://www.nytimes.com/2004/11/14/business/yourmoney/what-walmart-knows-about-customers-habits.html' title=''>http://www.nytimes.com/2004/11/14/business/yourmoney/what-walmart-knows-about-customers-habits.html</a> </font></p></article></slide>
<slide class="backdrop"></slide>
</slides>
<!-- dynamically load mathjax for compatibility with self-contained -->
<script>
(function () {
var script = document.createElement("script");
script.type = "text/javascript";
script.src = "https://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML";
document.getElementsByTagName("head")[0].appendChild(script);
})();
</script>
<!-- map slide visiblity events into shiny -->
<script>
(function() {
if (window.jQuery) {
window.jQuery(document).on('slideleave', function(e) {
window.jQuery(e.target).trigger('hidden');
});
window.jQuery(document).on('slideenter', function(e) {
window.jQuery(e.target).trigger('shown');
});
}
})();
</script>
</body>
</html>