O curso apresenta os principais conceitos estatísticos necessários para qualquer análise de dados, utilizando a linguagem de programação Python, uma das mais populares e versáteis do mundo.
O curso é realiza de um projeto real com um conjunto de dados original e significativo, composto por mais de 800.000 registros e dezenas de variáveis provenientes do Exame Nacional do Ensino Médio (ENEM) de 2019. O projeto é conduzido desde o início, passando pelo carregamento do arquivo, tratamento, manipulação e mineração desses dados, até a aplicação prática das técnicas estatísticas.
Durante o curso, aprendemos os seguintes conceitos e técnicas estatísticas, tanto na teoria quanto na prática com Python:
- Amostragens: Métodos para selecionar subconjuntos representativos dos dados.
- Frequências: Contagem e visualização de dados categóricos e contínuos.
- Medidas de Centralidade: Média, mediana e moda.
- Medidas de Posição: Quartis, percentis e outros.
- Medidas de Dispersão: Variância, desvio padrão, amplitude e coeficiente de variação.
-
Probabilidades: Conceitos básicos de probabilidade e eventos.
-
Distribuições Discretas: Binomial, Poisson e outras.
-
Distribuições Contínuas: Normal, t-Student, qui-quadrado, entre outras.
-
Estatística Inferencial:
-
Intervalo de Confiança: Cálculo e interpretação.
-
Testes de Hipóteses: Testes de significância, p-valor e tipos de erros.
-
Correlação: Análise de correlação entre variáveis.
-
Regressão Linear Simples: Modelagem e interpretação de relações lineares.
Projeto Prático O projeto prático do curso consistiu em uma análise detalhada dos dados do ENEM 2019. A seguir, um resumo das etapas e técnicas aplicadas:
Utilizamos bibliotecas como pandas e numpy para carregar e visualizar os dados. Tratamento de Dados:
Lidamos com valores ausentes, outliers e erros nos dados. Realizamos transformações e padronizações necessárias. Manipulação e Mineração de Dados:
Agrupamos, filtramos e resumimos os dados para extrair informações relevantes. Exploramos visualmente os dados utilizando bibliotecas como matplotlib e seaborn. Aplicação de Técnicas Estatísticas:
Calculamos e interpretamos medidas descritivas. Aplicamos modelos probabilísticos para entender a distribuição dos dados. Realizamos testes inferenciais para tirar conclusões a partir dos dados. Ferramentas e Bibliotecas Utilizadas Python: Linguagem de programação principal do curso. Pandas: Para manipulação e análise de dados. Numpy: Para operações matemáticas e estatísticas. Matplotlib e Seaborn: Para visualização de dados. Scipy e Statsmodels: Para técnicas estatísticas avançadas.