Skip to content

Latest commit

 

History

History
91 lines (86 loc) · 6.68 KB

File metadata and controls

91 lines (86 loc) · 6.68 KB
PROJETO OBJETIVO TIPO DE DADOS TIPO MACHINE LEARNING
Recomendador de vídeos do youtube Entender Ciência de dados na prática Time Series Supervisionado
LinkedIn : https://www.linkedin.com/in/claudineien/

CICLO DE VIDA DE UMA SOLUÇÃO EM CIÊNCIA DE DADOS

DEFINIR O PROBLEMA E A SOLUÇÃO

01 QUAL É O PROBLEMA ?

Antes mesmo de iniciar um projeto de ciência de dados, você deve definir o problema que deverá ser resolvido. O problema deverá estar diretamente relacionado ao objetivo do requisito do negócio.

Definir o problema é uma responsabilidade bilateral que envolve o cientista de dados e o time de negócios da parte interessada pela solução.

Em nosso projeto O problema é : ' Muito tempo gasto buscando novos vídeos no youtube '.

02 QUAL A MELHOR SOLUÇÃO ?

O Cientista de dados é o especialista em sua área e é seu trabalho guiar/ajudar a parte interessada a encontrar o que quer e/ou o que precisa.

O Cientista de dados deve ser capaz de traduzir os requisitos do negócio em algo que possa ser resolvido matematicamente e estatisticamente.

Definir a melhor solução é uma responsabilidade bilateral : Cientista de dados e time de negócios. O processo é iterativo, que significa seguir desenhando e apresentando a solução aos parceiros de negócios até chegar ao problema e a solução ideal diretamente relacionada ao requisito da do negócio.

Em nosso projeto A solução ideal é ' Listar apenas vídeos que eu vou gostar '.

03 COMO CRIAR A/UMA SOLUÇÃO DATA SCIENCE USANDO MACHINE LEARNING ?

O Cientista de dados coleta todo e qualquer dado possível, analisa o processo da organização e o relaciona ao problema definido versus a melhor solução definida, então desenvolve o algoritmo machine learning sob determinadas amostras.

Importante :
Um algoritmo simples de inteligência artificial nos dados através de machine learning, deep learning ou neural networks deve ter um resultado igual ou melhor do que o resultado atualmente obtido sem inteligência artificial.

Em nosso projeto Criaremos um Recomendador de vídeos que irá executar um ou mais processos a seguir :

  • Exibir apenas os vídeos que eu vou gostar
  • Criar Solução com Hanking dos vídeos que primeiramente eu vou gostar seguido dos que eu menos vou gostar
  • Consultar os últimos nnn vídeos por data de upload/publicação, considerando o título, visualizações totais desde seu upload, visualizações por dia desde seu upload.
  • Estabelecer uma abordagem de ponto corte : Retornar apenas 3 que eu vou gostar
  • Ter ranking : ordenar dos vídeos eu mais vou gostar aos que eu menos vou gostar
  • Consultar pelas palavras chave : machine-learning, kaggle, datascience

04 COMO A SOLUÇÃO SERÁ USADA PRODUTIVAMENTE ?

O Cientista de dados analisa o resultado retornado por machine learning, e sob este resultado apresenta e define como devem ser tratados os novos dados.

O resultado pode ser apresentado em um Web app, Mobile app, Power BI, Google Data Studio, sistema ERP, Dashboard, Excel e/ou em qualquer outra fonte de visualização existente.

No primeiro momento é responsabilidade do Cientista de dados definir como a solução será usada produtivamente. Após ter o modelo definitivo o Cientista de dados com o time de negócios estabelecem como a solução será usada definitivamente em produção.

Em nosso projeto criaremos um Web App com link dos vídeos e as previsões ordenadas e com os seguintes dados : Título, Label, Anotações, Descrição

05 COMO SABER SE A SOLUÇÃO DEU CERTO ?

O Cientista de dados define métricas primárias e métricas secundárias de acordo com a área de negócio e dataset obtidos, compara os resultados entre solução com machine learning e os resultados atualmente conquistados sem machine learning. Este ciclo é repetido algumas vezes até o modelo estar otimizado para ser disponibilizado em ambbiente produção.

Deve haver uma métrica primária e uma ou mais métricas secundárias.

Em nosso projeto :

  • A métrica primária será : Top NNN vídeos inclusos na lista watch later
  • As métricas secundárias podem ser :
    • Quantidades NNN de vídeos assistidos até o final
    • Tempo X investido selecionando os vídeos recomendados por Machine Learning
    • Os top NNN recomendados por Machine Learning são mais assistidos do que os top NNN da busca google ? : [YES] ou [NO]


PODEMOS CONSIDERAR QUE :

  1. Etapas 01 e 02 : serve para entender todo o processo do negócio e em comum acordo com a parte interessada, definir o problema e a melhor solução.
  2. Etapas 03 e 04 : durante esta etapa é realizada a coleta dos dados e desenvolvimento do modelo em machine learning sob os processos e métricas do negócio.
  3. Etapa 05 : serve para testar e otimizar o modelo machine learning desenvolvido sob os processos e métricas do negócio e disponibilizá-lo em produção.

Dica para sair do zero com Machine Learning :
Desenvolver solução em machine learning sobre um problema resolvido diversas vezes com objetivo criar uma solução com machine learning melhor que o modelo sem machine learning.





Fontes de estudo