PROJETO
OBJETIVO
TIPO DE DADOS
TIPO MACHINE LEARNING
Recomendador de vídeos do youtube
Entender Ciência de dados na prática
Time Series
Supervisionado
LinkedIn : https://www.linkedin.com/in/claudineien/
PROJETO | OBJETIVO | TIPO DE DADOS | TIPO MACHINE LEARNING |
---|---|---|---|
Recomendador de vídeos do youtube | Entender Ciência de dados na prática | Time Series | Supervisionado |
LinkedIn : https://www.linkedin.com/in/claudineien/ |
Antes mesmo de iniciar um projeto de ciência de dados, você deve definir o problema que deverá ser resolvido. O problema deverá estar diretamente relacionado ao objetivo do requisito do negócio.
Definir o problema é uma responsabilidade bilateral que envolve o cientista de dados e o time de negócios da parte interessada pela solução.
Em nosso projeto O problema é : ' Muito tempo gasto buscando novos vídeos no youtube '.
O Cientista de dados é o especialista em sua área e é seu trabalho guiar/ajudar a parte interessada a encontrar o que quer e/ou o que precisa.
O Cientista de dados deve ser capaz de traduzir os requisitos do negócio em algo que possa ser resolvido matematicamente e estatisticamente.
Definir a melhor solução é uma responsabilidade bilateral : Cientista de dados e time de negócios. O processo é iterativo, que significa seguir desenhando e apresentando a solução aos parceiros de negócios até chegar ao problema e a solução ideal diretamente relacionada ao requisito da do negócio.
Em nosso projeto A solução ideal é ' Listar apenas vídeos que eu vou gostar '.
O Cientista de dados coleta todo e qualquer dado possível, analisa o processo da organização e o relaciona ao problema definido versus a melhor solução definida, então desenvolve o algoritmo machine learning sob determinadas amostras.
Importante :
Um algoritmo simples de inteligência artificial nos dados através de machine learning, deep learning ou neural networks deve ter um resultado igual ou melhor do que o resultado atualmente obtido sem inteligência artificial.
Em nosso projeto Criaremos um Recomendador de vídeos que irá executar um ou mais processos a seguir :
- Exibir apenas os vídeos que eu vou gostar
- Criar Solução com Hanking dos vídeos que primeiramente eu vou gostar seguido dos que eu menos vou gostar
- Consultar os últimos nnn vídeos por data de upload/publicação, considerando o título, visualizações totais desde seu upload, visualizações por dia desde seu upload.
- Estabelecer uma abordagem de ponto corte : Retornar apenas 3 que eu vou gostar
- Ter ranking : ordenar dos vídeos eu mais vou gostar aos que eu menos vou gostar
- Consultar pelas palavras chave : machine-learning, kaggle, datascience
O Cientista de dados analisa o resultado retornado por machine learning, e sob este resultado apresenta e define como devem ser tratados os novos dados.
O resultado pode ser apresentado em um Web app, Mobile app, Power BI, Google Data Studio, sistema ERP, Dashboard, Excel e/ou em qualquer outra fonte de visualização existente.
No primeiro momento é responsabilidade do Cientista de dados definir como a solução será usada produtivamente. Após ter o modelo definitivo o Cientista de dados com o time de negócios estabelecem como a solução será usada definitivamente em produção.
Em nosso projeto criaremos um Web App com link dos vídeos e as previsões ordenadas e com os seguintes dados : Título, Label, Anotações, Descrição
O Cientista de dados define métricas primárias e métricas secundárias de acordo com a área de negócio e dataset obtidos, compara os resultados entre solução com machine learning e os resultados atualmente conquistados sem machine learning. Este ciclo é repetido algumas vezes até o modelo estar otimizado para ser disponibilizado em ambbiente produção.Deve haver uma métrica primária e uma ou mais métricas secundárias.
Em nosso projeto :
- A métrica primária será : Top NNN vídeos inclusos na lista watch later
- As métricas secundárias podem ser :
- Quantidades NNN de vídeos assistidos até o final
- Tempo X investido selecionando os vídeos recomendados por Machine Learning
- Os top NNN recomendados por Machine Learning são mais assistidos do que os top NNN da busca google ? : [YES] ou [NO]
- Etapas 01 e 02 : serve para entender todo o processo do negócio e em comum acordo com a parte interessada, definir o problema e a melhor solução.
- Etapas 03 e 04 : durante esta etapa é realizada a coleta dos dados e desenvolvimento do modelo em machine learning sob os processos e métricas do negócio.
- Etapa 05 : serve para testar e otimizar o modelo machine learning desenvolvido sob os processos e métricas do negócio e disponibilizá-lo em produção.
Dica para sair do zero com Machine Learning :
Desenvolver solução em machine learning sobre um problema resolvido diversas vezes com objetivo criar uma solução com machine learning melhor que o modelo sem machine learning.
Fontes de estudo
- Curso Solução Completa de Data Science - Instrutor Mario Filho-Kagle Gran Master
- Edureka