SlideShare uma empresa Scribd logo
Como a e a sabem
o que quer comprar e assistir?
@MumHaBR
#recommendersystems
#datascience
#predictionIO
https://br.linkedin.com/in/rafaelleonhardt
• inteligência artificial
• algoritmos e técnicas que aprendem
• extrai regras e padrões
• mineração de dados e estatísticas
Fonte: https://pt.wikipedia.org/wiki/Aprendizado_de_máquina
Áreas de aplicação
LOGÍSTICA
manutenção
rota de entrega
self-driver
carregamento
gestão de risco
ACESSO & SEGURANÇA
identificação
reconhecimento
monitoramento
robôs autônomos
ERP
manutenção
anti-fraude
otimização
ações automáticas
vendas
e-commerce
RH
turn-over
contratações
promoção
treinamentos
Introdução aos sistemas de recomendação usando Machine Learning
Introdução aos sistemas de recomendação usando Machine Learning
Areas de aplicação
COMMERCE
produtos
serviços
MARKETING
campanhas
nichos
HELP-DESK
respostas
auto-preenchimento
Métodos comuns
SUPERVISIONADO NÃO SUPERVISIONADO
Na cesta tem:
• Maça (vermelha, médio),
• Uva (verde, pequeno)
• Banana (amarela, médio), etc.
Classificações: Maça, Uva, Banana, etc
Não sei o que tem na cesta.
Atributos: cor, tamanho, etc
Grupos: A, B, C, D, E, F, etc
Tipos – NÃO PERSONALIZADOS
Tipos - PERSONALIZADOS
Passo 1 – coletar dados
Coleta de dados – EXPLÍCITA
[ ? ] Eu possuo
[ ? ] Não tenho interesse
[ ? ] Avalie este item
[ ? ] Classificação
[ ? ] Minha lista
[ ? ] Gosto de: ação, suspense, etc
Vocês são sinceros ao avaliar um produto?
Gera recomendações de alta qualidade
SEMPRE avaliam um produto?
Geralmente avaliamos poucos itens.
O que os motiva avaliarem?
Geralmente nos extremos: muito bom ou muito ruim.
Quantos filmes e séries faltam assistir para “ZERAR” o Netflix?
Um usuário consome um % pequeno de itens e avalie menos ainda.
Coleta de dados – EXPLÍCITA
Coleta de dados – IMPLÍCITA
[ ! ] Porque você comprou “It´s so easy”
[ ! ] Porque você visualizou “X”
[ ! ] Porque você compartilhou “Y”
[ ! ] Porque você assistiu “Marco Polo”
Outras formas:
• Tipo do dispositivo utilizado
• Browser utilizado
• Região de onde está acessando
• Histórico de navegação
Em um site, quais informações eles sabem de vocês?
Eles sabem, gostem ou não. (Celular, Browser, Cidade, Horário, Navegação, etc)
Vocês já compraram algo que não era para vocês?
Eu comprei o livro Slash e o Peppa Pig.
Logo, quem gosta de Guns gosta de Peppa?
Mais alguém da casa usa sua conta?
Eu escuto Guns N Roses e minha filha Xuxa.
Coleta de dados – IMPLÍCITA
Como resolver?
- detectar ações fora do padrão e ignorar
- permitir aos usuários corrigirem
Passo 2 – escolher a técnica de recomendação
Técnica – Filtragem Colaborativa por Usuário
Avaliações
Técnica – Filtragem Colaborativa por Usuário
?
? ?
? ?
Predição
Técnica – Filtragem Colaborativa por Usuário
100% 20% 80%
20% 100% 50%
80% 50% 100%
Similaridade
Opções de cálculo:
• Coseno
• Distância Euclidiana
• Coeficiente de Pearson
• Coeficiente de Jaccard
• etc
Técnica – Filtragem Colaborativa por Usuário
80%
Técnica – Filtragem Colaborativa por Usuário
Vantagens
• Não precisa de detalhes sobre os itens (produtos)
• Usuários geram mais informações voluntariamente
Técnica – Filtragem Colaborativa por Usuário
Vantagens
• Não precisa de detalhes sobre os itens (produtos)
• Usuários geram mais informações voluntariamente
Problemas
• Novos produtos e usuários
Técnica – Filtragem Colaborativa por Usuário
Vantagens
• Não precisa de detalhes sobre os itens (produtos)
• Usuários geram mais informações voluntariamente
Problemas
• Novos produtos e usuários
• Itens populares
Técnica – Filtragem Colaborativa por Usuário
Vantagens
• Não precisa de detalhes sobre os itens (produtos)
• Usuários geram mais informações voluntariamente
Problemas
• Novos produtos e usuários
• Itens populares
• Esparcidade
(avaliações do usuário X qtde produtos)
Técnica – Filtragem Colaborativa por Usuário
Vantagens
• Não precisa de detalhes sobre os itens (produtos)
• Usuários geram mais informações voluntariamente
Problemas
• Novos produtos e usuários
• Itens populares
• Esparcidade
• Maior processamento - 18 milhões de usuários
Técnica – Filtragem Colaborativa por Usuário
Vantagens
• Não precisa de detalhes sobre os itens (produtos)
• Usuários geram mais informações voluntariamente
Problemas
• Novos produtos e usuários
• Itens populares
• Esparcidade
• Maior processamento
• Precisa de um volume grande de avaliações do usuário para ser assertivo
Técnica – Filtragem Colaborativa por Produto
Avaliações
Técnica – Filtragem Colaborativa por Produto
?
? ?
? ?
Predição
Técnica – Filtragem Colaborativa por Produto
100% 90% 40% 10%
90% 100% 60% 40%
40% 60% 100% 50%
10% 40% 50% 100%
Similaridade
Técnica – Filtragem Colaborativa por Produto
Técnica – Filtragem Colaborativa por Produto
Vantagens
• Não precisa de detalhes sobre os produtos
• Menos processamento
• Menor esparcidade
• Não precisa recalcular as similaridade toda hora
Problemas
• Novos produtos e usuários
• Itens populares
• Mais complexo
Técnica – Baseada em Conteúdo
Suspense
Ação
Violência
Suspense
Violência
Sitcom
Humor
Desenho
Humor
Infantil
série dramática
e pós-
apocalíptica co
m zumbis;
sobre os
primeiros anos
de Marco Polo
no Império
Mongol
Sitcom sobre
grupo de
amigos que
vivia em Nova
York
Série britânica
de desenhos
animados para
crianças em
idade pré-
escolar
Termo Frequência Relevância
Suspense 2 8
Violência 2 8
Humor 2 8
Desenho 1 10
Amigos 1 10
de 3 6
Etc ...
TF-IDF
Técnica – Baseada em Conteúdo
Termo Frequência Relevância
Suspense 2 (walking, polo) 8
Violência 2 (walking, polo) 8
Humor 2 (freinds, peppa) 8
Desenho 1 (peppa) 10
Amigos 1 (friends) 10
de 3 (polo, friends, peppa) 6
Etc ...
TF-IDF
Pesquisar por:
• “desenho”
• Peppa
• “de amigos”
• Friends (10)
• Polo (6)
• Peppa (6)
Técnica – Baseada em Conteúdo
Vantagens
• Não depende de dados de outros usuários
• Novos produtos e não populares podem ser recomendados
Problemas
• Difícil identificar quais atributos são importantes descrever
• Novos usuários
• Mesmos itens (itens de maior relevância)
Técnicas – Híbrida
PONDERADA ALTERNADA COMBINADA
Como avaliar a precisão?
• Mean Absolute Error
• Mean Squared error
• Root Mean Squared Error
Acurácia
quanto a recomendação foi assertiva
Cobertura
% de produtos e usuários com
recomendação
Diversidade
variedade de produtos
recomendados
Passo 3 – escolher a tecnologia
Algumas...
open source machine learning stack for
building, evaluating and deploying engines
with machine learning algorithms.
Templates
O MVC de Big Data.....
DEMO
Passo 1 – importar os dados e treinar
Passo 2 – Recomendar e coletar
Introdução aos sistemas de recomendação usando Machine Learning
Onde aprender? De graça...
https://www.youtube.com/watch?v=O8-EaDoBSCQ
Obrigado!
@MumHaBR
https://br.linkedin.com/in/rafaelleonhardt

Mais conteúdo relacionado

PDF
Monitoramento de Mídias Sociais - Cásper Líbero - 07/2015 - parte 03
PPTX
Migração ou Conexão dos mundos (Varejo - E-commerce) - Palestra SEBRAE GO
PDF
Sistemas de Recomendação Aplicados a WebComo converter visitantes em comprado...
PDF
eCMetrics - Apresentação Corporativa
PPTX
Pesquisas online com EnqueteFacil.com
PDF
Reclame_Aqui
PDF
[Conferência SANTA CATARINA 2020] Data-driven: como vender mais tendo como no...
PPTX
EBAI2010 - PREDICTA - Etnografia digital | Projeto piloto com mulheres de cla...
Monitoramento de Mídias Sociais - Cásper Líbero - 07/2015 - parte 03
Migração ou Conexão dos mundos (Varejo - E-commerce) - Palestra SEBRAE GO
Sistemas de Recomendação Aplicados a WebComo converter visitantes em comprado...
eCMetrics - Apresentação Corporativa
Pesquisas online com EnqueteFacil.com
Reclame_Aqui
[Conferência SANTA CATARINA 2020] Data-driven: como vender mais tendo como no...
EBAI2010 - PREDICTA - Etnografia digital | Projeto piloto com mulheres de cla...

Semelhante a Introdução aos sistemas de recomendação usando Machine Learning (20)

PPTX
A Criação de uma Fantástica Experiência de Compras
PDF
Cultura de experimentação na OLX - OLX - Thiago Belluf - Product Camp 2017
PPT
Apresentacao Netquest 2011
PPTX
Workshop Validação #SWCaxiasDoSul 2016
PDF
Aprendizagem de máquina aplicada na neurociência
PDF
O que, por que e como VALIDAR sua ideia - #SWCAXIASDOSUL
PDF
Monitoramento de redes sociais
PDF
Pesquisas em tempo real
PDF
Experiência do cliente 2.0 Omnichannel e o futuro das lojas fisicas - Sérgio ...
PPTX
5 Formas de Transformar o Google no Maior Ativo da sua Empresa | Magowebinar ...
PPT
Pesquisa De Marketing Full
PDF
Uf pa jan13
PPTX
Aula Sistemas De Marketing
PPTX
Teste em produção - Paraiso ou Inferno?
PDF
AI na jornada do usuário de ecommerce
PPTX
"Como iniciar e promover seu e commerce com a Plataforma JET ONE"
PPTX
Obter sucesso através das redes sociais [Seminário II, Utad - 15 - 05 - 2012]
PDF
Testes de usabilidade com uma pitada de lean ux
PPTX
[Pcamp19] - Marcelo Abreu (Kenoby) - Identificando os talentos do seu process...
A Criação de uma Fantástica Experiência de Compras
Cultura de experimentação na OLX - OLX - Thiago Belluf - Product Camp 2017
Apresentacao Netquest 2011
Workshop Validação #SWCaxiasDoSul 2016
Aprendizagem de máquina aplicada na neurociência
O que, por que e como VALIDAR sua ideia - #SWCAXIASDOSUL
Monitoramento de redes sociais
Pesquisas em tempo real
Experiência do cliente 2.0 Omnichannel e o futuro das lojas fisicas - Sérgio ...
5 Formas de Transformar o Google no Maior Ativo da sua Empresa | Magowebinar ...
Pesquisa De Marketing Full
Uf pa jan13
Aula Sistemas De Marketing
Teste em produção - Paraiso ou Inferno?
AI na jornada do usuário de ecommerce
"Como iniciar e promover seu e commerce com a Plataforma JET ONE"
Obter sucesso através das redes sociais [Seminário II, Utad - 15 - 05 - 2012]
Testes de usabilidade com uma pitada de lean ux
[Pcamp19] - Marcelo Abreu (Kenoby) - Identificando os talentos do seu process...
Anúncio

Último (11)

PPTX
Proposta de Implementação de uma Rede de Computador Cabeada.pptx
PDF
eBook - GUIA DE CONSULTA RAPIDA EM ROTEADORES E SWITCHES CISCO - VOL I.pdf
PPTX
Eng. Software - pontos essenciais para o início
PDF
Manejo integrado de pragas na cultura do algodão
PPTX
Viasol Energia Solar -Soluções para geração e economia de energia
PPTX
Tipos de servidor em redes de computador.pptx
PPTX
Design - Introdução a Gestalt e teoria das formas
PDF
Termos utilizados na designação de relação entre pessoa e uma obra.pdf
PPTX
Utilizando code blockes por andre backes
PPTX
Arquitetura de computadores - Memórias Secundárias
PPTX
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
Proposta de Implementação de uma Rede de Computador Cabeada.pptx
eBook - GUIA DE CONSULTA RAPIDA EM ROTEADORES E SWITCHES CISCO - VOL I.pdf
Eng. Software - pontos essenciais para o início
Manejo integrado de pragas na cultura do algodão
Viasol Energia Solar -Soluções para geração e economia de energia
Tipos de servidor em redes de computador.pptx
Design - Introdução a Gestalt e teoria das formas
Termos utilizados na designação de relação entre pessoa e uma obra.pdf
Utilizando code blockes por andre backes
Arquitetura de computadores - Memórias Secundárias
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
Anúncio

Introdução aos sistemas de recomendação usando Machine Learning

  • 1. Como a e a sabem o que quer comprar e assistir? @MumHaBR #recommendersystems #datascience #predictionIO https://br.linkedin.com/in/rafaelleonhardt
  • 2. • inteligência artificial • algoritmos e técnicas que aprendem • extrai regras e padrões • mineração de dados e estatísticas Fonte: https://pt.wikipedia.org/wiki/Aprendizado_de_máquina
  • 3. Áreas de aplicação LOGÍSTICA manutenção rota de entrega self-driver carregamento gestão de risco ACESSO & SEGURANÇA identificação reconhecimento monitoramento robôs autônomos ERP manutenção anti-fraude otimização ações automáticas vendas e-commerce RH turn-over contratações promoção treinamentos
  • 7. Métodos comuns SUPERVISIONADO NÃO SUPERVISIONADO Na cesta tem: • Maça (vermelha, médio), • Uva (verde, pequeno) • Banana (amarela, médio), etc. Classificações: Maça, Uva, Banana, etc Não sei o que tem na cesta. Atributos: cor, tamanho, etc Grupos: A, B, C, D, E, F, etc
  • 8. Tipos – NÃO PERSONALIZADOS
  • 10. Passo 1 – coletar dados
  • 11. Coleta de dados – EXPLÍCITA [ ? ] Eu possuo [ ? ] Não tenho interesse [ ? ] Avalie este item [ ? ] Classificação [ ? ] Minha lista [ ? ] Gosto de: ação, suspense, etc
  • 12. Vocês são sinceros ao avaliar um produto? Gera recomendações de alta qualidade SEMPRE avaliam um produto? Geralmente avaliamos poucos itens. O que os motiva avaliarem? Geralmente nos extremos: muito bom ou muito ruim. Quantos filmes e séries faltam assistir para “ZERAR” o Netflix? Um usuário consome um % pequeno de itens e avalie menos ainda. Coleta de dados – EXPLÍCITA
  • 13. Coleta de dados – IMPLÍCITA [ ! ] Porque você comprou “It´s so easy” [ ! ] Porque você visualizou “X” [ ! ] Porque você compartilhou “Y” [ ! ] Porque você assistiu “Marco Polo” Outras formas: • Tipo do dispositivo utilizado • Browser utilizado • Região de onde está acessando • Histórico de navegação
  • 14. Em um site, quais informações eles sabem de vocês? Eles sabem, gostem ou não. (Celular, Browser, Cidade, Horário, Navegação, etc) Vocês já compraram algo que não era para vocês? Eu comprei o livro Slash e o Peppa Pig. Logo, quem gosta de Guns gosta de Peppa? Mais alguém da casa usa sua conta? Eu escuto Guns N Roses e minha filha Xuxa. Coleta de dados – IMPLÍCITA Como resolver? - detectar ações fora do padrão e ignorar - permitir aos usuários corrigirem
  • 15. Passo 2 – escolher a técnica de recomendação
  • 16. Técnica – Filtragem Colaborativa por Usuário Avaliações
  • 17. Técnica – Filtragem Colaborativa por Usuário ? ? ? ? ? Predição
  • 18. Técnica – Filtragem Colaborativa por Usuário 100% 20% 80% 20% 100% 50% 80% 50% 100% Similaridade Opções de cálculo: • Coseno • Distância Euclidiana • Coeficiente de Pearson • Coeficiente de Jaccard • etc
  • 19. Técnica – Filtragem Colaborativa por Usuário 80%
  • 20. Técnica – Filtragem Colaborativa por Usuário Vantagens • Não precisa de detalhes sobre os itens (produtos) • Usuários geram mais informações voluntariamente
  • 21. Técnica – Filtragem Colaborativa por Usuário Vantagens • Não precisa de detalhes sobre os itens (produtos) • Usuários geram mais informações voluntariamente Problemas • Novos produtos e usuários
  • 22. Técnica – Filtragem Colaborativa por Usuário Vantagens • Não precisa de detalhes sobre os itens (produtos) • Usuários geram mais informações voluntariamente Problemas • Novos produtos e usuários • Itens populares
  • 23. Técnica – Filtragem Colaborativa por Usuário Vantagens • Não precisa de detalhes sobre os itens (produtos) • Usuários geram mais informações voluntariamente Problemas • Novos produtos e usuários • Itens populares • Esparcidade (avaliações do usuário X qtde produtos)
  • 24. Técnica – Filtragem Colaborativa por Usuário Vantagens • Não precisa de detalhes sobre os itens (produtos) • Usuários geram mais informações voluntariamente Problemas • Novos produtos e usuários • Itens populares • Esparcidade • Maior processamento - 18 milhões de usuários
  • 25. Técnica – Filtragem Colaborativa por Usuário Vantagens • Não precisa de detalhes sobre os itens (produtos) • Usuários geram mais informações voluntariamente Problemas • Novos produtos e usuários • Itens populares • Esparcidade • Maior processamento • Precisa de um volume grande de avaliações do usuário para ser assertivo
  • 26. Técnica – Filtragem Colaborativa por Produto Avaliações
  • 27. Técnica – Filtragem Colaborativa por Produto ? ? ? ? ? Predição
  • 28. Técnica – Filtragem Colaborativa por Produto 100% 90% 40% 10% 90% 100% 60% 40% 40% 60% 100% 50% 10% 40% 50% 100% Similaridade
  • 29. Técnica – Filtragem Colaborativa por Produto
  • 30. Técnica – Filtragem Colaborativa por Produto Vantagens • Não precisa de detalhes sobre os produtos • Menos processamento • Menor esparcidade • Não precisa recalcular as similaridade toda hora Problemas • Novos produtos e usuários • Itens populares • Mais complexo
  • 31. Técnica – Baseada em Conteúdo Suspense Ação Violência Suspense Violência Sitcom Humor Desenho Humor Infantil série dramática e pós- apocalíptica co m zumbis; sobre os primeiros anos de Marco Polo no Império Mongol Sitcom sobre grupo de amigos que vivia em Nova York Série britânica de desenhos animados para crianças em idade pré- escolar Termo Frequência Relevância Suspense 2 8 Violência 2 8 Humor 2 8 Desenho 1 10 Amigos 1 10 de 3 6 Etc ... TF-IDF
  • 32. Técnica – Baseada em Conteúdo Termo Frequência Relevância Suspense 2 (walking, polo) 8 Violência 2 (walking, polo) 8 Humor 2 (freinds, peppa) 8 Desenho 1 (peppa) 10 Amigos 1 (friends) 10 de 3 (polo, friends, peppa) 6 Etc ... TF-IDF Pesquisar por: • “desenho” • Peppa • “de amigos” • Friends (10) • Polo (6) • Peppa (6)
  • 33. Técnica – Baseada em Conteúdo Vantagens • Não depende de dados de outros usuários • Novos produtos e não populares podem ser recomendados Problemas • Difícil identificar quais atributos são importantes descrever • Novos usuários • Mesmos itens (itens de maior relevância)
  • 34. Técnicas – Híbrida PONDERADA ALTERNADA COMBINADA
  • 35. Como avaliar a precisão? • Mean Absolute Error • Mean Squared error • Root Mean Squared Error Acurácia quanto a recomendação foi assertiva Cobertura % de produtos e usuários com recomendação Diversidade variedade de produtos recomendados
  • 36. Passo 3 – escolher a tecnologia
  • 38. open source machine learning stack for building, evaluating and deploying engines with machine learning algorithms.
  • 40. O MVC de Big Data.....
  • 41. DEMO
  • 42. Passo 1 – importar os dados e treinar
  • 43. Passo 2 – Recomendar e coletar
  • 45. Onde aprender? De graça...

Notas do Editor

  • #3: sub-campo da inteligência artificial focado em algoritmos e técnicas que permitam ao computador aperfeiçoar seu desempenho em uma tarefa (melhorar o resultado) raciocínio indutivo - extrai regras e padrões de grandes conjuntos de dados “ligado” à mineração de dados. O raciocínio dedutivo, chega a conclusões. Por exemplo, todo pássaro voa; papagaio é um pássaro. Logo papagaio voa. Diferença entre - mineração de dados descobre padrões e conhecimento previamente desconhecidos. aprendizado de máquina reproduz padrões e conhecimento conhecidos aplicado a novos dados Deep learning usa redes neurais para entender padrões mais complexos. Usado no reconhecimento de imagens, textos e voz, tradução automática, etc.
  • #4: RH – gap de treinamentos, recomendar treinamentos, Acessar uma catraca em determinado momento fora do comum é um alerta de segurança? Uma pessoa que normalmente acessa alguns locais em um horário fora do comum acessa outro local? É um alerta? Carrinho: Verajo: um pedido pode ser um pgto de fraudulento? HelpDesk – perceber o tom da escrita dos chamados ou de uma ligação de voz? Busca dentro dos sistemas, “folha de pagamento” Carros dirigindo sozinho Medindo o que as pessoas estão dizendo nas redes sociais Deteccao de fraude em pgto Previsão de falhas em equipamentos na manutafura e logística, manutenção preventiva Recomhecimento de imagens Ronda de vigilantes, o vigia faz uma rota fora do comum – analise em tempo real.
  • #6: O que são os sistemas de recomendação? Vamos ver uma introdução aos sistemas de recomendação... Onde uma das técnicas mais comuns utilizadas esta o Machine Learning.
  • #7: Mail marketing Carrinho abandonado E-commerce Força de vendas Simulação de novos produtos
  • #8: Classifica no supervisionado. Agrupa no não supervisionado. Dois métodos comuns usados em recomendação. http://www.sas.com/pt_br/insights/analytics/machine-learning.html http://pt.slideshare.net/AmazonWebServicesLATAM/webinar-amazon-machine-learning?qid=7a2f4a74-039e-44b9-a068-abaed06515fd&v=&b=&from_search=12 Supervisionado Não supervisionado Dados não rotulados Mostra uma imagem de maça mas não diz que aquilo é uma maça Supervisionado O sistema recebe um conjunto de dados que já se sabe a resposta correta. Controle de fraude – já houve casos positivos e negativos de fraude. Ele aprende com o histórico para prever o futuro. Previsa de casos positivos e negativos. KNN muito usado. Não supervisionado Segmentos de clientes parecidos para uma campanha de marketing Em pesquisas de texto Por Reforço Evolutivo -
  • #9: Clientes não registrados
  • #10: Clientes registrados
  • #12: Primeiro passo é coletar dados.
  • #13: - Geram recomendações de excelente qualidade Quase nunca avaliam. O algoritmo depende do usuário tomar uma ação. Avaliam quando gostam ou não gostam MUITO, apenas nos extremos. Normalmente consumimos um percentual pequeno do que tem disponível. E avaliamos menos ainda. Espacidade.
  • #14: Simplesmente uso o serviço e ele vai coletando e armazenando informações.
  • #15: Vantagens Vocês sabem quais informações suas estão sendo armazenadas? Não depende de ação extra do usuário Desvantagens - Amazon acha que eu gosto de livros sobre Guns N Roses e Peppa Pig. Se outro usuário gosta de Guns N Roses significa que também gosta de Peppa Pig? - Netlix acha que eu gosto de Breaking Bad e Peppa Pig Vantagens – criar a imagem acessando de um iphone e destacar as informações que podem ser coletadas dispositivo, resolução, pelo IP a cidade, histórico de navegação, o que poe no carrinho de compra. desenhar na mão. Spotify – o Spotify acha que eu gosto de Heavy Metal e Xuxa. Netflix – que eu gosto de Walking Dead e Pepa Pig Tecnica para evitar isso é excluir os extremos ou itens que tem poucas combinações.
  • #16: Filtragem Colaborativa e Baseado em Conteúdo.
  • #17: Tambem chamado de Baseado em Memória. Visão simplificada dos algoritmos.
  • #18: Tambem chamado de Baseado em Memória.
  • #19: Calculos de similaridade: coseno, distancia euclidiana, correlação do coeficiente de Pearson, coeficiente de jaccard Então usa o K-nn para descobrir os vizinhos mais próximos. ALS Tambem chamado de Baseado em Memória. O que os vizinhos mais próximos gostaram?
  • #20: Montado uma lista de recomendações para o usuário.
  • #21: Esparcidade – um usuário consome um percentual pequeno dos produtos, e avalia menos ainda.
  • #22: Como melhorar.
  • #23: Colocar a planilha do slide anterior simulando as vantagens e desvantagens. Esparcidade – um usuário consome um percentual pequeno dos produtos, e avalia menos ainda.
  • #24: Colocar a planilha do slide anterior simulando as vantagens e desvantagens. Esparcidade – um usuário consome um percentual pequeno dos produtos, e avalia menos ainda.
  • #25: Colocar a planilha do slide anterior simulando as vantagens e desvantagens. Esparcidade – um usuário consome um percentual pequeno dos produtos, e avalia menos ainda. Maior processamento – criar a matriz incluindo todos os usuários, quando alguém dá um voto teria que recalcular.
  • #26: Colocar a planilha do slide anterior simulando as vantagens e desvantagens. Esparcidade – um usuário consome um percentual pequeno dos produtos, e avalia menos ainda.
  • #31: De modo geral baseado em produto é melhor que o baseado em usuário. Amazon: ~353 milhões de produtos / 350 milhões de clientes ativos em 2015 Mais complexo para definir o modelo. Menos processamento, considerando que há mais clientes do que produtos. Menor esparcidade pois geralmente um produto vai ter mais clientes que um cliente vai ter de produtos. Cada item geralmente tem um ou mais clientes que compraram. Netflix tem 60000 produtos, spotify são 20 bilhões de produtos. Porque netflix não usa essa? Perfil impacta mais pra Netflix do que na Amazon. Na amazona produtos comprados juntos podem melhorar a venda. Resposta mais a frente em hibrida.
  • #32: Recomenda itens baseados no histórico do usuário. Por exemplo, avaliando os atributos dos itens já consumidos para sugerir algo com as mesmas características. Recomenda itens baseados na pesquisa. Pesquisar por: DE + AMIGOS – sugere amigos primeiro pois tem maior peso. Ao pesquisar por humor Atributos dos itens: diretor, atores, Google AdSense usa baseado em conteúdo por exemplo no Gmail, baseado no conteúdo do email ou da pesquisa que está fazendo ou de um post em um blog. TF-IDF Term-frequency : qto mais o termo aparece maior a relevancia Inverse-Document-Frequency: qto mais aparicoes em outros documentos menor é a relevancia
  • #33: Recomenda itens baseados no histórico do usuário. Por exemplo, avaliando os atributos dos itens já consumidos para sugerir algo com as mesmas características. Recomenda itens baseados na pesquisa. Pesquisar por: DE + AMIGOS – sugere amigos primeiro pois tem maior peso. Ao pesquisar por humor Atributos dos itens: diretor, atores, Google AdSense usa baseado em conteúdo por exemplo no Gmail, baseado no conteúdo do email ou da pesquisa que está fazendo ou de um post em um blog. TF-IDF Term-frequency : qto mais o termo aparece maior a relevancia Inverse-Document-Frequency: qto mais aparicoes em outros documentos menor é a relevancia
  • #34: Novos usuários – até consumir ou pesquisar um primeiro produto.
  • #35: Todos eles acabam usando mais de uma técnica em algum momento. Média ponderada é dado um peso para cada um.
  • #36: Quantos itens diferentes (variedade) é recomendado nas Top-10 para os usuários? Variedade – não recomendar dois itens muito similares, colocar outro no lugar. MAE - Erro médio absoluto MSE - Erro Médio Quadrático RMSE - Raiz do Erro Médio Quadrático RMSE: Puv – avaliação recomendada para o item Ruv – avaliação real do usuário para o item N – quantidade de previsões feitas
  • #38: Machine Learning as a Service
  • #40: Outros, como taxa de churn, recomendação de musica, etc.
  • #48: Convite