SlideShare uma empresa Scribd logo
Seleção de Features para Ranking
           Cristiano Nascimento <crist@dcc.ufmg.br>


                           15 de dezembro de 2009




Cristiano Nascimento   <crist@dcc.ufmg.br>   Seleção de Features para Ranking
Contexto


      Ranking em máquinas de busca
             Recuperar documentos relevantes para uma consulta
             Colocar documentos relevantes no topo do ranking
      Abordagens Clássicas utilizam poucas evidências para fazer
      ranking
      Tendência atual de pesquisa
             Utilização de várias evidências
             Aprendizagem de máquina




      Cristiano Nascimento   <crist@dcc.ufmg.br>   Seleção de Features para Ranking
Aprendizagem de Máquina para Ranking

      Por quê?
             Disponibilidade de várias evidências
             Difícil construir funções manualmente ou por meios
             determinísticos
             Espaço de busca muito grande para métodos exaustivos
      Exemplo:
             conjunto de evidências (funções): f, g, h, l
             operações: +,-,/,*
             possíveis combinações: (f+g)*(h+l), (h*g*l)/f, ...




      Cristiano Nascimento   <crist@dcc.ufmg.br>   Seleção de Features para Ranking
O problema

  Aprendizagem de Máquina:
      utilização de um conjunto de treinamento
      geração do conjunto de evidências para cada documento
  Como reduzir o esforço e os custos computacionais?
      Neste trabalho abordaremos a redução do número de features
      utilizadas
             As métricas utilizadas em classicação de texto também
             podem ser aplicadas à tarefa de ranking?
             É possível utilizar métricas que considerem informações do
             problema de ranking?




      Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
Base de Dados: LETOR 3.0


      Benchmark para Learning to Rank:
            Possuí diversas coleções (em Gov e OHSUMED)
            Utilizada em diversos trabalhos
            Resultados de baselines disponíveis na Web
            Métricas de avaliação utilizadas amplamente
      Disponível em:
            http://research.microsoft.com/en-
            us/um/beijing/projects/letor




     Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
Algumas Features da LETOR 3.0




      Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
Exemplo de entradas da LETOR 3.0




      Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
Seleção de Features

       Métricas utilizadas em classicação:
             InfoGain
             Chi-Square
       Métricas de avaliação de ranking:
             Mean Average Precision (MAP)
             NDCG
       Funcionamento:
             Faça um ranking de acordo com o valor da métrica
             Escolha as top-k features




      Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
MAP x # de Features




     Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
NDCG x # de Features




     Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
Comentários e Conclusões

   No presente trabalho:
       Exploramos a seleção de features para ranking
       Métricas de classicação = poucas evidências
       Métrica baseada em NDCG obteve a melhor ecácia
       É possível reduzir o esforço sem perder a qualidade
   Trabalhos Futuros:
       Implementar seleção aleatória de evidências
       Utilizar outras técnicas de seleção de evidências
       Utilizar outras bases de dados
       Utilizar outros algoritmos de L2R



       Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking
Obrigado! =)




Cristiano Nascimento   crist@dcc.ufmg.br   Seleção de Features para Ranking

Mais conteúdo relacionado

PDF
Storytelling For The Web: Integrate Storytelling in your Design Process
PDF
Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
PDF
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
PDF
2024 Trend Updates: What Really Works In SEO & Content Marketing
PDF
Introdução a Data Science com Python
DOCX
Fisica y sus ciencias
PDF
2024 State of Marketing Report – by Hubspot
PDF
Everything You Need To Know About ChatGPT
Storytelling For The Web: Integrate Storytelling in your Design Process
Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
2024 Trend Updates: What Really Works In SEO & Content Marketing
Introdução a Data Science com Python
Fisica y sus ciencias
2024 State of Marketing Report – by Hubspot
Everything You Need To Know About ChatGPT

Último (20)

PDF
Processos_Gerenciais_Modelos_de_Gestão.pdf
PPTX
ATIVIDADES OPERACIONAIS - BOMBEIRO CIVIL.pptx
PDF
Assunto 14 - Orçamentos de Custos e Despesas.pdf
PPTX
CDTOE - SLIDES 1ª UNIDADE APRENDIZAGEM 2024.pptx
PDF
755805723-Slides-de-Aula.pdfffffffffffffffffffffffffffff
PPTX
GERDAU – PADRÃO DE OPERAÇÃO (PO) - LIBERAÇÃO DE AMBULÂNCIA PARA REMOÇÃO MÉDIC...
PPTX
Aula de administração estrategica_mba.pptx
PPT
Slide resumoaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
PPTX
Documento de Franciele Oliveirala🖤.pptx
PDF
ATÉ_QUE_NADA_MAIS_IMPORTE_Como_viver_longe_de_um_mundo_de_performances.pdf
PPTX
Apresentacao_Atendimento_Cliente_SENAC.pptx
PPSX
10ano-Q-1-2-1-espetros-continuos-e-descontinuos.ppsx
PDF
Riscos da IA: O Guia Definitivo para Gestores sobre Governança, PL 2338 e a A...
PDF
Teoria Administrativa de Fayol llllllllllllllllllllll- 33.pdf
PDF
O Guia Definitivo do RIPD: Da Obrigação Legal (LGPD) à Vantagem Estratégica
PDF
Modelo_de_Gestão_Processos_Gerenciaiss.pdf
PDF
EMANUEL.pdffffffffffffffffffffffffffffffffffffffffff
DOCX
Artigo Cientifico Teorias e Modelos 11-07-2023.docx
PPTX
Complience em Redes Complience em Redes Aula 01Complience em Redes Aula 01
PPTX
Capacitacao_online_Monitoramento_Ciclo_PDCA.pptx Lamentamos, mas o ficheiro C...
Processos_Gerenciais_Modelos_de_Gestão.pdf
ATIVIDADES OPERACIONAIS - BOMBEIRO CIVIL.pptx
Assunto 14 - Orçamentos de Custos e Despesas.pdf
CDTOE - SLIDES 1ª UNIDADE APRENDIZAGEM 2024.pptx
755805723-Slides-de-Aula.pdfffffffffffffffffffffffffffff
GERDAU – PADRÃO DE OPERAÇÃO (PO) - LIBERAÇÃO DE AMBULÂNCIA PARA REMOÇÃO MÉDIC...
Aula de administração estrategica_mba.pptx
Slide resumoaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
Documento de Franciele Oliveirala🖤.pptx
ATÉ_QUE_NADA_MAIS_IMPORTE_Como_viver_longe_de_um_mundo_de_performances.pdf
Apresentacao_Atendimento_Cliente_SENAC.pptx
10ano-Q-1-2-1-espetros-continuos-e-descontinuos.ppsx
Riscos da IA: O Guia Definitivo para Gestores sobre Governança, PL 2338 e a A...
Teoria Administrativa de Fayol llllllllllllllllllllll- 33.pdf
O Guia Definitivo do RIPD: Da Obrigação Legal (LGPD) à Vantagem Estratégica
Modelo_de_Gestão_Processos_Gerenciaiss.pdf
EMANUEL.pdffffffffffffffffffffffffffffffffffffffffff
Artigo Cientifico Teorias e Modelos 11-07-2023.docx
Complience em Redes Complience em Redes Aula 01Complience em Redes Aula 01
Capacitacao_online_Monitoramento_Ciclo_PDCA.pptx Lamentamos, mas o ficheiro C...
Anúncio
Anúncio

Seleção de Features para Ranking

  • 1. Seleção de Features para Ranking Cristiano Nascimento <crist@dcc.ufmg.br> 15 de dezembro de 2009 Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  • 2. Contexto Ranking em máquinas de busca Recuperar documentos relevantes para uma consulta Colocar documentos relevantes no topo do ranking Abordagens Clássicas utilizam poucas evidências para fazer ranking Tendência atual de pesquisa Utilização de várias evidências Aprendizagem de máquina Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  • 3. Aprendizagem de Máquina para Ranking Por quê? Disponibilidade de várias evidências Difícil construir funções manualmente ou por meios determinísticos Espaço de busca muito grande para métodos exaustivos Exemplo: conjunto de evidências (funções): f, g, h, l operações: +,-,/,* possíveis combinações: (f+g)*(h+l), (h*g*l)/f, ... Cristiano Nascimento <crist@dcc.ufmg.br> Seleção de Features para Ranking
  • 4. O problema Aprendizagem de Máquina: utilização de um conjunto de treinamento geração do conjunto de evidências para cada documento Como reduzir o esforço e os custos computacionais? Neste trabalho abordaremos a redução do número de features utilizadas As métricas utilizadas em classicação de texto também podem ser aplicadas à tarefa de ranking? É possível utilizar métricas que considerem informações do problema de ranking? Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  • 5. Base de Dados: LETOR 3.0 Benchmark para Learning to Rank: Possuí diversas coleções (em Gov e OHSUMED) Utilizada em diversos trabalhos Resultados de baselines disponíveis na Web Métricas de avaliação utilizadas amplamente Disponível em: http://research.microsoft.com/en- us/um/beijing/projects/letor Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  • 6. Algumas Features da LETOR 3.0 Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  • 7. Exemplo de entradas da LETOR 3.0 Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  • 8. Seleção de Features Métricas utilizadas em classicação: InfoGain Chi-Square Métricas de avaliação de ranking: Mean Average Precision (MAP) NDCG Funcionamento: Faça um ranking de acordo com o valor da métrica Escolha as top-k features Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  • 9. MAP x # de Features Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  • 10. NDCG x # de Features Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  • 11. Comentários e Conclusões No presente trabalho: Exploramos a seleção de features para ranking Métricas de classicação = poucas evidências Métrica baseada em NDCG obteve a melhor ecácia É possível reduzir o esforço sem perder a qualidade Trabalhos Futuros: Implementar seleção aleatória de evidências Utilizar outras técnicas de seleção de evidências Utilizar outras bases de dados Utilizar outros algoritmos de L2R Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking
  • 12. Obrigado! =) Cristiano Nascimento crist@dcc.ufmg.br Seleção de Features para Ranking