SlideShare una empresa de Scribd logo
Análisis de sentido a textos cortosAlumno: Jorge Gálvez GajardoProfesor Guía: Rodrigo Alfaro ArancibiaProfesor Correferente: Guillermo Cabrera Guerrero
ContenidoIntroducciónObjetivosProblemáticaRepresentación de Lenguaje NaturalMáquinas de AprendizajeNaïveBayesSupport Vector MachineSoftwareSet de PruebasConclusiones y Trabajo Futuro
IntroducciónTrabajar en tesis abordando problemática actual y que podría acrecentarse.Gran cantidad de información que se genera en Internet.60 Billones de páginas web (según worldwidewebsize.com)1.100 millones de usuarios de internet y 2.000 para 2016 (según Universidad de Iowa)143 Millones de blogs, 1 millón de posts en las últimas 24 horas. (según blogpulse.com)
ObjetivosObjetivo General:Utilizar máquinas de aprendizaje para categorizar textos cortos en positivo o negativo, según sea su sentido.Objetivos Específicos:Utilizar máquinas de aprendizaje, eligiendo NaïveBayes y Maquinas de Soporte Vectorial como técnicas  para clasificar en positivo o negativo, según su sentido, distintos textos extraídos de comentarios sobre películas.Desplegar resultados obtenidos y comparar técnicas utilizadas con el fin de analizar qué forma es la más eficiente para determinado tipo de texto.Habilitar una interfaz web en la cual se pueda almacenar textos para poder ser utilizados en un entrenamiento o prueba de categorización de sentido.
ProblemáticaSe están produciendo grandes cambios en la sociedad al comentar lo que nos parece bien o mal.Analizar datos recolectados de internet para analizar patrones y tendencias. Automatizar esta tarea para lograr una mayor cantidad de datos a analizar.Apoyarse en técnicas de Recuperación de Información y en algoritmos de Machine Learning
Representación de lenguaje naturalIndexar términos:Boolean retrievalFrecuencia de términos y pesoTerm frequency Inverse document frequencyTF-IDFModelo de espacio vectorialSimilitud coseno==
Máquinas de Aprendizaje¿Cómo podemos usar computadoras para descubrir y describir patrones basados en comportamientos?Aprendizaje supervisadoEntrenamiento etiquetadoAprendizaje no supervisadoEntrenamiento no etiquetadoAprendizaje semi supervisadoAplica una combinación de las dos técnicas anteriores
NaïveBayes
Naïve BayesEs un clasificador probabilísticoCada ejemplo observado va a modificar la probabilidad de que la hipótesis formulada sea correctaLas palabras en el documento se tratan de forma independiente del contexto: Número de ocurrencias de t en los documentos de entrenamiento de la clase c: Número de ocurrencias de t en el documento de prueba mas número de términos del vocabulario de entrenamiento de la clase c
Naïve BayesAplicando Laplacesmoothing=: Número de términos del vocabulario de entrenamiento de las dos clases
Support Vector Machine
Support Vector Machine
Support Vector Machine
Set de PruebasSet de datos:Obtenida de Internet MovieDataBase (IMDb), archivada por rec.arts.movies.reviews.1000 comentarios positivos y 1000 comentarios negativosIntroducido en Pang/Lee ACL 2004
Set de Pruebas NaïveBayes660 Textos de Entrenamiento y 100 de Prueba.
Set de Pruebas SVM660 Textos de Entrenamiento y 100 de Prueba.AccuracyCostoKernel: Sigmoid, Gamma: 0.1, Costo: 0.001, Accuracy: 84%Kernel: Sigmoid, Gamma: 0.1, Costo: 0.01, Accuracy: 84%29.054 Palabras
Set de Pruebas SVM660 Textos de Entrenamiento y 100 de Prueba. Stop WordsAccuracyCostoKernel: Sigmoid, Gamma: 0.5, Costo: 0.1, Accuracy: 85%28.489 Palabras
Set de Pruebas SVM660 Textos de Entrenamiento y 100 de Prueba. StemmingAccuracyCostoKernel: Sigmoid, Gamma: 0.1, Costo: 0.001, Accuracy: 85%Kernel: Sigmoid, Gamma: 0.1, Costo: 0.01, Accuracy: 85%Kernel: Sigmoid, Gamma: 0.1, Costo: 0.1, Accuracy: 85%21.341 Palabras
Set de Pruebas SVM660 Textos de Entrenamiento y 100 de Prueba. Stop Words y StemmingAccuracyCostoKernel: Sigmoid, Gamma: 0.3, Costo: 0.1, Accuracy: 84%20.999 Palabras
Set de Pruebas – Otras Técnicas
Software – Caso de uso de alto nivel
Software – caso de uso generar modelo manual
Software – Interfaz Modelo Automático
Software – Diagrama de Actividad
Conclusiones y Trabajo FuturoSe ha utilizado NaïveBayes y Maquinas de Soporte Vectorial para clasificar en positivo o negativo, según su sentido, distintos textos extraídos de comentarios sobre películas.Los resultados obtenidos se han comparado con las distintas técnicas.Habilito una interfaz web en la cual se pueda almacenar textos para poder ser utilizados en un entrenamiento o prueba de categorización de sentido.Aplicar técnicas que aumenten el porcentaje de accuracy.
¿PREGUNTAS?

Más contenido relacionado

PPTX
O caligrama
PPT
Presentación1
PDF
Cabrera Infante acerca del "boom" (y JM Arguedas)
PPTX
Caligramas
PPT
Guillermo cabrera infante
ODT
Nuevo texto de open document
ODP
Caligramas
PPT
Expo caligramas
O caligrama
Presentación1
Cabrera Infante acerca del "boom" (y JM Arguedas)
Caligramas
Guillermo cabrera infante
Nuevo texto de open document
Caligramas
Expo caligramas

Destacado (7)

PPT
Caligramas
PPTX
PPT
Caligramas
PPTX
Caligramas
ODP
Caligramas
ODP
Caligramas
PPT
Paginas de matematicas
Caligramas
Caligramas
Caligramas
Caligramas
Caligramas
Paginas de matematicas
Publicidad

Similar a Clasificación de Textos (20)

PPTX
Evaluación de diferentes estrategias de muestreo para tratar el problema de ...
PDF
Optimizando EAs
PDF
Introduccion a Machine Learning
ODP
Optimizando Algoritmos Evolutivos - MAEB
DOCX
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
PDF
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
PPT
Propuesta_Investigación
PDF
presentacion.pdf
PPS
Tecleras en educación
PPTX
Qué es la inteligencia artificial generativa
PPT
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
PPT
Unidad de fundamentos de programacion y algoritmos
PDF
Resumen automático en Twitter
PPTX
Presentación Doctorado UNEFA ABORDAJE ATLAS.TI - SPSS FINAL.pptx
PPTX
Machine Learning en Recursos Humanos
PPT
Diseño experimental
PDF
Formulación de preguntas de alto nivel para exámenes.pdf
PPTX
Documentación útil
PPSX
SHA CEPES un sistema hipermedia adaptativo basado en estilos de aprendizaje
PDF
El Libro de la Inteligencia Artificial (versión 5)
Evaluación de diferentes estrategias de muestreo para tratar el problema de ...
Optimizando EAs
Introduccion a Machine Learning
Optimizando Algoritmos Evolutivos - MAEB
Un enfoque de aprendizaje automático supervisado para el etiquetado de mensaj...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Propuesta_Investigación
presentacion.pdf
Tecleras en educación
Qué es la inteligencia artificial generativa
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Unidad de fundamentos de programacion y algoritmos
Resumen automático en Twitter
Presentación Doctorado UNEFA ABORDAJE ATLAS.TI - SPSS FINAL.pptx
Machine Learning en Recursos Humanos
Diseño experimental
Formulación de preguntas de alto nivel para exámenes.pdf
Documentación útil
SHA CEPES un sistema hipermedia adaptativo basado en estilos de aprendizaje
El Libro de la Inteligencia Artificial (versión 5)
Publicidad

Último (20)

PPTX
El uso de las TIC en la vida cotidiana..
PDF
ADMINISTRACIÓN DE ARCHIVOS - TICS (SENA).pdf
PPTX
Propuesta BKP servidores con Acronis1.pptx
PDF
Distribucion de frecuencia exel (1).pdf
PPTX
la-historia-de-la-medicina Edna Silva.pptx
PPTX
ccna: redes de nat ipv4 stharlling cande
PPTX
CLAASIFICACIÓN DE LOS ROBOTS POR UTILIDAD
DOCX
TRABAJO GRUPAL (5) (1).docxjesjssjsjjskss
PPTX
Presentacion de Alba Curso Auditores Internos ISO 19011
PDF
TRABAJO DE TECNOLOGIA.pdf...........................
DOCX
Trabajo grupal.docxjsjsjsksjsjsskksjsjsjsj
PDF
Estrategia de Apoyo de Daylin Castaño (5).pdf
PPTX
Mecanismos-de-Propagacion de ondas electromagneticas
DOCX
TRABAJO GRUPAL (5) (1).docxsjsjskskksksksks
PDF
MANUAL de recursos humanos para ODOO.pdf
PDF
informe_fichas1y2_corregido.docx (2) (1).pdf
PDF
Documental Beyond the Code (Dossier Presentación - 2.0)
PPTX
Diapositivas Borrador Rocha Jauregui David Paolo (3).pptx
PPT
Protocolos de seguridad y mecanismos encriptación
PDF
capacitación de aire acondicionado Bgh r 410
El uso de las TIC en la vida cotidiana..
ADMINISTRACIÓN DE ARCHIVOS - TICS (SENA).pdf
Propuesta BKP servidores con Acronis1.pptx
Distribucion de frecuencia exel (1).pdf
la-historia-de-la-medicina Edna Silva.pptx
ccna: redes de nat ipv4 stharlling cande
CLAASIFICACIÓN DE LOS ROBOTS POR UTILIDAD
TRABAJO GRUPAL (5) (1).docxjesjssjsjjskss
Presentacion de Alba Curso Auditores Internos ISO 19011
TRABAJO DE TECNOLOGIA.pdf...........................
Trabajo grupal.docxjsjsjsksjsjsskksjsjsjsj
Estrategia de Apoyo de Daylin Castaño (5).pdf
Mecanismos-de-Propagacion de ondas electromagneticas
TRABAJO GRUPAL (5) (1).docxsjsjskskksksksks
MANUAL de recursos humanos para ODOO.pdf
informe_fichas1y2_corregido.docx (2) (1).pdf
Documental Beyond the Code (Dossier Presentación - 2.0)
Diapositivas Borrador Rocha Jauregui David Paolo (3).pptx
Protocolos de seguridad y mecanismos encriptación
capacitación de aire acondicionado Bgh r 410

Clasificación de Textos

  • 1. Análisis de sentido a textos cortosAlumno: Jorge Gálvez GajardoProfesor Guía: Rodrigo Alfaro ArancibiaProfesor Correferente: Guillermo Cabrera Guerrero
  • 2. ContenidoIntroducciónObjetivosProblemáticaRepresentación de Lenguaje NaturalMáquinas de AprendizajeNaïveBayesSupport Vector MachineSoftwareSet de PruebasConclusiones y Trabajo Futuro
  • 3. IntroducciónTrabajar en tesis abordando problemática actual y que podría acrecentarse.Gran cantidad de información que se genera en Internet.60 Billones de páginas web (según worldwidewebsize.com)1.100 millones de usuarios de internet y 2.000 para 2016 (según Universidad de Iowa)143 Millones de blogs, 1 millón de posts en las últimas 24 horas. (según blogpulse.com)
  • 4. ObjetivosObjetivo General:Utilizar máquinas de aprendizaje para categorizar textos cortos en positivo o negativo, según sea su sentido.Objetivos Específicos:Utilizar máquinas de aprendizaje, eligiendo NaïveBayes y Maquinas de Soporte Vectorial como técnicas para clasificar en positivo o negativo, según su sentido, distintos textos extraídos de comentarios sobre películas.Desplegar resultados obtenidos y comparar técnicas utilizadas con el fin de analizar qué forma es la más eficiente para determinado tipo de texto.Habilitar una interfaz web en la cual se pueda almacenar textos para poder ser utilizados en un entrenamiento o prueba de categorización de sentido.
  • 5. ProblemáticaSe están produciendo grandes cambios en la sociedad al comentar lo que nos parece bien o mal.Analizar datos recolectados de internet para analizar patrones y tendencias. Automatizar esta tarea para lograr una mayor cantidad de datos a analizar.Apoyarse en técnicas de Recuperación de Información y en algoritmos de Machine Learning
  • 6. Representación de lenguaje naturalIndexar términos:Boolean retrievalFrecuencia de términos y pesoTerm frequency Inverse document frequencyTF-IDFModelo de espacio vectorialSimilitud coseno==
  • 7. Máquinas de Aprendizaje¿Cómo podemos usar computadoras para descubrir y describir patrones basados en comportamientos?Aprendizaje supervisadoEntrenamiento etiquetadoAprendizaje no supervisadoEntrenamiento no etiquetadoAprendizaje semi supervisadoAplica una combinación de las dos técnicas anteriores
  • 9. Naïve BayesEs un clasificador probabilísticoCada ejemplo observado va a modificar la probabilidad de que la hipótesis formulada sea correctaLas palabras en el documento se tratan de forma independiente del contexto: Número de ocurrencias de t en los documentos de entrenamiento de la clase c: Número de ocurrencias de t en el documento de prueba mas número de términos del vocabulario de entrenamiento de la clase c
  • 10. Naïve BayesAplicando Laplacesmoothing=: Número de términos del vocabulario de entrenamiento de las dos clases
  • 14. Set de PruebasSet de datos:Obtenida de Internet MovieDataBase (IMDb), archivada por rec.arts.movies.reviews.1000 comentarios positivos y 1000 comentarios negativosIntroducido en Pang/Lee ACL 2004
  • 15. Set de Pruebas NaïveBayes660 Textos de Entrenamiento y 100 de Prueba.
  • 16. Set de Pruebas SVM660 Textos de Entrenamiento y 100 de Prueba.AccuracyCostoKernel: Sigmoid, Gamma: 0.1, Costo: 0.001, Accuracy: 84%Kernel: Sigmoid, Gamma: 0.1, Costo: 0.01, Accuracy: 84%29.054 Palabras
  • 17. Set de Pruebas SVM660 Textos de Entrenamiento y 100 de Prueba. Stop WordsAccuracyCostoKernel: Sigmoid, Gamma: 0.5, Costo: 0.1, Accuracy: 85%28.489 Palabras
  • 18. Set de Pruebas SVM660 Textos de Entrenamiento y 100 de Prueba. StemmingAccuracyCostoKernel: Sigmoid, Gamma: 0.1, Costo: 0.001, Accuracy: 85%Kernel: Sigmoid, Gamma: 0.1, Costo: 0.01, Accuracy: 85%Kernel: Sigmoid, Gamma: 0.1, Costo: 0.1, Accuracy: 85%21.341 Palabras
  • 19. Set de Pruebas SVM660 Textos de Entrenamiento y 100 de Prueba. Stop Words y StemmingAccuracyCostoKernel: Sigmoid, Gamma: 0.3, Costo: 0.1, Accuracy: 84%20.999 Palabras
  • 20. Set de Pruebas – Otras Técnicas
  • 21. Software – Caso de uso de alto nivel
  • 22. Software – caso de uso generar modelo manual
  • 23. Software – Interfaz Modelo Automático
  • 24. Software – Diagrama de Actividad
  • 25. Conclusiones y Trabajo FuturoSe ha utilizado NaïveBayes y Maquinas de Soporte Vectorial para clasificar en positivo o negativo, según su sentido, distintos textos extraídos de comentarios sobre películas.Los resultados obtenidos se han comparado con las distintas técnicas.Habilito una interfaz web en la cual se pueda almacenar textos para poder ser utilizados en un entrenamiento o prueba de categorización de sentido.Aplicar técnicas que aumenten el porcentaje de accuracy.