SlideShare una empresa de Scribd logo
Análisis de sentido en textosAlumno: Jorge Gálvez GajardoProfesor Guía: Rodrigo Alfaro ArancibiaProfesor Correferente: Guillermo Cabrera Guerrero
Descripción del proyectoIntroducciónObjetivosEstado del arteMáquinas de aprendizajeBayes ingenuoMáquinas de soporte vectorialRepresentación de lenguaje naturalClasificación de textoSoftwareCaso de estudioConclusiones y trabajo futuroContenidoJorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
Descripción del proyecto
Las opiniones tienen un impacto muy relevante en nuestra vida diaria. Gran cantidad de organizaciones e industrias están interesadas en estas opinionesCada vez hay más fuentes desde donde se pude obtener todas estas opinionesToda esta información no puede ser procesada por una persona o un grupo de personasOpinion Mining es una disciplina que mezcla la recuperación de información y la lingüística computacional.Descripción del proyecto: IntroducciónJorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso“La opinión pública es el termómetro de un monarca al cual debe constantemente consultar”              									         		                   Napoleón Bonaparte15 Diciembre de 2010
Objetivo General:Utilizar Máquinas de Aprendizaje para categorizar textos en positivo o negativo, según  sea su sentido.Objetivos Específicos:Utilizar Máquinas de Aprendizaje, eligiendo Bayes Ingenuo y Máquinas de Soporte Vectorial como técnicas  para clasificar en positivo o negativo, según sea su sentido, distintos textos extraídos de comentarios sobre películas.Desplegar resultados obtenidos y comparar técnicas utilizadas con el fin de analizar cual forma es la más eficiente para determinado tipo de texto.Habilitar una interfaz web en la cual se puedan almacenar textos para poder ser utilizados en un entrenamiento o prueba de categorización de sentido.Descripción del proyecto:ObjetivosJorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
Se han hecho investigaciones usando heurísticas lingüísticas o un set de palabras ya clasificadas [Hatzivassiloglou and McKeown, 1997; Turney and Littman, 2002].[Turney's, 2002] trabajó en clasificación de reviews utilizando aprendizaje no supervisado basado en la información que era encontrada dentro de los documentos, por ejemplo palabras como "bueno" o "malo“.[Pang y Lee, 2002] utilizan conocimiento previo de cada uno de los textos, pudiendo aplicar aprendizaje supervisado.Descripción del proyecto: Estado del arteJorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
Máquinas de aprendizaje
Máquinas de aprendizaje: Aprendizaje supervisadoJorge Gálvez Gajardo       Pontificia Universidad Católica de ValparaísoDatos de pruebaModeloPrecisiónAlgoritmo de aprendizajeDatos de entrenamientoJorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
Máquinas de aprendizaje: Bayes IngenuoModelo simple de clasificación [Duda & Hart 1973; Langley et al. 1992]Cada ejemplo observado va a modificar la probabilidad que la hipótesis formulada sea correctaLas palabras en el documento se tratan de forma independiente del contextoJorge Gálvez Gajardo       Pontificia Universidad Católica de ValparaísoClaseAtrib. 1Atrib. 2Atrib. n…….15 Diciembre de 2010
Máquinas de aprendizaje: Bayes IngenuoProblema de frecuencia cero: un término que no se encuentre en el documento nos genera una probabilidad de cero.Jorge Gálvez Gajardo       Pontificia Universidad Católica de ValparaísoNúmero de ocurrencias de t en los documentos de entrenamiento de la clase cNúmero de ocurrencias de t en el documento de prueba mas número de términos del vocabulario de entrenamiento de la clase c15 Diciembre de 2010
Máquinas de aprendizaje: Bayes IngenuoAplicando Laplacesmoothing=Número de términos del vocabulario de entrenamiento de las dos clasesJorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010Número de ocurrencias de t en los documentos de entrenamiento de la clase cNúmero de ocurrencias de t en el documento de prueba mas número de términos del vocabulario de entrenamiento de la clase c+
Máquinas de aprendizaje: Bayes IngenuoPros:
Muy fácil y rápido de implementar
Bien entendido formal y experimentalmente
Contras:
Pocas veces es el mejor rendimiento
Las ProbabilidadesPr(y|x) no son exactasJorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
Máquinas de aprendizaje: Máquinas de Soporte VectorialPertenece a la familia de clasificadores lineales ya que inducen separadores lineales o hiperplanos en espacios de características  de muy alta dimensionalidad [Vapnik 1990s]
Una SVM construye un hiperplano en un conjunto de espacio de dimensionalidad muy alta. Una buena separación entre las clases permitirá una clasificación correctaClase 2wx + b = 1mClase 1x + b = 0x + b = -1Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
Máquinas de aprendizaje: Máquinas de Soporte VectorialEl Problema:
La maximización del margen es un importante concepto en clasificación, pero no puede ser usado en problemas del mundo real.
Muchos conjuntos de datos no son linealmente separables
La Solución:
Mapear los datos a un espacio de características de dimensionalidad mayor.Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010¿?
Mapear los datos de espacio X en espacio F15 Diciembre de 2010Jorge Gálvez Gajardo       Pontificia Universidad Católica de ValparaísoMáquinas de aprendizaje: Máquinas de Soporte VectorialExiste una forma muy efectiva de calcular el producto escalar entre los vectores, utilizando el truco del kernel
Algunas funciones kernel son: Polinómica, Gaussiana, SigmoidalRepresentación de lenguaje natural
Representación de lenguaje naturalJorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010Booleano: determina si se encuentra o no la palabra en el documento.Frecuencia de términos (TF): asigna un peso a cada término del documento dependiendo del número de veces que se encuentre en dicho documento.IDF:Total de documentosNúmero de documentos que contiene el términoTF-IDF:Representación de lenguaje naturalJorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010La representación de un conjunto de documentos como vectores se conoce como  modelo de espacio vectorial [Salton, Wong and and  Yang, 1975].
Es habitual filtrar las palabras que no tienen sentido semántico (artículos, preposiciones, pronombres, etc.) llamadas stop words.Reducir palabras a su raíz es llamado Stemming el cual agrupa palabras escritas en distinta forma verbal y que tienen un mismo significado15 Diciembre de 2010Jorge Gálvez Gajardo       Pontificia Universidad Católica de ValparaísoRepresentación de lenguaje naturalbibliotecasbibliotecariobibliotec
Clasificación de texto
Clasificación de texto: DefiniciónJorge Gálvez Gajardo       Pontificia Universidad Católica de ValparaísoDocumentos sin etiquetaModeloPrecisiónAlgoritmo de aprendizajeDocumentos etiquetados15 Diciembre de 2010
Clasificación de texto: UsosClasificar:
noticias
email en Spam o no spam.
reviewde películas como positivas, negativas o neutras.
paperscomo interesantes o no interesantes.
chistes como  divertidos o fomes.Jorge Gálvez Gajardo       Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
Clasificación de texto: EjemploARGENTINE 1986/87 GRAIN/OILSEED REGISTRATIONSBUENOS AIRES, Feb 26Argentine grain board figures show crop registrations of grains, oilseeds and their products to February 11, in thousands of tonnes, showing those for future shipments month, 1986/87 total and 1985/86 total to February 12, 1986, in brackets: Bread wheat prev 1,655.8, Feb 872.0, March 164.6, total 2,692.4 (4,161.0).
 Maize Mar 48.0, total 48.0 (nil).
 Sorghum nil (nil)
 Oilseed export registrations were:
Sunflowerseed total 15.0 (7.9)

Más contenido relacionado

DOCX
Guia periodo 4
PPT
PresentacióN Bayes09
PDF
¿Pueden los androides aprender lo que es una oveja mecánica? - Alfonso Cuest...
PPTX
Naive bayes
PPT
Redes Bayesianas
PPTX
Algoritmo Naive Bayes
PPT
Clasificación de textos académicos en función de su
PDF
Presentacion 1 tics-día 1
Guia periodo 4
PresentacióN Bayes09
¿Pueden los androides aprender lo que es una oveja mecánica? - Alfonso Cuest...
Naive bayes
Redes Bayesianas
Algoritmo Naive Bayes
Clasificación de textos académicos en función de su
Presentacion 1 tics-día 1

Similar a Análisis de sentido en textos (20)

DOCX
Proyecto terminado miss gaby observaciones
PDF
Mt medina batistaproyecto_etwinning
PDF
Guía de recursos digitales
DOCX
Informatica 2 tarea 1
DOCX
Informatica 2 tarea 1
PDF
Ingles Técnico II Informática
PDF
DISEÑOS COMPLETO (1).pdf para practicar en los examenes
PDF
Análisis del proyecto
PDF
Análisis del proyecto
PDF
Recursos, herramientas y posibilidades para hacer (y dar a conocer) la invest...
PDF
Propuestafichatecnicayguiadelalumno
DOCX
Informatica 2 tarea 1 corregida
DOCX
Informatica 2 tarea 1 corregida
PPT
Software Educativo
DOC
Proyecto de aprendizaje
PDF
Guía la inteligencia artificial generativa Profesores.
PPTX
Métodos de Evaluación en Ambientes Digitales - Conceptos Basicos - Clase 1/4
DOC
Plantilla ana isabel jamundi
PPT
Conocer Las Herramientas TecnolóGicas Para La DidáCtica De La Lengua Y La Lit...
PDF
Proyecto terminado miss gaby observaciones
Mt medina batistaproyecto_etwinning
Guía de recursos digitales
Informatica 2 tarea 1
Informatica 2 tarea 1
Ingles Técnico II Informática
DISEÑOS COMPLETO (1).pdf para practicar en los examenes
Análisis del proyecto
Análisis del proyecto
Recursos, herramientas y posibilidades para hacer (y dar a conocer) la invest...
Propuestafichatecnicayguiadelalumno
Informatica 2 tarea 1 corregida
Informatica 2 tarea 1 corregida
Software Educativo
Proyecto de aprendizaje
Guía la inteligencia artificial generativa Profesores.
Métodos de Evaluación en Ambientes Digitales - Conceptos Basicos - Clase 1/4
Plantilla ana isabel jamundi
Conocer Las Herramientas TecnolóGicas Para La DidáCtica De La Lengua Y La Lit...
Publicidad

Último (20)

PDF
La Evaluacion Formativa en Nuevos Escenarios de Aprendizaje UGEL03 Ccesa007.pdf
PDF
1. Intrdoduccion y criterios de seleccion de Farm 2024.pdf
PDF
Didactica de la Investigacion Educativa SUE Ccesa007.pdf
PPTX
caso clínico iam clinica y semiología l3.pptx
PDF
Habitos de Ricos - Juan Diego Gomez Ccesa007.pdf
DOCX
2 GRADO UNIDAD 5 - 2025.docx para primaria
PDF
IDH_Guatemala_2.pdfnjjjkeioooe ,l dkdldp ekooe
PDF
COMPLETO__PROYECTO_VIVAN LOS NIÑOS Y SUS DERECHOS_EDUCADORASSOS.pdf
PDF
SESION 12 INMUNIZACIONES - CADENA DE FRÍO- SALUD FAMILIAR - PUEBLOS INDIGENAS...
PDF
el - LIBRO-PACTO-EDUCATIVO-GLOBAL-OIEC.pdf
PDF
GUIA DE: CANVA + INTELIGENCIA ARTIFICIAL
PDF
Unidad de Aprendizaje 5 de Matematica 1ro Secundaria Ccesa007.pdf
PPTX
AGENTES PATÓGENOS Y LAS PRINCIPAL ENFERMEAD.pptx
PDF
TOMO II - LITERATURA.pd plusenmas ultras
DOCX
V UNIDAD - PRIMER GRADO. del mes de agosto
PDF
Escuela de Negocios - Robert kiyosaki Ccesa007.pdf
PDF
Tomo 1 de biologia gratis ultra plusenmas
PPTX
Presentación de la Cetoacidosis diabetica.pptx
DOCX
Informe_practica pre Final.docxddadssasdddddddddddddddddddddddddddddddddddddddd
PDF
PFB-MANUAL-PRUEBA-FUNCIONES-BASICAS-pdf.pdf
La Evaluacion Formativa en Nuevos Escenarios de Aprendizaje UGEL03 Ccesa007.pdf
1. Intrdoduccion y criterios de seleccion de Farm 2024.pdf
Didactica de la Investigacion Educativa SUE Ccesa007.pdf
caso clínico iam clinica y semiología l3.pptx
Habitos de Ricos - Juan Diego Gomez Ccesa007.pdf
2 GRADO UNIDAD 5 - 2025.docx para primaria
IDH_Guatemala_2.pdfnjjjkeioooe ,l dkdldp ekooe
COMPLETO__PROYECTO_VIVAN LOS NIÑOS Y SUS DERECHOS_EDUCADORASSOS.pdf
SESION 12 INMUNIZACIONES - CADENA DE FRÍO- SALUD FAMILIAR - PUEBLOS INDIGENAS...
el - LIBRO-PACTO-EDUCATIVO-GLOBAL-OIEC.pdf
GUIA DE: CANVA + INTELIGENCIA ARTIFICIAL
Unidad de Aprendizaje 5 de Matematica 1ro Secundaria Ccesa007.pdf
AGENTES PATÓGENOS Y LAS PRINCIPAL ENFERMEAD.pptx
TOMO II - LITERATURA.pd plusenmas ultras
V UNIDAD - PRIMER GRADO. del mes de agosto
Escuela de Negocios - Robert kiyosaki Ccesa007.pdf
Tomo 1 de biologia gratis ultra plusenmas
Presentación de la Cetoacidosis diabetica.pptx
Informe_practica pre Final.docxddadssasdddddddddddddddddddddddddddddddddddddddd
PFB-MANUAL-PRUEBA-FUNCIONES-BASICAS-pdf.pdf
Publicidad

Análisis de sentido en textos

  • 1. Análisis de sentido en textosAlumno: Jorge Gálvez GajardoProfesor Guía: Rodrigo Alfaro ArancibiaProfesor Correferente: Guillermo Cabrera Guerrero
  • 2. Descripción del proyectoIntroducciónObjetivosEstado del arteMáquinas de aprendizajeBayes ingenuoMáquinas de soporte vectorialRepresentación de lenguaje naturalClasificación de textoSoftwareCaso de estudioConclusiones y trabajo futuroContenidoJorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
  • 4. Las opiniones tienen un impacto muy relevante en nuestra vida diaria. Gran cantidad de organizaciones e industrias están interesadas en estas opinionesCada vez hay más fuentes desde donde se pude obtener todas estas opinionesToda esta información no puede ser procesada por una persona o un grupo de personasOpinion Mining es una disciplina que mezcla la recuperación de información y la lingüística computacional.Descripción del proyecto: IntroducciónJorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso“La opinión pública es el termómetro de un monarca al cual debe constantemente consultar” Napoleón Bonaparte15 Diciembre de 2010
  • 5. Objetivo General:Utilizar Máquinas de Aprendizaje para categorizar textos en positivo o negativo, según sea su sentido.Objetivos Específicos:Utilizar Máquinas de Aprendizaje, eligiendo Bayes Ingenuo y Máquinas de Soporte Vectorial como técnicas para clasificar en positivo o negativo, según sea su sentido, distintos textos extraídos de comentarios sobre películas.Desplegar resultados obtenidos y comparar técnicas utilizadas con el fin de analizar cual forma es la más eficiente para determinado tipo de texto.Habilitar una interfaz web en la cual se puedan almacenar textos para poder ser utilizados en un entrenamiento o prueba de categorización de sentido.Descripción del proyecto:ObjetivosJorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
  • 6. Se han hecho investigaciones usando heurísticas lingüísticas o un set de palabras ya clasificadas [Hatzivassiloglou and McKeown, 1997; Turney and Littman, 2002].[Turney's, 2002] trabajó en clasificación de reviews utilizando aprendizaje no supervisado basado en la información que era encontrada dentro de los documentos, por ejemplo palabras como "bueno" o "malo“.[Pang y Lee, 2002] utilizan conocimiento previo de cada uno de los textos, pudiendo aplicar aprendizaje supervisado.Descripción del proyecto: Estado del arteJorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
  • 8. Máquinas de aprendizaje: Aprendizaje supervisadoJorge Gálvez Gajardo Pontificia Universidad Católica de ValparaísoDatos de pruebaModeloPrecisiónAlgoritmo de aprendizajeDatos de entrenamientoJorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
  • 9. Máquinas de aprendizaje: Bayes IngenuoModelo simple de clasificación [Duda & Hart 1973; Langley et al. 1992]Cada ejemplo observado va a modificar la probabilidad que la hipótesis formulada sea correctaLas palabras en el documento se tratan de forma independiente del contextoJorge Gálvez Gajardo Pontificia Universidad Católica de ValparaísoClaseAtrib. 1Atrib. 2Atrib. n…….15 Diciembre de 2010
  • 10. Máquinas de aprendizaje: Bayes IngenuoProblema de frecuencia cero: un término que no se encuentre en el documento nos genera una probabilidad de cero.Jorge Gálvez Gajardo Pontificia Universidad Católica de ValparaísoNúmero de ocurrencias de t en los documentos de entrenamiento de la clase cNúmero de ocurrencias de t en el documento de prueba mas número de términos del vocabulario de entrenamiento de la clase c15 Diciembre de 2010
  • 11. Máquinas de aprendizaje: Bayes IngenuoAplicando Laplacesmoothing=Número de términos del vocabulario de entrenamiento de las dos clasesJorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010Número de ocurrencias de t en los documentos de entrenamiento de la clase cNúmero de ocurrencias de t en el documento de prueba mas número de términos del vocabulario de entrenamiento de la clase c+
  • 12. Máquinas de aprendizaje: Bayes IngenuoPros:
  • 13. Muy fácil y rápido de implementar
  • 14. Bien entendido formal y experimentalmente
  • 16. Pocas veces es el mejor rendimiento
  • 17. Las ProbabilidadesPr(y|x) no son exactasJorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
  • 18. Máquinas de aprendizaje: Máquinas de Soporte VectorialPertenece a la familia de clasificadores lineales ya que inducen separadores lineales o hiperplanos en espacios de características de muy alta dimensionalidad [Vapnik 1990s]
  • 19. Una SVM construye un hiperplano en un conjunto de espacio de dimensionalidad muy alta. Una buena separación entre las clases permitirá una clasificación correctaClase 2wx + b = 1mClase 1x + b = 0x + b = -1Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
  • 20. Máquinas de aprendizaje: Máquinas de Soporte VectorialEl Problema:
  • 21. La maximización del margen es un importante concepto en clasificación, pero no puede ser usado en problemas del mundo real.
  • 22. Muchos conjuntos de datos no son linealmente separables
  • 24. Mapear los datos a un espacio de características de dimensionalidad mayor.Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010¿?
  • 25. Mapear los datos de espacio X en espacio F15 Diciembre de 2010Jorge Gálvez Gajardo Pontificia Universidad Católica de ValparaísoMáquinas de aprendizaje: Máquinas de Soporte VectorialExiste una forma muy efectiva de calcular el producto escalar entre los vectores, utilizando el truco del kernel
  • 26. Algunas funciones kernel son: Polinómica, Gaussiana, SigmoidalRepresentación de lenguaje natural
  • 27. Representación de lenguaje naturalJorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010Booleano: determina si se encuentra o no la palabra en el documento.Frecuencia de términos (TF): asigna un peso a cada término del documento dependiendo del número de veces que se encuentre en dicho documento.IDF:Total de documentosNúmero de documentos que contiene el términoTF-IDF:Representación de lenguaje naturalJorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010La representación de un conjunto de documentos como vectores se conoce como modelo de espacio vectorial [Salton, Wong and and Yang, 1975].
  • 28. Es habitual filtrar las palabras que no tienen sentido semántico (artículos, preposiciones, pronombres, etc.) llamadas stop words.Reducir palabras a su raíz es llamado Stemming el cual agrupa palabras escritas en distinta forma verbal y que tienen un mismo significado15 Diciembre de 2010Jorge Gálvez Gajardo Pontificia Universidad Católica de ValparaísoRepresentación de lenguaje naturalbibliotecasbibliotecariobibliotec
  • 30. Clasificación de texto: DefiniciónJorge Gálvez Gajardo Pontificia Universidad Católica de ValparaísoDocumentos sin etiquetaModeloPrecisiónAlgoritmo de aprendizajeDocumentos etiquetados15 Diciembre de 2010
  • 31. Clasificación de texto: UsosClasificar:
  • 33. email en Spam o no spam.
  • 34. reviewde películas como positivas, negativas o neutras.
  • 35. paperscomo interesantes o no interesantes.
  • 36. chistes como divertidos o fomes.Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
  • 37. Clasificación de texto: EjemploARGENTINE 1986/87 GRAIN/OILSEED REGISTRATIONSBUENOS AIRES, Feb 26Argentine grain board figures show crop registrations of grains, oilseeds and their products to February 11, in thousands of tonnes, showing those for future shipments month, 1986/87 total and 1985/86 total to February 12, 1986, in brackets: Bread wheat prev 1,655.8, Feb 872.0, March 164.6, total 2,692.4 (4,161.0).
  • 38. Maize Mar 48.0, total 48.0 (nil).
  • 40. Oilseed export registrations were:
  • 42. Soybean May 20.0, total 20.0 (nil)The board also detailed export registrations for subproducts, as follows....Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
  • 43. Clasificación de texto: Representaciónf()=yARGENTINE 1986/87 GRAIN/OILSEED REGISTRATIONSBUENOS AIRES, Feb 26Argentine grain board figures show crop registrations of grains, oilseeds and their products to February 11, in thousands of tonnes, showing those for future shipments month, 1986/87 total and 1985/86 total to February 12, 1986, in brackets: Bread wheat prev 1,655.8, Feb 872.0, March 164.6, total 2,692.4 (4,161.0).
  • 44. Maize Mar 48.0, total 48.0 (nil).
  • 46. Oilseed export registrations were:
  • 48. Soybean May 20.0, total 20.0 (nil)The board also detailed export registrations for subproducts, as follows....?¿Cual es la mejor representación del documento X para poder ser clasificado?Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
  • 49. f()=yARGENTINE 1986/87 GRAIN/OILSEED REGISTRATIONSBUENOS AIRES, Feb 26Argentine grain board figures show crop registrations of grains, oilseeds and their products to February 11, in thousands of tonnes, showing those for future shipments month, 1986/87 total and 1985/86 total to February 12, 1986, in brackets: Bread wheat prev 1,655.8, Feb 872.0, March 164.6, total 2,692.4 (4,161.0).
  • 50. Maize Mar 48.0, total 48.0 (nil).
  • 52. Oilseed export registrations were:
  • 54. Soybean May 20.0, total 20.0 (nil)The board also detailed export registrations for subproducts, as follows....Clasificación de texto: Lista de palabrasf()=y(argentine, 1986, 1987, grain, oilseed, registrations, buenos, aires, feb, 26, argentine, grain, board, figures, show, crop, registrations, of, grains, oilseeds, and, their, products, to, february, 11, in, …Refinamiento: remover stop words, stemming.Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
  • 55. Representación de texto: FrecuenciapalabrafrecuenciaARGENTINE 1986/87 GRAIN/OILSEEDREGISTRATIONSBUENOS AIRES, Feb 26Argentinegrain board figures show crop registrations of grains, oilseeds and their products to February 11, in thousands of tonnes, showing those for future shipments month, 1986/87 total and 1985/86 total to February 12, 1986, in brackets: Bread wheatprev 1,655.8, Feb 872.0, March 164.6, total 2,692.4 (4,161.0).
  • 56. Maize Mar 48.0, total 48.0 (nil).
  • 60. Soybean May 20.0, total 20.0 (nil)The board also detailed export registrations for subproducts, as follows....Si el orden de las palabras no importa, x puede ser un vector de frecuencias de palabras“Bag of words”: un vector x=(,…,fi,….) donde fi es la frecuencia de la i-esima palabra en el vocabularioJorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
  • 62. Se desarrolla una interfaz utilizando HTML y PHP para pre procesar los textos, obtener la precisión de Bayes Ingenuo y elegir los parámetros de los distintos kernels en la máquina de soporte vectorial utilizada.Los textos analizados se almacenan en una base de datos MySQLSe utiliza LibSVM [Chih-Chung Chang and Chih-Jen Lin, 2001-2010] para el procesamiento de textos mediante máquinas de soporte vectorial.SoftwareJorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010NBElección NB/SVMEntrego resultadosInicioBDBDObtengo resultadosElección parámetrosLibSVM
  • 63. Software:Caso de uso de alto nivel Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
  • 64. Software:Modelo base de datosJorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
  • 66. Se examinará la eficiencia de aplicar técnicas de máquinas de aprendizaje a problemas de clasificación de sentido.Set de datos:Utilizado por [Pang y Lee, 2002] consiste en 1000 reviews positivos y 1000 reviews negativos el cual son comentarios de películas obtenidos de imdb.comAplicando técnicas de máquinas de aprendizaje se clasificará su sentido (positivo o negativo)Caso de estudioJorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
  • 67. Caso de estudio:Set de datosJorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
  • 68. Caso de estudio:Resultado obtenidoJorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
  • 69. Bayes ingenuo tiende a tener relativamente menor precisión que máquinas de soporte vectorialBayes ingenuo es de más fácil implementaciónMáquinas de soporte vectorial es de mayor complejidadTemas que quedan por verificar:¿Cómo enfrentar las preguntas dentro de un texto?¿Cómo enfrentar las comparaciones dentro de un texto?¿Cómo enfrentar las negaciones dentro de un texto?Jorge Gálvez Gajardo Pontificia Universidad Católica de ValparaísoCaso de estudio:Discusión15 Diciembre de 2010
  • 71. Se han obtenido resultados satisfactorios de acuerdo a la utilización de las dos técnicas de aprendizaje supervisado.En clasificación de opiniones la representación del texto juega un papel importante en el análisis.Se ha desarrollado satisfactoriamente el software, el cual ajusta automáticamente los parámetros para obtener el mejor resultado y almacenar el modelo generado.En el futuro es posible utilizar aprendizaje no supervisado o semi supervisado al no contar con la gran mayoría de textos etiquetados desde Internet.En el futuro lograr descomponer y analizar las frases encontradas dentro de un texto ayudaría un análisis más detallado.Conclusiones y trabajo futuroJorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso15 Diciembre de 2010
  • 73. Referencias15 Diciembre de 2010Jorge Gálvez Gajardo Pontificia Universidad Católica de Valparaíso
  • 74. VasileiosHatzivassiloglou and Kathleen R. McKeown. "Predicting the Semantic Orientation of Adjectives". In Proceedings of the 35th Annual Meeting of the ACL and the 8th Conference of the European Chapter of the ACL, pages 174–181, Madrid, Spain, July 1997. Association for Computational LinguisticsTurney, P.D., and Littman, M.L. (2002), Unsupervised Learning of Semantic Orientation from a Hundred-Billion-Word Corpus, National Research Council, Institute for Information Technology, Technical Report ERB-1094Turney, P.D. (2002), Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL'02), Philadelphia, Pennsylvania, 417-42415 Diciembre de 2010Jorge Gálvez Gajardo Pontificia Universidad Católica de ValparaísoReferencias
  • 75. Thumbs up? SentimentClassificationusing Machine LearningTechniques  BoPang, Lillian Lee, and ShivakumarVaithyanathan.  Proceedings of theConferenceonEmpiricalMethods in Natural LanguageProcessing (EMNLP), pp. 79--86, 2002Duda, R. O. and Hart, P. E. (1973).  Pattern Classification and Scene Analysis.  Wiley.Pat Langley, Wayne Iba, Kevin Thompson. An Analysis of Bayesian Classifiers. In Proceedings of AAAI'1992. pp.223~228   VAPNIK…, V., The Nature of Statistical Learning Theory. 1995. NY Springer.Gerard M. Salton, A. Wong, and C. S. Yang. (1975). "A Vector Space Model for Automatic Indexing." In: Communications of the ACM Chih-Chung Chang and Chih-Jen Lin, LIBSVM : a library for support vector machines, 2001. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm15 Diciembre de 2010Jorge Gálvez Gajardo Pontificia Universidad Católica de ValparaísoReferencias