SlideShare una empresa de Scribd logo
DataMiningBernardo A. Robelo Jirónbernardorobelo.blogspot.com
Quées el Data MiningTEORÍAGrandesempresastienenvaliosainformaciónoculta y almacenada en sus bases de datosproveniente de la acumulación de info a lo largo de suhistoria.CERTEZASEsosdatos no pueden ser extraídospormétodosinformáticosconvencionalesniportécnicasestadísticastradicionales.  Se requiere de algoritmos y técnicasmáscomplejasprovenientes del área de la Inteligencia Artificial y la MatemáticaCompleja, como ser RedesNeuronales, Árboles de Decisión, RegresiónLogística, AlgoritmosGenéticos y Análisis Fractal.VALOR	Su valor radica, en que el descubrimiento de dichospatronespuedeconvertirse en el activomásimportanteparaunaempresa a la hora de toma de decisiones en susnegocios. Conociendo de estamanera con másdetalle a susclientes, la dinámica de susproductos en el mercado, realizandomodeloseficientes de predicción y determinando la influencia de las variables involucradas. SEGÚN EL MITPara el Massachusetts Institute Technology, el Data Mining es una de las diez tecnologías emergentes que cambiará al Mundo.
Quées el Data Mining DEFINICIÓNLa Minería de Datos, es un conjunto de técnicasprovenientes de la Inteligencia Artificial y la MatemáticaCompleja,cuyafinalidad, en el ambienteempresarial,es la de encontrar en grandes bases de datospatronesocultos, no triviales e imposibles de detectarmedianteotrosmecanismosestadísticos; paraluegoextraerdichainformación, la cualpuedeconvertirse en el activomásimportante de unaempresa a la hora de toma de decisiones y encararfuturasestrategias de negocios.
TecnicasA. RedesNeuronalesCaracterísticas:- Sistema Artificial queemula el funcionamiento del cerebrohumano.- Son capaces de aprendermediantediferentesalgoritmos de entrenamiento.- Existendiferentestipos de RedesNeuronalesArtificiales. Su utilización y entrenamientodepende del problemaqueesténencomendadas a resolver.- Son flexibles y resistentes a errores. - Puedenprocesarse en tiempo real.- Susprincipalesusos se dan en el reconocimiento de patrones y en los modelos de predicción.- Son aplicablesporejemplo en el Mercado Bursátil, en los sistemas OCR, en la Segmentación de Clientes, en predicciones de Demanda y especialmente en Detección de Fraudes y Riesgos.Neurona HumanaNeurona ArtificialRed Neuronal Artificial
TecnicasB. Árboles de DecisiónCaracterísticas:Sistema de Predicciónbasado en reglas.- Llevan a cabo tests complejosque se ramificanhastallegar al resultadoóptimo.- Reflejanlasconsecuencias de lasdecisionestomadas a partir de los resultadosobtenidos.- Su aplicación fundamental se da en grandestiendas de supermercados o retail y en campañasdirigidas de Marketing. Analizandolas bases de datos de una de estasindustrias se puedesegmentar a la perfección a quetipo de clientes se les va a ofrecer un nuevoproducto.EJEMPLO:Unaempresalíder en electrodomésticos decide hacerunacampañaparaofrecer un nuevoproducto, un reproductor de músicaportátil de grancapacidad y con un precioaccesible. Dichaempresaposeeunagran base de datos con todaslasventasrealizadas a lo largo de 15 años de historia. Se deseaexploraresta base paraencontrarpatrones y asísegmentar a susclientes y realizarunacampaña de marketing dirigida.A continuación la solución al problema
TecnicasB. Árboles de DecisiónNotas:El árbol puede ramificarse mucho más aún y poseer un mayor número de variables.En este caso, el responsable de la campaña de Marketing, tiene buenas herramientas para optar por dirigir su campaña a personas entre 18 y 27 años de clase media, y a empleados de entre 28 y 38 años.Solución al problema anterior:Se plantea un árbol de decisión, el cual determina de manera inteligente (es parte del algoritmo) que la variable fundamental a considerar es la edad. A partir de allí se comienza a ramificar el árbol. La edad se divide en tres rangos. La segunda variable de mayor peso es el Nivel Socio Económico de la persona y su profesión. El árbol, mostrará en cada una de sus ramas un número entre 0 y 1 que indica la probabilidad de que una persona en dicho segmento compre el producto que se está ofreciendo. De esta manera, se convierte en una herramienta fundamental en la toma de decisiones para encarar una campaña de marketing eficiente. La potencia de un algoritmo de AD radica en su capacidad de ordenar y segmentar las variables de mayor a menor. Aquí los resultados en este análisis. EDAD> 3828-3818-27P=0,65P=0,61NSE ALTONSE MEDNSE BAJOProfesionalTecnico/AnalistaNSE ALTONSE MEDNSE BAJOEmpladoEstudianteP=0,81P=0,51P=0,42P=0,29P=0,37P=0,12P=0,76P=0,67
TecnicasC. RegresiónLogísticaCaracterísticas: Poderosa herramienta estadística, que en un análisis de Data Mining se conecta a bases de datos para encontrar patrones de dependencia de variables.- Sus principales aplicaciones se dan en los modelos de scoring:Bancos: Utilizan el modelo de scoring para el análisis de riesgo a la hora de otorgar un crédito.Seguros: Utilizan el modelo de scoring para clasificar clientes y diferenciar el valor de una póliza dependiendo probabilísticamente de los riesgos de cada una de las personas analizadas. En estas dos industrias, el análisis de Data Mining para los modelos de puntaje o scoring, se ha convertido en una herramienta de uso crítico.
TecnicasD. Análisis FractalCaracterísticas: Los Fractales son elementosmatemáticosqueposeen dos propiedadesbásicas:Unadimensión fractalAutosimilitud a diferentesescalas.El Análisis Fractal se aplicahoy en día en variossectorescientíficos y de negocios. En el análisisbursátil, en los estudios de series de tiempocomplejas, en la medición y dinámica del tráfico de redesy en detección de fraudes.Suscaracterísticas de poseerunadimensión no entera o fraccionaria, y el de ser autosimilares, haceque se puedamodelar y describir con mayor realismo un sistema natural, financiero o social; y porsobretodo, esunaexcelentetécnicaparacrearmodelos de predicción.En FractalTecnosespecializamos en estetipo de análisis.AplicacionesSi bien un estudio o análisis de Data Mining esaplicable a cualquierempresa con grandes o medianas bases de datos, se destaca en los siguientesrubros:A. Aplicaciones con éxito en el campo de la empresa y los negocios:- Análisis de Riesgo (Bancos, EmpresasFinancieras, Seguros)- Detección de Fraudes (Bancos, EmpresasFinancieras, Seguros, Telecomunicaciones)- Segmentación de Clientes (Diferentesindustrias a la hora de encararcampañas de Marketing)- InvestigaciónPura (Laboratorios, Empresas de TecnologíaMédica, Sociología, Psicología)- Predicción de la Demanda (Logística, Distribución de productosvarios: alimentos, diarios, revistas, etc…)- Tráfico de Redes. (Grandesproveedores de Internet, Sistemasformadosporredes de distribucíonfísicacompleja)B. Campos de Investigación- Si bien se aplicahoy en día con éxito en la simulación y predicción del Mercado Bursátil, aúnqueda un amplio campo porinvestigar, tanto en RedesNeuronales de Kohonen (mapasautoorganizados) como en el Análisis Fractal.- Sistemas de detección de intrusos y contra el robo de identidad, esotro campo en auge en el mundo de la SeguridadInformática. En estoscasos, se utilizanpotentesRedesNeuronales.C. Ciencia- Medicina, Biología y Psicología. Cualquierestudio de investigación, en practicamentecualquierárea, hoyutilizatécnicas de Data Mining paraevaluarresultados. Éxito de unanuevadrogaes un ejemploclásico- Geología y Geografía. Compresión de imágenes, estudios de superficies y terrenos (ampliamenteaplicado en el sector de petróleo).D. Aplicaciones en el Gobierno- Anti-terrorismo (Sistemaspara el entrecruzamiento de llamadastelefónicas, celulares, e-mails, tarjetas de crédito, etc … , exploración web, el software ). - Análisis de índicesmacroeconómicos y estudios de distribución social.
Data Mining comoInteligencia de NegociosLa Inteligencia de Negocios, disciplinamásconocidaporsunombre en ingléscomo Business Intelligence, tienelassiguientescaracterísticasfundamentales:Acceso a la InformaciónObtenerReportes de calidadApoyo en la toma de decisionesLas herramientasmásdestacadasparaconseguirdichospuntos son:Data Mining y Data WarehouseSistemas de Predicción y Modelado (Análisis Fractal es un ejemplo de ello)Cubos OLAPEl proceso de Data Mining, consta de variospasos, los mismosabarcan:Etapa de consultoría: Comprender el problema y determinar de lastécnicas a aplicar.Limpieza de las Bases de Datos.Correr los análisisdeterminados en la primeraetapa (redesneuronales, árboles de decisión, etc.)Comprensión de los resultados.Validación de los mismos.Portodo lo expresado en el presentedocumento, Data Mining es la herramientamáspotentequeacompaña a los responsables de unaempresa o cualquiertipo de proyecto, en el momento de la toma de decisiones de negocios y en el análisis de resultadospresentes, pasados y aúnfuturos.
DataMiningSQL Server Analysis ServicesDataMining
Como trabaja?Tipos de Algoritmos ProblemasNegociosClustering =  grouping Asociacion de segmentos y atributos.Ej: E-Commerce WebSiteClustering AlgorithmClassification =  predecir un valor especificoGran volumen de datos,  Hight-Quality Historical DataDecision TreesNaïve BayesNeural NetworkAssociation = correlacionEj: Vendedores de detalles ( Cervezas y Panales)Association AlgorithmRegression =  Prevision a un numero continuoTime SeriesLogistic RegressionSequences = Proceso y Rutas ( websites) Sequence ClusteringDeviation =  ValoresExtremos (fraudes, credit card)Decision TreeClustering
Como trabaja?Case Tables   FuenteDatosLista de Valoresqueutilizara el algoritmoNested TablesInformacionadicionalEjemplo: Customer Table9 AlgoritmosMining Structures contienen Mining Models
Algoritmos1. Association Rules2. Clustering3. Sequence Clustering4. Decision Trees5. Linear Regression6. Time Series7. Naive Bayes8. Neural Network9. Logistic Regression
Association RulesAlgoritmo genera reglasindicandocomo los items debenaparecerjuntos.Ejemplo:Permitepredecircuando un clienteseleccionara un item,  el clienteseleccionaratambienotrotipo de item.
ClusteringEl algoritmocorremuchasiteracionesbuscandogrupos de items quetenganpropiedadessimilares.  Ejemplo:	BuscarClientes con un ciertonivel de educacionquetenganingresossimilares.  Estonosdefinira un Cluster.
Sequence ClusteringEl algoritmocombinaanalisis de secuencias con cluster paraanalizar la transicion o cambios entre estados.Ejemplo:La prediccion del cluster indicaracualtransiciones la queocurrira en base a patronespasados
Decision TreesOrganiza los datos en un Arbol de Red en el cualcadanodorepresentauna decision acerca de unacaracteristica de la informacion.El algoritmosoporta la prediccion de los atributos o caracteristicas.
Linear RegressionEs unaaplicacion particular del Decision Tree paracrear un arbol de decisiones con unaraizsencilla.
Time SeriesAnaliza el tiemporelacionado con datosusandounaregresion lineal. Ejemplo:Predecirlasventasfuturas en base a lasventas en el pasado.
Naive BayesExamina un atributo en el tiempoparaanalizarcomo el atributo se relaciona a otroatributopara ser predecido.Para ejecutarloesmuyfacilperoignora la influencia de la combinaciones de otrosatributos.
Neural NetworkSimilar al sistemanerviosotrabajandoparaanalizarlasentradas(input) al sistema, cadanodo en la red tiene un peso paradeterminarlassalidas (output) del sistema de cadanodo
Logistic RegressionEs unaaplicacion del algoritmo Neural Network, soporta la prediccion de atributos de manera discrete y continous
Data Mining

Más contenido relacionado

DOCX
Mineria de datos
PPTX
Mineria de datos
PDF
Usuarios y administrador de bases de datos
PPTX
Reglas de Codd
PPT
Conceptos de diseño
PPTX
PPTX
Noción de archivo real y virtual
PDF
Data Mining Techniques
Mineria de datos
Mineria de datos
Usuarios y administrador de bases de datos
Reglas de Codd
Conceptos de diseño
Noción de archivo real y virtual
Data Mining Techniques

La actualidad más candente (20)

PPTX
Roles de los analistas de sistemas
PPTX
Exposicion mineria de datos - Franklin Rodríguez
PDF
Advanced Database System
PDF
Diseño de entradas para sistemas de información
PPTX
Unidad 3 estructura lineales
PPTX
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
PDF
7.modelado de los requerimientos escenarios y clases
PPTX
What is Machine Learning
PDF
Normalizacion de base de datos
PDF
Arboles M-Way, 2-3 y 2-3-4
PDF
DB1 Unidad 9: Concurrencia
PPTX
Big data para principiantes
PDF
Minería de datos
DOCX
Metodos de-ordenamiento
PPTX
Taller de Base de Datos - Unidad 4 seguridad
PPTX
Unidad 1. Fundamentos de Base de Datos
PPTX
Fundamentos de Ingenieria de Software - Unidad 1 modelo de negocios
PPT
Diseño de Entradas
PPTX
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
PPT
1.2 steps and functionalities
Roles de los analistas de sistemas
Exposicion mineria de datos - Franklin Rodríguez
Advanced Database System
Diseño de entradas para sistemas de información
Unidad 3 estructura lineales
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
7.modelado de los requerimientos escenarios y clases
What is Machine Learning
Normalizacion de base de datos
Arboles M-Way, 2-3 y 2-3-4
DB1 Unidad 9: Concurrencia
Big data para principiantes
Minería de datos
Metodos de-ordenamiento
Taller de Base de Datos - Unidad 4 seguridad
Unidad 1. Fundamentos de Base de Datos
Fundamentos de Ingenieria de Software - Unidad 1 modelo de negocios
Diseño de Entradas
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
1.2 steps and functionalities
Publicidad

Destacado (7)

PPT
Mineria De Datos
PDF
Aplicaciones de la mineria de datos
PPTX
Presentacion data mining (mineria de datos)- base de datos
PPTX
Minería de datos
PPT
Minería de datos Presentación
PPT
Mineria de Datos
PPTX
Técnicas e Instrumentos de Recolección de Datos
Mineria De Datos
Aplicaciones de la mineria de datos
Presentacion data mining (mineria de datos)- base de datos
Minería de datos
Minería de datos Presentación
Mineria de Datos
Técnicas e Instrumentos de Recolección de Datos
Publicidad

Similar a Data Mining (20)

PDF
MINERIA DE DATOS enfocado a ml cun 2024.pdf
PDF
Segundo Curso de Minería de Datos
PDF
Segundo Curso de Minería de Datos
PDF
Curso de Minería de Datos
PPTX
Analisis predictivo con microsoft azure
PDF
Introduccion datawarehouse
PPTX
Administración de sistemas de información estrategicos 2
PPTX
Businnes intelligence
PPTX
Fundamentos Minería Datos
PPTX
Qué es la ciencia de datos. Extraer Datos
PPTX
Desayuno Data science - Aplicaciones en métricas & Analytics
PPTX
Toma de decisiones en la gestión comercial
PPTX
Derly Diapositivas[1]
PPTX
Business intelligence diapositivas
PPTX
Inteligencia de negocios 1
PDF
Clase No.2 - Generalidades y Tecnologias .pdf
PDF
Programa Superior en Big Data
PDF
Entregable4 carmenmillansanchez
PPTX
BIG DATA 2.0 torresrojas19/02/24¿¿¿.pptx
MINERIA DE DATOS enfocado a ml cun 2024.pdf
Segundo Curso de Minería de Datos
Segundo Curso de Minería de Datos
Curso de Minería de Datos
Analisis predictivo con microsoft azure
Introduccion datawarehouse
Administración de sistemas de información estrategicos 2
Businnes intelligence
Fundamentos Minería Datos
Qué es la ciencia de datos. Extraer Datos
Desayuno Data science - Aplicaciones en métricas & Analytics
Toma de decisiones en la gestión comercial
Derly Diapositivas[1]
Business intelligence diapositivas
Inteligencia de negocios 1
Clase No.2 - Generalidades y Tecnologias .pdf
Programa Superior en Big Data
Entregable4 carmenmillansanchez
BIG DATA 2.0 torresrojas19/02/24¿¿¿.pptx

Más de brobelo (20)

PPT
Microsoft Excel 2007 - Guia de Ejercicios
PPT
Excel 2007
PPTX
PostgreSQL
PPTX
Microsoft office access 2007
PPTX
XML en .NET
PPTX
Sql server 2008
PPTX
ADO.NET
PPTX
Estructuras de Lenguaje .NET
PPTX
Tecnologia Microsoft
PPTX
Modelos De Data Mining
DOCX
Manual Analysis Services
PPTX
Analysis Services
PPTX
Bussines Intelligence
PPT
Reporting Services
PPTX
SQL SERVER Service Broker
PPT
Replicacion de Datos en SQL Server
PPTX
SQL Server - Como se Almacenan los Datos
PPT
Programacion con SQL Server 2005
PPTX
Variables en SSIS
PPTX
SQL Server Integration Services
Microsoft Excel 2007 - Guia de Ejercicios
Excel 2007
PostgreSQL
Microsoft office access 2007
XML en .NET
Sql server 2008
ADO.NET
Estructuras de Lenguaje .NET
Tecnologia Microsoft
Modelos De Data Mining
Manual Analysis Services
Analysis Services
Bussines Intelligence
Reporting Services
SQL SERVER Service Broker
Replicacion de Datos en SQL Server
SQL Server - Como se Almacenan los Datos
Programacion con SQL Server 2005
Variables en SSIS
SQL Server Integration Services

Data Mining

  • 1. DataMiningBernardo A. Robelo Jirónbernardorobelo.blogspot.com
  • 2. Quées el Data MiningTEORÍAGrandesempresastienenvaliosainformaciónoculta y almacenada en sus bases de datosproveniente de la acumulación de info a lo largo de suhistoria.CERTEZASEsosdatos no pueden ser extraídospormétodosinformáticosconvencionalesniportécnicasestadísticastradicionales. Se requiere de algoritmos y técnicasmáscomplejasprovenientes del área de la Inteligencia Artificial y la MatemáticaCompleja, como ser RedesNeuronales, Árboles de Decisión, RegresiónLogística, AlgoritmosGenéticos y Análisis Fractal.VALOR Su valor radica, en que el descubrimiento de dichospatronespuedeconvertirse en el activomásimportanteparaunaempresa a la hora de toma de decisiones en susnegocios. Conociendo de estamanera con másdetalle a susclientes, la dinámica de susproductos en el mercado, realizandomodeloseficientes de predicción y determinando la influencia de las variables involucradas. SEGÚN EL MITPara el Massachusetts Institute Technology, el Data Mining es una de las diez tecnologías emergentes que cambiará al Mundo.
  • 3. Quées el Data Mining DEFINICIÓNLa Minería de Datos, es un conjunto de técnicasprovenientes de la Inteligencia Artificial y la MatemáticaCompleja,cuyafinalidad, en el ambienteempresarial,es la de encontrar en grandes bases de datospatronesocultos, no triviales e imposibles de detectarmedianteotrosmecanismosestadísticos; paraluegoextraerdichainformación, la cualpuedeconvertirse en el activomásimportante de unaempresa a la hora de toma de decisiones y encararfuturasestrategias de negocios.
  • 4. TecnicasA. RedesNeuronalesCaracterísticas:- Sistema Artificial queemula el funcionamiento del cerebrohumano.- Son capaces de aprendermediantediferentesalgoritmos de entrenamiento.- Existendiferentestipos de RedesNeuronalesArtificiales. Su utilización y entrenamientodepende del problemaqueesténencomendadas a resolver.- Son flexibles y resistentes a errores. - Puedenprocesarse en tiempo real.- Susprincipalesusos se dan en el reconocimiento de patrones y en los modelos de predicción.- Son aplicablesporejemplo en el Mercado Bursátil, en los sistemas OCR, en la Segmentación de Clientes, en predicciones de Demanda y especialmente en Detección de Fraudes y Riesgos.Neurona HumanaNeurona ArtificialRed Neuronal Artificial
  • 5. TecnicasB. Árboles de DecisiónCaracterísticas:Sistema de Predicciónbasado en reglas.- Llevan a cabo tests complejosque se ramificanhastallegar al resultadoóptimo.- Reflejanlasconsecuencias de lasdecisionestomadas a partir de los resultadosobtenidos.- Su aplicación fundamental se da en grandestiendas de supermercados o retail y en campañasdirigidas de Marketing. Analizandolas bases de datos de una de estasindustrias se puedesegmentar a la perfección a quetipo de clientes se les va a ofrecer un nuevoproducto.EJEMPLO:Unaempresalíder en electrodomésticos decide hacerunacampañaparaofrecer un nuevoproducto, un reproductor de músicaportátil de grancapacidad y con un precioaccesible. Dichaempresaposeeunagran base de datos con todaslasventasrealizadas a lo largo de 15 años de historia. Se deseaexploraresta base paraencontrarpatrones y asísegmentar a susclientes y realizarunacampaña de marketing dirigida.A continuación la solución al problema
  • 6. TecnicasB. Árboles de DecisiónNotas:El árbol puede ramificarse mucho más aún y poseer un mayor número de variables.En este caso, el responsable de la campaña de Marketing, tiene buenas herramientas para optar por dirigir su campaña a personas entre 18 y 27 años de clase media, y a empleados de entre 28 y 38 años.Solución al problema anterior:Se plantea un árbol de decisión, el cual determina de manera inteligente (es parte del algoritmo) que la variable fundamental a considerar es la edad. A partir de allí se comienza a ramificar el árbol. La edad se divide en tres rangos. La segunda variable de mayor peso es el Nivel Socio Económico de la persona y su profesión. El árbol, mostrará en cada una de sus ramas un número entre 0 y 1 que indica la probabilidad de que una persona en dicho segmento compre el producto que se está ofreciendo. De esta manera, se convierte en una herramienta fundamental en la toma de decisiones para encarar una campaña de marketing eficiente. La potencia de un algoritmo de AD radica en su capacidad de ordenar y segmentar las variables de mayor a menor. Aquí los resultados en este análisis. EDAD> 3828-3818-27P=0,65P=0,61NSE ALTONSE MEDNSE BAJOProfesionalTecnico/AnalistaNSE ALTONSE MEDNSE BAJOEmpladoEstudianteP=0,81P=0,51P=0,42P=0,29P=0,37P=0,12P=0,76P=0,67
  • 7. TecnicasC. RegresiónLogísticaCaracterísticas: Poderosa herramienta estadística, que en un análisis de Data Mining se conecta a bases de datos para encontrar patrones de dependencia de variables.- Sus principales aplicaciones se dan en los modelos de scoring:Bancos: Utilizan el modelo de scoring para el análisis de riesgo a la hora de otorgar un crédito.Seguros: Utilizan el modelo de scoring para clasificar clientes y diferenciar el valor de una póliza dependiendo probabilísticamente de los riesgos de cada una de las personas analizadas. En estas dos industrias, el análisis de Data Mining para los modelos de puntaje o scoring, se ha convertido en una herramienta de uso crítico.
  • 8. TecnicasD. Análisis FractalCaracterísticas: Los Fractales son elementosmatemáticosqueposeen dos propiedadesbásicas:Unadimensión fractalAutosimilitud a diferentesescalas.El Análisis Fractal se aplicahoy en día en variossectorescientíficos y de negocios. En el análisisbursátil, en los estudios de series de tiempocomplejas, en la medición y dinámica del tráfico de redesy en detección de fraudes.Suscaracterísticas de poseerunadimensión no entera o fraccionaria, y el de ser autosimilares, haceque se puedamodelar y describir con mayor realismo un sistema natural, financiero o social; y porsobretodo, esunaexcelentetécnicaparacrearmodelos de predicción.En FractalTecnosespecializamos en estetipo de análisis.AplicacionesSi bien un estudio o análisis de Data Mining esaplicable a cualquierempresa con grandes o medianas bases de datos, se destaca en los siguientesrubros:A. Aplicaciones con éxito en el campo de la empresa y los negocios:- Análisis de Riesgo (Bancos, EmpresasFinancieras, Seguros)- Detección de Fraudes (Bancos, EmpresasFinancieras, Seguros, Telecomunicaciones)- Segmentación de Clientes (Diferentesindustrias a la hora de encararcampañas de Marketing)- InvestigaciónPura (Laboratorios, Empresas de TecnologíaMédica, Sociología, Psicología)- Predicción de la Demanda (Logística, Distribución de productosvarios: alimentos, diarios, revistas, etc…)- Tráfico de Redes. (Grandesproveedores de Internet, Sistemasformadosporredes de distribucíonfísicacompleja)B. Campos de Investigación- Si bien se aplicahoy en día con éxito en la simulación y predicción del Mercado Bursátil, aúnqueda un amplio campo porinvestigar, tanto en RedesNeuronales de Kohonen (mapasautoorganizados) como en el Análisis Fractal.- Sistemas de detección de intrusos y contra el robo de identidad, esotro campo en auge en el mundo de la SeguridadInformática. En estoscasos, se utilizanpotentesRedesNeuronales.C. Ciencia- Medicina, Biología y Psicología. Cualquierestudio de investigación, en practicamentecualquierárea, hoyutilizatécnicas de Data Mining paraevaluarresultados. Éxito de unanuevadrogaes un ejemploclásico- Geología y Geografía. Compresión de imágenes, estudios de superficies y terrenos (ampliamenteaplicado en el sector de petróleo).D. Aplicaciones en el Gobierno- Anti-terrorismo (Sistemaspara el entrecruzamiento de llamadastelefónicas, celulares, e-mails, tarjetas de crédito, etc … , exploración web, el software ). - Análisis de índicesmacroeconómicos y estudios de distribución social.
  • 9. Data Mining comoInteligencia de NegociosLa Inteligencia de Negocios, disciplinamásconocidaporsunombre en ingléscomo Business Intelligence, tienelassiguientescaracterísticasfundamentales:Acceso a la InformaciónObtenerReportes de calidadApoyo en la toma de decisionesLas herramientasmásdestacadasparaconseguirdichospuntos son:Data Mining y Data WarehouseSistemas de Predicción y Modelado (Análisis Fractal es un ejemplo de ello)Cubos OLAPEl proceso de Data Mining, consta de variospasos, los mismosabarcan:Etapa de consultoría: Comprender el problema y determinar de lastécnicas a aplicar.Limpieza de las Bases de Datos.Correr los análisisdeterminados en la primeraetapa (redesneuronales, árboles de decisión, etc.)Comprensión de los resultados.Validación de los mismos.Portodo lo expresado en el presentedocumento, Data Mining es la herramientamáspotentequeacompaña a los responsables de unaempresa o cualquiertipo de proyecto, en el momento de la toma de decisiones de negocios y en el análisis de resultadospresentes, pasados y aúnfuturos.
  • 10. DataMiningSQL Server Analysis ServicesDataMining
  • 11. Como trabaja?Tipos de Algoritmos ProblemasNegociosClustering = grouping Asociacion de segmentos y atributos.Ej: E-Commerce WebSiteClustering AlgorithmClassification = predecir un valor especificoGran volumen de datos, Hight-Quality Historical DataDecision TreesNaïve BayesNeural NetworkAssociation = correlacionEj: Vendedores de detalles ( Cervezas y Panales)Association AlgorithmRegression = Prevision a un numero continuoTime SeriesLogistic RegressionSequences = Proceso y Rutas ( websites) Sequence ClusteringDeviation = ValoresExtremos (fraudes, credit card)Decision TreeClustering
  • 12. Como trabaja?Case Tables  FuenteDatosLista de Valoresqueutilizara el algoritmoNested TablesInformacionadicionalEjemplo: Customer Table9 AlgoritmosMining Structures contienen Mining Models
  • 13. Algoritmos1. Association Rules2. Clustering3. Sequence Clustering4. Decision Trees5. Linear Regression6. Time Series7. Naive Bayes8. Neural Network9. Logistic Regression
  • 14. Association RulesAlgoritmo genera reglasindicandocomo los items debenaparecerjuntos.Ejemplo:Permitepredecircuando un clienteseleccionara un item, el clienteseleccionaratambienotrotipo de item.
  • 15. ClusteringEl algoritmocorremuchasiteracionesbuscandogrupos de items quetenganpropiedadessimilares. Ejemplo: BuscarClientes con un ciertonivel de educacionquetenganingresossimilares. Estonosdefinira un Cluster.
  • 16. Sequence ClusteringEl algoritmocombinaanalisis de secuencias con cluster paraanalizar la transicion o cambios entre estados.Ejemplo:La prediccion del cluster indicaracualtransiciones la queocurrira en base a patronespasados
  • 17. Decision TreesOrganiza los datos en un Arbol de Red en el cualcadanodorepresentauna decision acerca de unacaracteristica de la informacion.El algoritmosoporta la prediccion de los atributos o caracteristicas.
  • 18. Linear RegressionEs unaaplicacion particular del Decision Tree paracrear un arbol de decisiones con unaraizsencilla.
  • 19. Time SeriesAnaliza el tiemporelacionado con datosusandounaregresion lineal. Ejemplo:Predecirlasventasfuturas en base a lasventas en el pasado.
  • 20. Naive BayesExamina un atributo en el tiempoparaanalizarcomo el atributo se relaciona a otroatributopara ser predecido.Para ejecutarloesmuyfacilperoignora la influencia de la combinaciones de otrosatributos.
  • 21. Neural NetworkSimilar al sistemanerviosotrabajandoparaanalizarlasentradas(input) al sistema, cadanodo en la red tiene un peso paradeterminarlassalidas (output) del sistema de cadanodo
  • 22. Logistic RegressionEs unaaplicacion del algoritmo Neural Network, soporta la prediccion de atributos de manera discrete y continous