SlideShare una empresa de Scribd logo
SISTEMA DE INFORMACION GERENCIAL
ADMINISTRACION Y NEGOCIOS INTERNACIONALES
DATA MARK, DATA WAREHOUSE Y DATA MINING 1
Integrantes:
 Sánchez Ynga, Luis Alberto
 Yactayo Audante, Felipe
 Salas Valdez, Christopher
 Cuenca Barragán, Daniel
Tema:
Data Mark, Data Warehouse Y Data Mining
Carrera:
Administración Y Negocios Internacionales
Profesor:
Lic. Aliaga
2015
SISTEMA DE INFORMACION GERENCIAL
ADMINISTRACION Y NEGOCIOS INTERNACIONALES
DATA MARK, DATA WAREHOUSE Y DATA MINING 2
Introducción
Las empresas tratan de utilizar la información acumulada por las operaciones diarias de
la investigación de mercado y comercialización.
Las empresas que han estado en el negocio por un tiempo se dan cuenta de que han
acumulado enormes cantidades de datos en diversas bases de datos operacionales. Esas
bases de datos funcionan bien para los fines previstos, pero las empresas quieren los
datos para otros fines, en particular para las ventas, marketing y planificación
estratégica.
Por lo tanto, El Data Mining es el proceso de extraer información de diferentes bases
de datos de la compañía y volver a organizarlo para fines distintos a lo que las bases de
datos fueron pensados originalmente para. ¿Qué datos debe ser extraído y para qué uso
varía radicalmente de una compañía a otra, al igual que la naturaleza y organización de
los datos, por lo que no puede haber tal cosa como una "herramienta de minería de
datos" genérico.
Un Data Warehouse es un lugar donde los datos pueden ser almacenados para la
minería más conveniente. Esto generalmente será un sistema de ordenador rápido con
gran capacidad de almacenamiento de datos. Los datos de todos los sistemas de la
compañía se copia en el almacén de datos, donde será borrado y se reconcilió para
eliminar redundancias y conflictos. Consultas complejas se pueden hacer contra el
almacenamiento de información de almacenes.
Por supuesto, los datos deben ser continuamente actualizados, por lo que el proceso de
depuración y la reconciliación debe ser una característica permanente de la Galería, y
tendrá que ser modificada cada vez que las bases de datos se modifican o nuevas bases
de datos estén disponibles.
Creación y mantenimiento de un depósito de datos es un trabajo enorme, incluso para
las empresas más grandes. Puede tomar mucho tiempo y costar mucho dinero. De
hecho, es una de las principales empresas de este tipo de proyectos están recurriendo a
soluciones de Data Mart lugar.
Un Data Mart es un sistema de índice y extracción. En lugar de traer todos los datos de
la empresa en un solo almacén, el mercado de datos sabe qué datos cada base de datos
contiene y cómo extraer información de múltiples bases de datos cuando se le preguntó.
Creación de un Data Mart se puede considerar la solución "rápida y sucia", debido a que
los datos de diferentes bases de datos no se depuran y reconciliarse, pero puede ser la
diferencia entre tener la información disponible y no tenerlo disponible.
SISTEMA DE INFORMACION GERENCIAL
ADMINISTRACION Y NEGOCIOS INTERNACIONALES
DATA MARK, DATA WAREHOUSE Y DATA MINING 3
Índice
 Introducción: …………………………………………………………………..2
 Índice: ……………………………………………………………………….…3
 Dedicatoria: ……………………………………………………………….…...4
 DATA MART:………………………………………………………………....5
 Conceptos erróneos de los Data Marts:……………………………………......6
 DATA WAREHOUSE:………………………..................................................7
 Definiciones de almacén de datos:………………………………………….…8
 Ventajas e inconvenientes de los almacenes de datos:………………………...9
 DATA MINING:…………………………………………………………..…11
 Técnicas de Data Mining:…………………………………………………….12
 Ejemplos de uso de la Data Mining:………………………………………….13
 Opinión:…………………………………………………………………….....14
 Conclusión: …………………………………………………………………...15
 Bibliografías: ……………………………………………………………….....16
SISTEMA DE INFORMACION GERENCIAL
ADMINISTRACION Y NEGOCIOS INTERNACIONALES
DATA MARK, DATA WAREHOUSE Y DATA MINING 4
Dedicatoria
Primero Quiero Dedicar Este Trabajo A Dios Por Haberme Permitido Llegar Hasta Este
Punto Y Haberme Dado Salud; A Nuestro Padres Que No Apoyan Día A Día Y Al
Profesor Por Haberme Transmitidos Los Conocimientos Obtenidos Y Habernos
Llevado Pasó A Paso En El Aprendizaje
SISTEMA DE INFORMACION GERENCIAL
ADMINISTRACION Y NEGOCIOS INTERNACIONALES
DATA MARK, DATA WAREHOUSE Y DATA MINING 5
DATA MARK, DATA WAREHOUSE
Y DATA MINING
1. DATA MART
Un Data mart es una versión especial de almacén de
datos (data warehouse). Son subconjuntos de datos con
el propósito de ayudar a que un área específica dentro
del negocio pueda tomar mejores decisiones. Los datos
existentes en este contexto pueden ser agrupados,
explorados y propagados de múltiples formas para que
diversos grupos de usuarios realicen la explotación de
los mismos de la forma más conveniente según sus
necesidades.
El Data mart es un sistema orientado a la consulta, en
el que se producen procesos batch de carga de datos (altas) con una frecuencia baja y
conocida. Es consultado mediante herramientas OLAP (On line Analytical Processing -
Procesamiento Analítico en Línea) que ofrecen una visión multidimensional de la
información. Sobre estas bases de datos se pueden construir EIS (Executive Information
Systems, Sistemas de Información para Directivos) y DSS (Decision Support Systems,
Sistemas de Ayuda a la toma de Decisiones).
En síntesis, se puede decir que los data marts son pequeños data warehouse centrados
en un tema o un área de negocio específico dentro de una organización.
 La dependencia de un DATA MART:
Según la tendencia marcada por Inmon sobre los data warehouse, una data mart
dependiente es un subconjunto lógico (vista) o un subconjunto físico (extracto) de un
almacén de datos más grande, que se ha aislado por alguna de las siguientes razones:
 Se necesita para un esquema o modelo de datos espacial (por ejemplo, para
reestructurar los datos para alguna herramienta OLAP).
 Prestaciones: Para descargar el data mart a un ordenador independiente para mejorar
la eficiencia o para obviar las necesidades de gestionar todo el volumen del data
warehouse centralizado.
 Seguridad: Para separar un subconjunto de datos de forma selectiva a los que
queremos permitir o restringir el acceso.
 Conveniencia: la de poder pasar por alto las autorizaciones y requerimientos
necesarios para poder incorporar una nueva aplicación en el Data Warehouse
principal de la Empresa.
SISTEMA DE INFORMACION GERENCIAL
ADMINISTRACION Y NEGOCIOS INTERNACIONALES
DATA MARK, DATA WAREHOUSE Y DATA MINING 6
 Demostración sobre el terreno: para demostrar la viabilidad y el potencial de una
aplicación antes de migrarla al Data Warehouse de la Empresa.
 Política: Razones internas de la organización para hacer esta división o separación
de los datos del almacén de datos, por ejemplo:
 Cuando se decide una estrategia para las TI (Tecnologías de la información) en
situaciones en las que un grupo de usuarios tiene más influencia, para
determinar si se financia dicha estrategia o descubrir si ésta no sería buena para
el almacén de datos centralizado.
 Estrategia para los consumidores de los datos en situaciones en las que un
equipo de almacén de datos no está en condiciones de crear un almacén de datos
utilizable.
Según la escuela Inmon de data warehouse, entre las pérdidas inherentes al uso de data
marts están la escalabilidad limitada, la duplicación de datos, la inconsistencia de los
datos con respecto a otros almacenes de información y la incapacidad para aprovechar
las fuentes de datos de la empresa. Así y todo, estas herramientas son de gran
importancia.
 Conceptos erróneos de los Data Marts
Al hablar de los data marts, es inevitable la
comparación con los data warehouse y al final se acaba
diciendo (o entendiendo) que son como estos, pero en
pequeño, y en cierto modo esto es así, pero esta idea
suele hacer caer en los siguientes errores sobre la
implementación y funcionamiento de los data marts:
 Son más simples de implementar que un Data
Warehouse: FALSO, la implementación es muy
similar, ya que debe proporcionar las mismas funcionalidades.
 Son pequeños conjuntos de datos y, en consecuencia, tienen menor necesidad de
recursos: FALSO, una aplicación corriendo sobre un data mart necesita los
mismos recursos que si corriera sobre un data warehouse.
 Las consultas son más rápidas, dado el menor volumen de datos: FALSO, el
menor volumen de datos se debe a que no se tienen todos los datos de toda la
empresa, pero sí se tienen todos los datos de un determinado sector de la
empresa, por lo que una consulta sobre dicho sector tarda lo mismo si se hace
sobre el data mart que si se hace sobre el data warehouse.
 En algunos casos añade tiempo al proceso de actualización: FALSO, actualizar
el data mart desde el data warehouse cuesta menos (ya que los formatos de los
datos son o suelen ser idénticos) que actualizar el data warehouse desde sus
SISTEMA DE INFORMACION GERENCIAL
ADMINISTRACION Y NEGOCIOS INTERNACIONALES
DATA MARK, DATA WAREHOUSE Y DATA MINING 7
fuentes de datos primarias, donde es necesario realizar operaciones de
transformación (ver ETL).
2. DATA WAREHOUSE
¿Qué ES UN DATA WAREHOUSE?
Tras las dificultades de los
sistemas tradicionales en
satisfacer las necesidades
informacionales, surge el
concepto de Data Warehouse,
como solución a las
necesidades informacionales
globales de la empresa. Este
término acuñado por Bill
Inmon, se traduce literalmente
como Almacén de Datos. No
obstante si el Data Warehouse
fuese exclusivamente un
almacén de datos, los
problemas seguirían siendo los
mismos que en los Centros de Información.
Definición de Bill Inmon
La ventaja principal de este tipo de sistemas se basa en su concepto fundamental, la
estructura de la información. Este concepto significa el almacenamiento de información
homogénea y fiable, en una estructura basada en la consulta y el tratamiento
jerarquizado de la misma, y en un entorno diferenciado de los sistemas operacionales.
Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes
de datos, define una data warehouse (almacén de datos) en términos de las
características del repositorio de datos
Según definió Bill Inmon, el Data Warehouse se caracteriza por ser:
 Integrado: los datos almacenados en el Data Warehouse deben integrarse en una
estructura consistente, por lo que las inconsistencias existentes entre los diversos
sistemas operacionales deben ser eliminadas. La información suele estructurarse
también en distintos niveles de detalle para adecuarse a las distintas necesidades
de los usuarios.
 Temático: sólo los datos necesarios para el proceso de generación del
conocimiento del negocio se integran desde el entorno operacional. Los datos se
organizan por temas para facilitar su acceso y entendimiento por parte de los
usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser
consolidados en una única tabla del Data Warehouse. De esta forma, las
peticiones de información sobre clientes serán más fáciles de responder dado
que toda la información reside en el mismo lugar.
 Histórico: el tiempo es parte implícita de la información contenida en un Data
Warehouse. En los sistemas operacionales, los datos siempre reflejan el estado
SISTEMA DE INFORMACION GERENCIAL
ADMINISTRACION Y NEGOCIOS INTERNACIONALES
DATA MARK, DATA WAREHOUSE Y DATA MINING 8
de la actividad del negocio en el momento presente. Por el contrario, la
información almacenada en el Data Warehouse sirve, entre otras cosas, para
realizar análisis de tendencias. Por lo tanto, el Data Warehouse se carga con los
distintos valores que toma una variable en el tiempo para permitir
comparaciones.
 No volátil: el almacén de información de un Data Warehouse existe para ser
leído, y no modificado. La información es por tanto permanente, significando la
actualización del Data Warehouse la incorporación de los últimos valores que
tomaron las distintas variables contenidas en él sin ningún tipo de acción sobre
lo que ya existía.
Definición de Ralph Kimball
Ralph Kimball es otro conocido autor en el tema de los data warehouse, define un
almacén de datos como: "una copia de las transacciones de datos específicamente
estructurada para la consulta y el análisis". También fue Kimball quien determinó que
un data warehouse no era más que: "la unión de todos los Data martsde una entidad".
Defiende por tanto una metodología ascendente (bottom-up) a la hora de diseñar un
almacén de datos.
Una definición más amplia de almacén de datos
Las definiciones anteriores se centran en los datos en sí mismos. Sin embargo, los
medios para obtener esos datos, para extraerlos, transformarlos y cargarlos, las técnicas
para analizarlos y generar información, así como las diferentes formas para realizar la
gestión de datos son componentes esenciales de un almacén de datos. Muchas
referencias a un almacén de datos utilizan esta definición más amplia. Por lo tanto, en
esta definición se incluyen herramientas para extraer, transformar y cargar datos,
herramientas para el análisis (inteligencia empresarial) y herramientas para gestionar y
recuperar los metadatos.
Función de un almacén de datos
En un almacén de datos lo que se quiere es contener datos que son necesarios o útiles
para una organización, es decir, que se utiliza como un repositorio de datos para
posteriormente transformarlos en información útil para el usuario. Un almacén de datos
debe entregar la información correcta a la gente indicada en el momento óptimo y en el
formato adecuado. El almacén de datos da respuesta a las necesidades de usuarios
expertos, utilizando Sistemas de Soporte a Decisiones (DSS), Sistemas de información
ejecutiva (EIS) o herramientas para hacer consultas o informes. Los usuarios finales
pueden hacer fácilmente consultas sobre sus almacenes de datos sin tocar o afectar la
operación del sistema.
En el funcionamiento de un almacén de datos son muy importantes las siguientes ideas:
 Integración de los datos provenientes de bases de datos distribuidas por las
diferentes unidades de la organización y que con frecuencia tendrán diferentes
estructuras (fuentes heterogéneas). Se debe facilitar una descripción global y un
análisis comprensivo de toda la organización en el almacén de datos.
SISTEMA DE INFORMACION GERENCIAL
ADMINISTRACION Y NEGOCIOS INTERNACIONALES
DATA MARK, DATA WAREHOUSE Y DATA MINING 9
 Separación de los datos usados en operaciones diarias de los datos usados en el
almacén de datos para los propósitos de divulgación, de ayuda en la toma de
decisiones, para el análisis y para operaciones de control. Ambos tipos de datos
no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy
distintos y podrían entorpecerse entre sí.
 Ventajas e inconvenientes de los almacenes de datos
Ventajas
Hay muchas ventajas por las que es recomendable usar un almacén de datos. Algunas de
ellas son:
Poco volumen de datos
Mayor rapidez de consulta
Consultas SQL y/o MDX sencillas
Validación directa de la información
Facilidad para la historización de los datos
SISTEMA DE INFORMACION GERENCIAL
ADMINISTRACION Y NEGOCIOS INTERNACIONALES
DATA MARK, DATA WAREHOUSE Y DATA MINING
1
0
Las diferencias de un Data Warehouse con un sistema tradicional las podríamos resumir
en el siguiente esquema:
SISTEMA DE INFORMACION GERENCIAL
ADMINISTRACION Y NEGOCIOS INTERNACIONALES
DATA MARK, DATA WAREHOUSE Y DATA MINING
1
1
3. DATA MINING:
El datamining (minería de datos), es el conjunto de técnicas y
tecnologías que permiten explorar grandes bases de datos, de
manera automática o semiautomática, con el objetivo de
encontrar patrones repetitivos, tendencias o reglas que expliquen
el comportamiento de los datos en un determinado contexto.
Básicamente, el datamining surge para intentar ayudar a
comprender el contenido de un repositorio de datos. Con este
fin, hace uso de prácticas estadísticas y, en algunos casos, de
algoritmos de búsqueda próximos a la Inteligencia Artificial y a
las redes neuronales.
De forma general, los datos son la materia prima bruta. En el momento que el usuario
les atribuye algún significado especial pasan a convertirse en información. Cuando los
especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge
entre la información y ese modelo represente un valor agregado, entonces nos referimos
al conocimiento. Vea más diferencias entre datos, información y conocimiento.
Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el
proceso común a todos ellos se suele componer de cuatro etapas principales:
Determinación de los objetivos. Trata de la delimitación de los objetivos que el
cliente desea bajo la orientación del especialista en data mining.
Reprocesamiento de los datos. Se refiere a la selección, la limpieza, el
enriquecimiento, la reducción y la transformación de las bases de datos. Esta
etapa consume generalmente alrededor del setenta por ciento del tiempo total de
un proyecto de data mining.
Determinación del modelo. Se comienza realizando unos análisis estadísticos
de los datos, y después se lleva a cabo una visualización gráfica de los mismos
para tener una primera aproximación. Según los objetivos planteados y la tarea
que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en
diferentes áreas de la Inteligencia Artificial.
Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y
los coteja con los obtenidos por los análisis estadísticos y de visualización
gráfica. El cliente determina si son novedosos y si le aportan un nuevo
conocimiento que le permita considerar sus decisiones.
SISTEMA DE INFORMACION GERENCIAL
ADMINISTRACION Y NEGOCIOS INTERNACIONALES
DATA MARK, DATA WAREHOUSE Y DATA MINING
1
2
En resumen, el datamining se presenta como
una tecnología emergente, con varias ventajas:
por un lado, resulta un buen punto de
encuentro entre los investigadores y las
personas de negocios; por otro, ahorra grandes
cantidades de dinero a una empresa y abre
nuevas oportunidades de negocios. Además,
no hay duda de que trabajar con esta
tecnología implica cuidar un sinnúmero de
detalles debido a que el producto final
involucra "toma de decisiones".
 Técnicas de Data Mining
Como ya se ha comentado, las técnicas de la minería de datos provienen de
la inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos,
más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos
resultados.
Las técnicas más representativas son:
 Redes neuronales.- Son un paradigma de aprendizaje y procesamiento
automático inspirado en la forma en que funciona el sistema nervioso de los
animales. Se trata de un sistema de interconexión de neuronas en una red que
colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal
son:
 El perceptrón.
 El perceptrón multicapa.
 Los mapas autoorganizados, también conocidos como redes de Kohonen.
 Regresión lineal.- Es la más utilizada para formar relaciones entre datos. Rápida
y eficaz pero insuficiente en espacios multidimensionales donde puedan
relacionarse más de 2 variables.
 Árboles de decisión.- Un árbol de decisión es un modelo de predicción utilizado
en el ámbito de la inteligencia artificial, dada una base de datos se construyen
estos diagramas de construcciones lógicas, muy similares a los sistemas de
predicción basados en reglas, que sirven para representar y categorizar una serie
de condiciones que suceden de forma sucesiva, para la resolución de un
problema. Ejemplos:
 Algoritmo ID3.
 Algoritmo C4.5.
SISTEMA DE INFORMACION GERENCIAL
ADMINISTRACION Y NEGOCIOS INTERNACIONALES
DATA MARK, DATA WAREHOUSE Y DATA MINING
1
3
 Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o
ecuación que se emplea en todos los diseños experimentales y en la regresión
para indicar los diferentes factores que modifican la variable de respuesta.
 Agrupamiento o Clustering.- Es un procedimiento de agrupación de una serie
de vectores según criterios habitualmente de distancia; se tratará de disponer los
vectores de entrada de forma que estén más cercanos aquellos que tengan
características comunes. Ejemplos:
 Algoritmo K-means.
 Algoritmo K-medoids.
 Reglas de asociación.- Se utilizan para
descubrir hechos que ocurren en común
dentro de un determinado conjunto de
datos.
Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en
supervisados y no supervisados (Weiss y Indurkhya, 1998):
 Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de
ellos) desconocido a priori, a partir de otros conocidos.
 Algoritmos no supervisados (o del descubrimiento del conocimiento): se
descubren patrones y tendencias en los datos.
Ejemplos de uso de la Data Mining
Negocios
La minería de datos puede contribuir significativamente en las aplicaciones de
administración empresarial basada en la relación con el cliente. En lugar de contactar
con el cliente de forma indiscriminada a través de un centro de llamadas o enviando e-
mails, sólo se contactará con aquellos que se perciba que tienen una mayor probabilidad
de responder positivamente a una determinada oferta o promoción.
Por lo general, las empresas que emplean minería de datos ven rápidamente el retorno
de la inversión, pero también reconocen que el número de modelos predictivos
desarrollados puede crecer muy rápidamente.
En lugar de crear modelos para predecir qué clientes pueden cambiar, la empresa podría
construir modelos separados para cada región y/o para cada tipo de cliente. También
puede querer determinar qué clientes van a ser rentables durante una ventana de tiempo
(una quincena, un mes, ...) y sólo enviar las ofertas a las personas que es probable que
sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las
versiones de cada modelo y pasar a una minería de datos lo más automatizada posible.
SISTEMA DE INFORMACION GERENCIAL
ADMINISTRACION Y NEGOCIOS INTERNACIONALES
DATA MARK, DATA WAREHOUSE Y DATA MINING
1
4
OPINION:
 Sanchez Ynga, Luis Alberto: son técnicas y tecnologías que permiten explorar
grandes bases de datos, de manera automática o semiautomática, con el objetivo
de encontrar patrones repetitivos, tendencias o reglas que expliquen el
comportamiento de los datos en un determinado contexto. Básicamente, surgen
para intentar ayudar a comprender el contenido de un repositorio de datos. Con
este fin, hace uso de prácticas estadísticas y otros
 Yactayo Audante, Felipe: Estas Herramientas Son Bien Útiles ya que no solo
se utilizan para almacenar datos sino que las Empresas lo quieren utilizar para
las ventas, marketing y planificación estratégica. En algunos casos una de las
herramientas es la desfragmentación de una de ellas es mas rápida en la
utilización de datos pero lo malo es que no almacena mucho pero si es rápido en
el resultado
 Salas Valdez, Christopher: Este tipo de herramientas de apoyo, ayudan a dar a
los usuarios acceso a los datos que ellos necesitan para analizarlos más a
menudo. Estos sistemas de almacenamiento proveen los datos en una forma que
concuerda la vista colectiva de los datos por un grupo de usuarios en un
departamento o función de negocio, donde también se mejora el tiempo de
respuesta al usuario final debido a la reducción en el volumen de información a
ser accedido, estos “Datas” nos facilitan la provisión de datos apropiadamente
estructurados para satisfacer los requerimientos de las herramientas de acceso de
usuario final.
 Daniel Cuenca Barragán: En el mundo Globalizado de hoy existen muchas
empresas que utilizan el sistema de información, que nos proporciona mayor
rapidez, consultas sencillas y gran facilidad para obtener los datos para mejorar
la calidad de sus procesos
SISTEMA DE INFORMACION GERENCIAL
ADMINISTRACION Y NEGOCIOS INTERNACIONALES
DATA MARK, DATA WAREHOUSE Y DATA MINING
1
5
Conclusión
En conclusión podemos decir que los Data Warehouse se basan en estructuras
multidimensionales, en las que se almacena la información calculando previamente
todas las combinaciones de todos los niveles de todas las aperturas de análisis. Aunque
este método se puede considerar como exagerado, nunca será tan caro, como lo que le
costaría a la organización el tomar las decisiones equivocadas. Siempre va a ser más
barato el gasto que conlleva la adquisición de software o hardware que el costo que
representa una decisión tomada a destiempo. A su vez, el Data Mart es el almacén de
datos de un hecho en particular. Por otro lado el Data Mining está asociado al escalón
más alto de la pirámide (Nivel Estratégico) y tiene por objeto eliminar los errores
cometidos por las personas al analizar los datos debido a prejuicios y dejar que sean los
datos los que muestren los modelos subyacentes en ellos. La Minería de Datos (Data
Mining) ayuda a crear nuevos modelos no percibidos por el analista hasta ese momento
pero que realmente existen en los datos.
La diferencia entre los términos Data Warehouse y Data Mart es por mucho una cosa de
perspectiva, un Data Mart es clásicamente una iniciativa de un solo departamento con
un área específica, algo como “Data Mart de marketing” o “Data Mart de finanzas”.
Estos proyectos son usualmente desarrollados por separado sin una visión consistente a
través de la compañía. Por otro lado un repositorio centralizado sirve a muchas
comunidades dentro de la organización, esto es lo que se conoce como data warehouse.
Usualmente los Data Mart utilizan los data warehouse como fuentes de datos.
El Data Warehouse es donde se guarda una vista de los datos de la organización los
cuales pueden ser publicados, para que accedan a ellos los usuarios. Estos datos son
cargados mediante operaciones de extracción, transformación y carga. Este proceso
limpia y valida los datos cargados. Esta información es organizada y presentada al
usuario en una forma que le permita fácilmente formular sus propias preguntas de
negocio.
SISTEMA DE INFORMACION GERENCIAL
ADMINISTRACION Y NEGOCIOS INTERNACIONALES
DATA MARK, DATA WAREHOUSE Y DATA MINING
1
6
Bibliografía
 http://delfos.bligoo.com/content/view/195902/Data-Warehouse-Data-mart-y-
Data-Mining.html#.VYGjufl_Oko
 https://es.wikipedia.org/wiki/Data_mart
 https://es.wikipedia.org/wiki/Almac%C3%A9n_de_datos
 https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos
 http://www.aaxnet.com/topics/dwdm.html
 http://www.sinnexus.com/business_intelligence/datamining.aspx
 http://www.sinnexus.com/business_intelligence/datamart.aspx
 http://www.sinnexus.com/business_intelligence/datawarehouse.aspx
 http://triton.exp.dc.uba.ar/datamining/index.php/que-es-data-mining

Más contenido relacionado

PPTX
MRP - MRP II - ERP - Definición/Conceptos
DOCX
Hechos historicos de administracion de operaciones
PPTX
Ingenieria de proyectos
PPT
Tecnica most
PPTX
Procesos de manufactura
PPTX
CADENA DE SUMINISTROS
PDF
Sistemas de manufactura
PPT
Sistemas Integrados De Manufactura
MRP - MRP II - ERP - Definición/Conceptos
Hechos historicos de administracion de operaciones
Ingenieria de proyectos
Tecnica most
Procesos de manufactura
CADENA DE SUMINISTROS
Sistemas de manufactura
Sistemas Integrados De Manufactura

La actualidad más candente (12)

PPTX
19 descripcion y analisis de los impactos
PPTX
Planeacion y diseño de instalaciones
PPT
Opex (excelencia operacional)
PPTX
TECNICAS DE MEJORAMIENTO DE LA PRODUCTIVIDAD BASADAS EN LA MANO DE...
PDF
Planificacion Y Control de la Produccion - Chapman.pdf
KEY
MongoDB: How it Works
PDF
MongoDB .local Toronto 2019: Tips and Tricks for Effective Indexing
PPTX
Formulacion y evaluacion de proyectos de inversion ..unidad 3
PDF
Cadena de distribucion
PPTX
Tuning PostgreSQL for High Write Throughput
PDF
MongoDB Performance Tuning
DOCX
Informe nro1 ivestigacion_operativa ii
19 descripcion y analisis de los impactos
Planeacion y diseño de instalaciones
Opex (excelencia operacional)
TECNICAS DE MEJORAMIENTO DE LA PRODUCTIVIDAD BASADAS EN LA MANO DE...
Planificacion Y Control de la Produccion - Chapman.pdf
MongoDB: How it Works
MongoDB .local Toronto 2019: Tips and Tricks for Effective Indexing
Formulacion y evaluacion de proyectos de inversion ..unidad 3
Cadena de distribucion
Tuning PostgreSQL for High Write Throughput
MongoDB Performance Tuning
Informe nro1 ivestigacion_operativa ii
Publicidad

Destacado (20)

PPTX
Data mart
PPTX
Data mart
PDF
Modelización del negocio
DOCX
Almacén de datos
PPT
Datawarehouse y Datamining
PPTX
Que Es Un Data Warehouse
PDF
datamart paso a paso
PDF
38481889 lab-dwh-sql2005
PPT
Estadistica
PPTX
conceptos basicos de Estadistica
PPT
Estadistica
PPTX
Analisis estadistico
PPT
Sistemas Sgbd HomogÉNeos Y HeterogÉNeos
PDF
Cuadro comparativo base de datos
PDF
tabla comparativa
PPT
Unidad2 Bases De Datos Para L Toma De Desiciones
PDF
Bioestadística muestreo y diseño de experimentos
PPTX
Data mart
PPT
Diseño de un Datamart
PPTX
Almacen de datos
Data mart
Data mart
Modelización del negocio
Almacén de datos
Datawarehouse y Datamining
Que Es Un Data Warehouse
datamart paso a paso
38481889 lab-dwh-sql2005
Estadistica
conceptos basicos de Estadistica
Estadistica
Analisis estadistico
Sistemas Sgbd HomogÉNeos Y HeterogÉNeos
Cuadro comparativo base de datos
tabla comparativa
Unidad2 Bases De Datos Para L Toma De Desiciones
Bioestadística muestreo y diseño de experimentos
Data mart
Diseño de un Datamart
Almacen de datos
Publicidad

Similar a Data mart-data-warehouse-data-mining (20)

PPTX
Data mart-data-warehouse-data-mining
PDF
Datawarehouse
PPTX
Data mart
PPTX
Seminario BI CLEFormación
PPT
Data warehouse
PPTX
Almacen de datos
PDF
Data werehouse
PPTX
data warehouse
PDF
Inteligencia de Negocios
PDF
Inteligencia de negocios
PPT
1DATA WAREHOUSE.ppt
PPT
DATAWAREHOUSE, importancia del almacén de datos
DOCX
Actividad #1 introducción a la inteligencia de negocios
PPTX
SISTEMAS DE INTELIGENCIA DE NEGOCIOS
PDF
Negocios inteligentes
DOC
Ensayo Omar Enrique Aguilar Aquino
PDF
Introduccion datawarehouse
PPTX
Data warehouse
PPT
Data mart
PPT
Introducción al Datawarehousing
Data mart-data-warehouse-data-mining
Datawarehouse
Data mart
Seminario BI CLEFormación
Data warehouse
Almacen de datos
Data werehouse
data warehouse
Inteligencia de Negocios
Inteligencia de negocios
1DATA WAREHOUSE.ppt
DATAWAREHOUSE, importancia del almacén de datos
Actividad #1 introducción a la inteligencia de negocios
SISTEMAS DE INTELIGENCIA DE NEGOCIOS
Negocios inteligentes
Ensayo Omar Enrique Aguilar Aquino
Introduccion datawarehouse
Data warehouse
Data mart
Introducción al Datawarehousing

Último (20)

DOCX
PROYECTO DE APRENDIZAJE para la semana de fiestas patrias
PDF
Habitos de Ricos - Juan Diego Gomez Ccesa007.pdf
PDF
Crear o Morir - Andres Oppenheimer Ccesa007.pdf
PDF
benveniste-problemas-de-linguistica-general-i-cap-6 (1)_compressed.pdf
PDF
Salvese Quien Pueda - Andres Oppenheimer Ccesa007.pdf
PPTX
AGENTES PATÓGENOS Y LAS PRINCIPAL ENFERMEAD.pptx
PDF
IDH_Guatemala_2.pdfnjjjkeioooe ,l dkdldp ekooe
PPTX
caso clínico iam clinica y semiología l3.pptx
DOCX
UNIDAD DE APRENDIZAJE 5 AGOSTO tradiciones
PDF
Escuela Sabática 6. A través del Mar Rojo.pdf
PDF
Conecta con la Motivacion - Brian Tracy Ccesa007.pdf
PDF
Breve historia de los Incas -- Patricia Temoche [Temoche, Patricia] -- Breve ...
PDF
Didactica de la Investigacion Educativa SUE Ccesa007.pdf
PDF
DI, TEA, TDAH.pdf guía se secuencias didacticas
PDF
Guia de Tesis y Proyectos de Investigacion FS4 Ccesa007.pdf
PDF
Unidad de Aprendizaje 5 de Educacion para el Trabajo EPT Ccesa007.pdf
PDF
Lección 6 Escuela Sab. A través del mar rojo.pdf
PDF
COMUNICACION EFECTIVA PARA LA EDUCACION .pdf
PDF
CONFERENCIA-Deep Research en el aula universitaria-UPeU-EduTech360.pdf
DOCX
V UNIDAD - PRIMER GRADO. del mes de agosto
PROYECTO DE APRENDIZAJE para la semana de fiestas patrias
Habitos de Ricos - Juan Diego Gomez Ccesa007.pdf
Crear o Morir - Andres Oppenheimer Ccesa007.pdf
benveniste-problemas-de-linguistica-general-i-cap-6 (1)_compressed.pdf
Salvese Quien Pueda - Andres Oppenheimer Ccesa007.pdf
AGENTES PATÓGENOS Y LAS PRINCIPAL ENFERMEAD.pptx
IDH_Guatemala_2.pdfnjjjkeioooe ,l dkdldp ekooe
caso clínico iam clinica y semiología l3.pptx
UNIDAD DE APRENDIZAJE 5 AGOSTO tradiciones
Escuela Sabática 6. A través del Mar Rojo.pdf
Conecta con la Motivacion - Brian Tracy Ccesa007.pdf
Breve historia de los Incas -- Patricia Temoche [Temoche, Patricia] -- Breve ...
Didactica de la Investigacion Educativa SUE Ccesa007.pdf
DI, TEA, TDAH.pdf guía se secuencias didacticas
Guia de Tesis y Proyectos de Investigacion FS4 Ccesa007.pdf
Unidad de Aprendizaje 5 de Educacion para el Trabajo EPT Ccesa007.pdf
Lección 6 Escuela Sab. A través del mar rojo.pdf
COMUNICACION EFECTIVA PARA LA EDUCACION .pdf
CONFERENCIA-Deep Research en el aula universitaria-UPeU-EduTech360.pdf
V UNIDAD - PRIMER GRADO. del mes de agosto

Data mart-data-warehouse-data-mining

  • 1. SISTEMA DE INFORMACION GERENCIAL ADMINISTRACION Y NEGOCIOS INTERNACIONALES DATA MARK, DATA WAREHOUSE Y DATA MINING 1 Integrantes:  Sánchez Ynga, Luis Alberto  Yactayo Audante, Felipe  Salas Valdez, Christopher  Cuenca Barragán, Daniel Tema: Data Mark, Data Warehouse Y Data Mining Carrera: Administración Y Negocios Internacionales Profesor: Lic. Aliaga 2015
  • 2. SISTEMA DE INFORMACION GERENCIAL ADMINISTRACION Y NEGOCIOS INTERNACIONALES DATA MARK, DATA WAREHOUSE Y DATA MINING 2 Introducción Las empresas tratan de utilizar la información acumulada por las operaciones diarias de la investigación de mercado y comercialización. Las empresas que han estado en el negocio por un tiempo se dan cuenta de que han acumulado enormes cantidades de datos en diversas bases de datos operacionales. Esas bases de datos funcionan bien para los fines previstos, pero las empresas quieren los datos para otros fines, en particular para las ventas, marketing y planificación estratégica. Por lo tanto, El Data Mining es el proceso de extraer información de diferentes bases de datos de la compañía y volver a organizarlo para fines distintos a lo que las bases de datos fueron pensados originalmente para. ¿Qué datos debe ser extraído y para qué uso varía radicalmente de una compañía a otra, al igual que la naturaleza y organización de los datos, por lo que no puede haber tal cosa como una "herramienta de minería de datos" genérico. Un Data Warehouse es un lugar donde los datos pueden ser almacenados para la minería más conveniente. Esto generalmente será un sistema de ordenador rápido con gran capacidad de almacenamiento de datos. Los datos de todos los sistemas de la compañía se copia en el almacén de datos, donde será borrado y se reconcilió para eliminar redundancias y conflictos. Consultas complejas se pueden hacer contra el almacenamiento de información de almacenes. Por supuesto, los datos deben ser continuamente actualizados, por lo que el proceso de depuración y la reconciliación debe ser una característica permanente de la Galería, y tendrá que ser modificada cada vez que las bases de datos se modifican o nuevas bases de datos estén disponibles. Creación y mantenimiento de un depósito de datos es un trabajo enorme, incluso para las empresas más grandes. Puede tomar mucho tiempo y costar mucho dinero. De hecho, es una de las principales empresas de este tipo de proyectos están recurriendo a soluciones de Data Mart lugar. Un Data Mart es un sistema de índice y extracción. En lugar de traer todos los datos de la empresa en un solo almacén, el mercado de datos sabe qué datos cada base de datos contiene y cómo extraer información de múltiples bases de datos cuando se le preguntó. Creación de un Data Mart se puede considerar la solución "rápida y sucia", debido a que los datos de diferentes bases de datos no se depuran y reconciliarse, pero puede ser la diferencia entre tener la información disponible y no tenerlo disponible.
  • 3. SISTEMA DE INFORMACION GERENCIAL ADMINISTRACION Y NEGOCIOS INTERNACIONALES DATA MARK, DATA WAREHOUSE Y DATA MINING 3 Índice  Introducción: …………………………………………………………………..2  Índice: ……………………………………………………………………….…3  Dedicatoria: ……………………………………………………………….…...4  DATA MART:………………………………………………………………....5  Conceptos erróneos de los Data Marts:……………………………………......6  DATA WAREHOUSE:………………………..................................................7  Definiciones de almacén de datos:………………………………………….…8  Ventajas e inconvenientes de los almacenes de datos:………………………...9  DATA MINING:…………………………………………………………..…11  Técnicas de Data Mining:…………………………………………………….12  Ejemplos de uso de la Data Mining:………………………………………….13  Opinión:…………………………………………………………………….....14  Conclusión: …………………………………………………………………...15  Bibliografías: ……………………………………………………………….....16
  • 4. SISTEMA DE INFORMACION GERENCIAL ADMINISTRACION Y NEGOCIOS INTERNACIONALES DATA MARK, DATA WAREHOUSE Y DATA MINING 4 Dedicatoria Primero Quiero Dedicar Este Trabajo A Dios Por Haberme Permitido Llegar Hasta Este Punto Y Haberme Dado Salud; A Nuestro Padres Que No Apoyan Día A Día Y Al Profesor Por Haberme Transmitidos Los Conocimientos Obtenidos Y Habernos Llevado Pasó A Paso En El Aprendizaje
  • 5. SISTEMA DE INFORMACION GERENCIAL ADMINISTRACION Y NEGOCIOS INTERNACIONALES DATA MARK, DATA WAREHOUSE Y DATA MINING 5 DATA MARK, DATA WAREHOUSE Y DATA MINING 1. DATA MART Un Data mart es una versión especial de almacén de datos (data warehouse). Son subconjuntos de datos con el propósito de ayudar a que un área específica dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de múltiples formas para que diversos grupos de usuarios realicen la explotación de los mismos de la forma más conveniente según sus necesidades. El Data mart es un sistema orientado a la consulta, en el que se producen procesos batch de carga de datos (altas) con una frecuencia baja y conocida. Es consultado mediante herramientas OLAP (On line Analytical Processing - Procesamiento Analítico en Línea) que ofrecen una visión multidimensional de la información. Sobre estas bases de datos se pueden construir EIS (Executive Information Systems, Sistemas de Información para Directivos) y DSS (Decision Support Systems, Sistemas de Ayuda a la toma de Decisiones). En síntesis, se puede decir que los data marts son pequeños data warehouse centrados en un tema o un área de negocio específico dentro de una organización.  La dependencia de un DATA MART: Según la tendencia marcada por Inmon sobre los data warehouse, una data mart dependiente es un subconjunto lógico (vista) o un subconjunto físico (extracto) de un almacén de datos más grande, que se ha aislado por alguna de las siguientes razones:  Se necesita para un esquema o modelo de datos espacial (por ejemplo, para reestructurar los datos para alguna herramienta OLAP).  Prestaciones: Para descargar el data mart a un ordenador independiente para mejorar la eficiencia o para obviar las necesidades de gestionar todo el volumen del data warehouse centralizado.  Seguridad: Para separar un subconjunto de datos de forma selectiva a los que queremos permitir o restringir el acceso.  Conveniencia: la de poder pasar por alto las autorizaciones y requerimientos necesarios para poder incorporar una nueva aplicación en el Data Warehouse principal de la Empresa.
  • 6. SISTEMA DE INFORMACION GERENCIAL ADMINISTRACION Y NEGOCIOS INTERNACIONALES DATA MARK, DATA WAREHOUSE Y DATA MINING 6  Demostración sobre el terreno: para demostrar la viabilidad y el potencial de una aplicación antes de migrarla al Data Warehouse de la Empresa.  Política: Razones internas de la organización para hacer esta división o separación de los datos del almacén de datos, por ejemplo:  Cuando se decide una estrategia para las TI (Tecnologías de la información) en situaciones en las que un grupo de usuarios tiene más influencia, para determinar si se financia dicha estrategia o descubrir si ésta no sería buena para el almacén de datos centralizado.  Estrategia para los consumidores de los datos en situaciones en las que un equipo de almacén de datos no está en condiciones de crear un almacén de datos utilizable. Según la escuela Inmon de data warehouse, entre las pérdidas inherentes al uso de data marts están la escalabilidad limitada, la duplicación de datos, la inconsistencia de los datos con respecto a otros almacenes de información y la incapacidad para aprovechar las fuentes de datos de la empresa. Así y todo, estas herramientas son de gran importancia.  Conceptos erróneos de los Data Marts Al hablar de los data marts, es inevitable la comparación con los data warehouse y al final se acaba diciendo (o entendiendo) que son como estos, pero en pequeño, y en cierto modo esto es así, pero esta idea suele hacer caer en los siguientes errores sobre la implementación y funcionamiento de los data marts:  Son más simples de implementar que un Data Warehouse: FALSO, la implementación es muy similar, ya que debe proporcionar las mismas funcionalidades.  Son pequeños conjuntos de datos y, en consecuencia, tienen menor necesidad de recursos: FALSO, una aplicación corriendo sobre un data mart necesita los mismos recursos que si corriera sobre un data warehouse.  Las consultas son más rápidas, dado el menor volumen de datos: FALSO, el menor volumen de datos se debe a que no se tienen todos los datos de toda la empresa, pero sí se tienen todos los datos de un determinado sector de la empresa, por lo que una consulta sobre dicho sector tarda lo mismo si se hace sobre el data mart que si se hace sobre el data warehouse.  En algunos casos añade tiempo al proceso de actualización: FALSO, actualizar el data mart desde el data warehouse cuesta menos (ya que los formatos de los datos son o suelen ser idénticos) que actualizar el data warehouse desde sus
  • 7. SISTEMA DE INFORMACION GERENCIAL ADMINISTRACION Y NEGOCIOS INTERNACIONALES DATA MARK, DATA WAREHOUSE Y DATA MINING 7 fuentes de datos primarias, donde es necesario realizar operaciones de transformación (ver ETL). 2. DATA WAREHOUSE ¿Qué ES UN DATA WAREHOUSE? Tras las dificultades de los sistemas tradicionales en satisfacer las necesidades informacionales, surge el concepto de Data Warehouse, como solución a las necesidades informacionales globales de la empresa. Este término acuñado por Bill Inmon, se traduce literalmente como Almacén de Datos. No obstante si el Data Warehouse fuese exclusivamente un almacén de datos, los problemas seguirían siendo los mismos que en los Centros de Información. Definición de Bill Inmon La ventaja principal de este tipo de sistemas se basa en su concepto fundamental, la estructura de la información. Este concepto significa el almacenamiento de información homogénea y fiable, en una estructura basada en la consulta y el tratamiento jerarquizado de la misma, y en un entorno diferenciado de los sistemas operacionales. Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes de datos, define una data warehouse (almacén de datos) en términos de las características del repositorio de datos Según definió Bill Inmon, el Data Warehouse se caracteriza por ser:  Integrado: los datos almacenados en el Data Warehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.  Temático: sólo los datos necesarios para el proceso de generación del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una única tabla del Data Warehouse. De esta forma, las peticiones de información sobre clientes serán más fáciles de responder dado que toda la información reside en el mismo lugar.  Histórico: el tiempo es parte implícita de la información contenida en un Data Warehouse. En los sistemas operacionales, los datos siempre reflejan el estado
  • 8. SISTEMA DE INFORMACION GERENCIAL ADMINISTRACION Y NEGOCIOS INTERNACIONALES DATA MARK, DATA WAREHOUSE Y DATA MINING 8 de la actividad del negocio en el momento presente. Por el contrario, la información almacenada en el Data Warehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto, el Data Warehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones.  No volátil: el almacén de información de un Data Warehouse existe para ser leído, y no modificado. La información es por tanto permanente, significando la actualización del Data Warehouse la incorporación de los últimos valores que tomaron las distintas variables contenidas en él sin ningún tipo de acción sobre lo que ya existía. Definición de Ralph Kimball Ralph Kimball es otro conocido autor en el tema de los data warehouse, define un almacén de datos como: "una copia de las transacciones de datos específicamente estructurada para la consulta y el análisis". También fue Kimball quien determinó que un data warehouse no era más que: "la unión de todos los Data martsde una entidad". Defiende por tanto una metodología ascendente (bottom-up) a la hora de diseñar un almacén de datos. Una definición más amplia de almacén de datos Las definiciones anteriores se centran en los datos en sí mismos. Sin embargo, los medios para obtener esos datos, para extraerlos, transformarlos y cargarlos, las técnicas para analizarlos y generar información, así como las diferentes formas para realizar la gestión de datos son componentes esenciales de un almacén de datos. Muchas referencias a un almacén de datos utilizan esta definición más amplia. Por lo tanto, en esta definición se incluyen herramientas para extraer, transformar y cargar datos, herramientas para el análisis (inteligencia empresarial) y herramientas para gestionar y recuperar los metadatos. Función de un almacén de datos En un almacén de datos lo que se quiere es contener datos que son necesarios o útiles para una organización, es decir, que se utiliza como un repositorio de datos para posteriormente transformarlos en información útil para el usuario. Un almacén de datos debe entregar la información correcta a la gente indicada en el momento óptimo y en el formato adecuado. El almacén de datos da respuesta a las necesidades de usuarios expertos, utilizando Sistemas de Soporte a Decisiones (DSS), Sistemas de información ejecutiva (EIS) o herramientas para hacer consultas o informes. Los usuarios finales pueden hacer fácilmente consultas sobre sus almacenes de datos sin tocar o afectar la operación del sistema. En el funcionamiento de un almacén de datos son muy importantes las siguientes ideas:  Integración de los datos provenientes de bases de datos distribuidas por las diferentes unidades de la organización y que con frecuencia tendrán diferentes estructuras (fuentes heterogéneas). Se debe facilitar una descripción global y un análisis comprensivo de toda la organización en el almacén de datos.
  • 9. SISTEMA DE INFORMACION GERENCIAL ADMINISTRACION Y NEGOCIOS INTERNACIONALES DATA MARK, DATA WAREHOUSE Y DATA MINING 9  Separación de los datos usados en operaciones diarias de los datos usados en el almacén de datos para los propósitos de divulgación, de ayuda en la toma de decisiones, para el análisis y para operaciones de control. Ambos tipos de datos no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy distintos y podrían entorpecerse entre sí.  Ventajas e inconvenientes de los almacenes de datos Ventajas Hay muchas ventajas por las que es recomendable usar un almacén de datos. Algunas de ellas son: Poco volumen de datos Mayor rapidez de consulta Consultas SQL y/o MDX sencillas Validación directa de la información Facilidad para la historización de los datos
  • 10. SISTEMA DE INFORMACION GERENCIAL ADMINISTRACION Y NEGOCIOS INTERNACIONALES DATA MARK, DATA WAREHOUSE Y DATA MINING 1 0 Las diferencias de un Data Warehouse con un sistema tradicional las podríamos resumir en el siguiente esquema:
  • 11. SISTEMA DE INFORMACION GERENCIAL ADMINISTRACION Y NEGOCIOS INTERNACIONALES DATA MARK, DATA WAREHOUSE Y DATA MINING 1 1 3. DATA MINING: El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. Básicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales. De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. Vea más diferencias entre datos, información y conocimiento. Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso común a todos ellos se suele componer de cuatro etapas principales: Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining. Reprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining. Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial. Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.
  • 12. SISTEMA DE INFORMACION GERENCIAL ADMINISTRACION Y NEGOCIOS INTERNACIONALES DATA MARK, DATA WAREHOUSE Y DATA MINING 1 2 En resumen, el datamining se presenta como una tecnología emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Además, no hay duda de que trabajar con esta tecnología implica cuidar un sinnúmero de detalles debido a que el producto final involucra "toma de decisiones".  Técnicas de Data Mining Como ya se ha comentado, las técnicas de la minería de datos provienen de la inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Las técnicas más representativas son:  Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son:  El perceptrón.  El perceptrón multicapa.  Los mapas autoorganizados, también conocidos como redes de Kohonen.  Regresión lineal.- Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables.  Árboles de decisión.- Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos:  Algoritmo ID3.  Algoritmo C4.5.
  • 13. SISTEMA DE INFORMACION GERENCIAL ADMINISTRACION Y NEGOCIOS INTERNACIONALES DATA MARK, DATA WAREHOUSE Y DATA MINING 1 3  Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.  Agrupamiento o Clustering.- Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Ejemplos:  Algoritmo K-means.  Algoritmo K-medoids.  Reglas de asociación.- Se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos. Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998):  Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos.  Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos. Ejemplos de uso de la Data Mining Negocios La minería de datos puede contribuir significativamente en las aplicaciones de administración empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma indiscriminada a través de un centro de llamadas o enviando e- mails, sólo se contactará con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promoción. Por lo general, las empresas que emplean minería de datos ven rápidamente el retorno de la inversión, pero también reconocen que el número de modelos predictivos desarrollados puede crecer muy rápidamente. En lugar de crear modelos para predecir qué clientes pueden cambiar, la empresa podría construir modelos separados para cada región y/o para cada tipo de cliente. También puede querer determinar qué clientes van a ser rentables durante una ventana de tiempo (una quincena, un mes, ...) y sólo enviar las ofertas a las personas que es probable que sean rentables. Para mantener esta cantidad de modelos, es necesario gestionar las versiones de cada modelo y pasar a una minería de datos lo más automatizada posible.
  • 14. SISTEMA DE INFORMACION GERENCIAL ADMINISTRACION Y NEGOCIOS INTERNACIONALES DATA MARK, DATA WAREHOUSE Y DATA MINING 1 4 OPINION:  Sanchez Ynga, Luis Alberto: son técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. Básicamente, surgen para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y otros  Yactayo Audante, Felipe: Estas Herramientas Son Bien Útiles ya que no solo se utilizan para almacenar datos sino que las Empresas lo quieren utilizar para las ventas, marketing y planificación estratégica. En algunos casos una de las herramientas es la desfragmentación de una de ellas es mas rápida en la utilización de datos pero lo malo es que no almacena mucho pero si es rápido en el resultado  Salas Valdez, Christopher: Este tipo de herramientas de apoyo, ayudan a dar a los usuarios acceso a los datos que ellos necesitan para analizarlos más a menudo. Estos sistemas de almacenamiento proveen los datos en una forma que concuerda la vista colectiva de los datos por un grupo de usuarios en un departamento o función de negocio, donde también se mejora el tiempo de respuesta al usuario final debido a la reducción en el volumen de información a ser accedido, estos “Datas” nos facilitan la provisión de datos apropiadamente estructurados para satisfacer los requerimientos de las herramientas de acceso de usuario final.  Daniel Cuenca Barragán: En el mundo Globalizado de hoy existen muchas empresas que utilizan el sistema de información, que nos proporciona mayor rapidez, consultas sencillas y gran facilidad para obtener los datos para mejorar la calidad de sus procesos
  • 15. SISTEMA DE INFORMACION GERENCIAL ADMINISTRACION Y NEGOCIOS INTERNACIONALES DATA MARK, DATA WAREHOUSE Y DATA MINING 1 5 Conclusión En conclusión podemos decir que los Data Warehouse se basan en estructuras multidimensionales, en las que se almacena la información calculando previamente todas las combinaciones de todos los niveles de todas las aperturas de análisis. Aunque este método se puede considerar como exagerado, nunca será tan caro, como lo que le costaría a la organización el tomar las decisiones equivocadas. Siempre va a ser más barato el gasto que conlleva la adquisición de software o hardware que el costo que representa una decisión tomada a destiempo. A su vez, el Data Mart es el almacén de datos de un hecho en particular. Por otro lado el Data Mining está asociado al escalón más alto de la pirámide (Nivel Estratégico) y tiene por objeto eliminar los errores cometidos por las personas al analizar los datos debido a prejuicios y dejar que sean los datos los que muestren los modelos subyacentes en ellos. La Minería de Datos (Data Mining) ayuda a crear nuevos modelos no percibidos por el analista hasta ese momento pero que realmente existen en los datos. La diferencia entre los términos Data Warehouse y Data Mart es por mucho una cosa de perspectiva, un Data Mart es clásicamente una iniciativa de un solo departamento con un área específica, algo como “Data Mart de marketing” o “Data Mart de finanzas”. Estos proyectos son usualmente desarrollados por separado sin una visión consistente a través de la compañía. Por otro lado un repositorio centralizado sirve a muchas comunidades dentro de la organización, esto es lo que se conoce como data warehouse. Usualmente los Data Mart utilizan los data warehouse como fuentes de datos. El Data Warehouse es donde se guarda una vista de los datos de la organización los cuales pueden ser publicados, para que accedan a ellos los usuarios. Estos datos son cargados mediante operaciones de extracción, transformación y carga. Este proceso limpia y valida los datos cargados. Esta información es organizada y presentada al usuario en una forma que le permita fácilmente formular sus propias preguntas de negocio.
  • 16. SISTEMA DE INFORMACION GERENCIAL ADMINISTRACION Y NEGOCIOS INTERNACIONALES DATA MARK, DATA WAREHOUSE Y DATA MINING 1 6 Bibliografía  http://delfos.bligoo.com/content/view/195902/Data-Warehouse-Data-mart-y- Data-Mining.html#.VYGjufl_Oko  https://es.wikipedia.org/wiki/Data_mart  https://es.wikipedia.org/wiki/Almac%C3%A9n_de_datos  https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos  http://www.aaxnet.com/topics/dwdm.html  http://www.sinnexus.com/business_intelligence/datamining.aspx  http://www.sinnexus.com/business_intelligence/datamart.aspx  http://www.sinnexus.com/business_intelligence/datawarehouse.aspx  http://triton.exp.dc.uba.ar/datamining/index.php/que-es-data-mining