SlideShare una empresa de Scribd logo
Proyecto Final Master Felix Rodriguez Araujo
Master Experto en Cloud Computing U-TAD
Log -Analytics
con
Apache-Flume
Elasticsearch
HDFS
Kibana
DESCRIPCIÓN GLOBAL DEL PROYECTO
TECNOLOGÍAS USADAS
WORKFLOW DEL DATO A ALTO NIVEL
BIBLIOGRAFÍA
1
2
3
4
Log -Analytics with Apache-Flume  Elasticsearch HDFS Kibana
Con el crecimiento de los volúmenes de datos que estamos experimentando en los últimos años, nos hemos visto
obligados a buscar soluciones para poder tratar dicha información de manera ágil y eficiente.
E.T.L. está siendo una estrategia claramente en alza en los últimos tiempos,el cómo extraer los datos de múltiples
orígenes y sistemas, cargarlos en tablas de datos para luego,posteriormente tratarlos y poder sacar un provecho de
ellos.
En el ejemplo que quiero tratar con este proyecto, es la gestión de logs generados por los diferentes webservers que
tenemos por las diferentes regiones configuradas en AWS,para posteriormente visualizarlos de una manera eficiente y
práctica.
Transform
Extract
Load
Log -Analytics with Apache-Flume  Elasticsearch HDFS Kibana
Flume permite diseñar y ejecutar workflows ETL con un gran rendimiento, confiabilidad y una puesta en marcha rápida (sin necesidad
de programación)
Apache Flume es un sistema para la recolección agregación y transporte de cantidades masivas de información. Distribuido, confiable y
flexible.
Su capacidad de adaptación permite trabajar con fuentes de datos heterogéneas y con destinos variados.
Los datos se pueden transformar, parsear, enriquecer o normalizar al vuelo.
También pueden crearse topologías de despliegue sofisticadas, para resolver casos de uso más complejos.
Hadoop es un sistema que permite almacenar y procesar grandes datos en un entorno distribuido en clústeres de ordenadores
utilizando modelos de programación simple. Está diseñado para aumentar la escala de servidores individuales de miles de máquinas,
cada uno de ellos ofrece computación y almacenamiento local.
Características de los HDFS
● Es adecuado para el almacenamiento y procesamiento distribuido.
● Hadoop proporciona una interfaz de comandos para interactuar con HDFS.
● Los servidores de namenode datanode y ayudar a los usuarios a comprobar fácilmente el estado del clúster.
● Streaming el acceso a los datos del sistema de ficheros.
● HDFS proporciona permisos de archivo y la autenticación.
Hive es almacén de datos creado específicamente para Hadoop que nos facilita la tarea de sumarizar los datos pre-existentes en HDFS.
La idea principal de Hive es la de funcionar como capa externa a Hadoop a modo de envoltorio, donde vamos a poder realizar
consultas sobre el sistema de archivos que serán tratadas como MapReduces en modo nativo en HDFS.
Para poder realizar estas operaciones, fue creado un lenguaje de consultas a "base de datos" (recordemos que HDFS es un sistema de
ficheros) muy similar a SQL, que denominaron HiveQL o HQL (dependiendo de en que libro lo leas lo verás de una manera u otra).
ElasticSearch indexa cualquier documento que le envíes y escala horizontalmente con mucha facilidad.
ElasticSearch es un servidor de indexación y búsqueda schema-less con grandes capacidades de escalabilidad horizontal.
Schema-less significa que el esquema se puede actualizar sobre la marcha, en función de los documentos indexados.
ElasticSearch puede indexar cada campo de los documentos (full-text search) y genera agregaciones y agrupaciones automáticamente.
Registrar un nodo nuevo en el cluster es muy sencillo, con una gestión automática del reparto de los datos y peticiones.
Kibana permite sacar provecho de los datos indexados, diseñando dashboards en cuestión de minutos.
Kibana es el motor de visualización y análisis de ElasticSearch, que permite una integración nativa con los datos indexados.
Los dashboards de Kibana son fáciles de crear y permiten una exploración de los datos en tiempo real, pero también de históricos.
Su interfaz es muy flexible y potente, con capacidades de análisis que abarcan desde la visualización de widgets hasta el raw data, con
drill-down y estadísticas al vuelo de cada dato indexado.
Log -Analytics with Apache-Flume  Elasticsearch HDFS Kibana
Http requests and responses
Apache HTTP server
Flume Agent
Flume Messaging TCP PORT 4545
HDFS
Hive
Flume Agent
Loading to Elasticsearch
with Hive
Visualising the data
El primer paso, lógicamente será
recibir peticiones a nuestros
servidores web Apache.
Dicho tráfico configuraremos
para que loguee donde
consideremos oportuno. Http requests and responses
Apache HTTP server
Flume Agent
En cada web-server configuraremos
el agente flume, para que envie los
logs al HDFS.
El archivo de conf básica del flume en el web-server
Ruta de los logs a analizar
Ip HDFS +Puerto
PARA LEVANTAR EL AGENTE
/usr/lib/flume/bin/flume-ng agent -c conf -f conf/flume-src-agent.conf -n source_agent
Apache HTTP server
Flume Agent
Flume Messaging TCP PORT 4545
HDFS
Hive
Flume Agent
Una vez levantado el agente Flume en el servidor
origen,procederá a enviar al “collector” (servidor
destino) los logs que hemos configurado
previamente.
Path del HDFS donde guardamos
los logs enviados desde el source
START Agent: flume-ng agent -c conf -f /flume-ng/conf/flume-trg-agent.conf -n
collector
Una vez lanzados los agentes flumes tanto en el server target como source…..
Vemos como, efectivamente nuestro HDFS está recibiendo datos
Podemos ver de una manera mucho más gráfica los logs importados por flume en HDFS, usaremos la G.U.I. de
Hadoop, HUE.
Para poder conseguir nuestro objetivo final, debemos de empezar a tratar los logs con HIVE, para ello
vamos a “importar” los logs en tablas, para ello lo haremos desde HUE o también desde la consola
hive de un terminal SSH, con la siguiente query.
A continuación vamos a “inyectar” datos en ElasticSearch,ya que es un requisito fundamental para finalmente poder
verlo en Kibana.
Lo primero que debemos hacer es agregar el jar elasticsearch-hadoop a la query
Las queries necesarias para ello son las siguientes:
CREATE TABLE logs (type STRING, time STRING, ext STRING, ip STRING, req STRING, res INT, bytes INT,
phpmem INT, agent STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY 't';
LOAD DATA INPATH '/pro/data/logs/apache_access_combined/150724' OVERWRITE INTO TABLE logs;
CREATE EXTERNAL TABLE felix_logses (time STRING, extension STRING, clientip STRING, request STRING,
response INT, agent STRING)
STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'
TBLPROPERTIES('es.resource' = 'demo/hive',
'es.mapping.names' = 'time:@timestamp',
'es.nodes' = 'your_es_cluster_hostname');
INSERT OVERWRITE TABLE felix_logses SELECT s.time, s.ext, s.ip, s.req, s.res, s.agent FROM logs s;
Si todo ha ido bien, ya podemos empezar a tratar datos con Elasticsearch.
Para verlo no hay más que ejecutar esta sencilla query…...
Y ...Voila...vemos los datos correctamente
importados…….
El último paso de nuestro proyecto, es ofrecer una visualización de los logs que vamos y hemos importado.
Como dijimos antes, usaremos Kibana.
Lo primero que deberemos hacer es agregar el index creado en la tabla anteriormente en hive.
En este caso, el index creado se denomina felix, vemos que importa las tablas con sus campos y datos.
El último paso de nuestro proyecto, es ofrecer una visualización de los logs que vamos y hemos importado.
Como dijimos antes, usaremos Kibana.
Lo primero que deberemos hacer es agregar el index creado en la tabla anteriormente en hive.
En este caso, el index creado se denomina felix, vemos que importa las tablas con sus campos y datos.
Los siguientes pasos en Kibana, para no entrar mucho en detalle, es básicamente que debes personalizar tus
búsquedas en tus logs para que, posteriormente con los datos importados por Elasticsearch, te muestre los
gráficos deseados.
Log -Analytics with Apache-Flume  Elasticsearch HDFS Kibana
http://www.rittmanmead.com/2014/05/trickle-feeding-webserver-log-files-to-hdfs-using-apache-flume/
https://www.elastic.co/guide/en/elasticsearch/reference/1.6/cluster-nodes-info.html
https://github.com/hortonworks/hadoop-tutorials/blob/master/Community/T07_Elasticsearch_Hadoop_Integration.md
http://www.johnandcailin.com/blog/cailin/exploring-apache-log-files-using-hive-and-hadoop
https://www.elastic.co/downloads
http://ryrobes.com/systems/connecting-tableau-to-elasticsearch-read-how-to-query-elasticsearch-with-hive-sql-and-
hadoop/comment-page-1/
https://github.com/lmenezes/elasticsearch-kopf
https://www.digitalocean.com/community/tutorials/how-to-use-kibana-dashboards-and-visualizations
hortonworks.com/products/hortonworks-sandbox/#tuts-admins
Log -Analytics with Apache-Flume  Elasticsearch HDFS Kibana

Más contenido relacionado

PDF
Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana
PDF
Curso completo de Elasticsearch
PPTX
OpenAnalytics Madrid 2014: Spark
PDF
Data crunching con Spark
PPT
Introducción a Apache Spark a través de un caso de uso cotidiano
PDF
Hadoop: tecnologias relacionadas
PDF
Spark Hands-on
Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana
Curso completo de Elasticsearch
OpenAnalytics Madrid 2014: Spark
Data crunching con Spark
Introducción a Apache Spark a través de un caso de uso cotidiano
Hadoop: tecnologias relacionadas
Spark Hands-on

La actualidad más candente (20)

ODP
ElasticSearch: la tenés atroden Google
PPTX
PDF
Primeros pasos con Apache Spark - Madrid Meetup
PDF
MapReduce en Hadoop
PDF
Tutorial en Apache Spark - Clasificando tweets en realtime
PDF
Spark meetup barcelona
PDF
Introduccion a Apache Spark
PDF
Introducción a Hadoop
PPTX
Formación apache Solr
PPTX
Introducción a Apache Spark
PDF
Conferencia 5: Extendiendo Solr
PDF
PDF
Apache spark meetup
KEY
Federacion Repositorios Objetos de Aprendizaje
PDF
Seminario Apache Solr
PPSX
Serarch engines y Solr, JUG Argentina
KEY
Redis, base de datos NoSQL clave-valor
PDF
Mejorando la búsqueda Web con Apache Solr
PPTX
Taller hadoop
ElasticSearch: la tenés atroden Google
Primeros pasos con Apache Spark - Madrid Meetup
MapReduce en Hadoop
Tutorial en Apache Spark - Clasificando tweets en realtime
Spark meetup barcelona
Introduccion a Apache Spark
Introducción a Hadoop
Formación apache Solr
Introducción a Apache Spark
Conferencia 5: Extendiendo Solr
Apache spark meetup
Federacion Repositorios Objetos de Aprendizaje
Seminario Apache Solr
Serarch engines y Solr, JUG Argentina
Redis, base de datos NoSQL clave-valor
Mejorando la búsqueda Web con Apache Solr
Taller hadoop
Publicidad

Destacado (20)

PDF
Warhorse pride vol 2 issue 11 20140523
PDF
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
PPTX
TECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION II
PPSX
G te c sesion3b- mapreduce
PPT
Comparacion Entre Rmi Y Api De Sockets
PPTX
Programación orientada a objetos
PDF
Hadoop
PPTX
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
PPTX
Big data, Hadoop, HDInsight
PDF
Big Data a traves de una implementación
PDF
Analisando eventos de forma inteligente para detecção de intrusos usando ELK
PDF
Aula virtual apache_hadoop_v3 1
PDF
nerdear.la 2016 - Docker workshop
PDF
Como de grandes son tus datos
PDF
Polybase
PDF
¿Por que cambiar de Apache Hadoop a Apache Spark?
PPTX
Monta una Infraestructura para Big Data en tu Empresa
PPTX
Introducción a Docker
PPT
Big Data Open Source Analytics (español)
KEY
Aplicando elasticidad en la búsqueda con Grails
Warhorse pride vol 2 issue 11 20140523
MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO DE RED CON APACHE HADOOP
TECNOLOGIA DETRAS DE LAS REDES SOCIALES(FACEBOOK) - LENGUAJE DE PROGRAMACION II
G te c sesion3b- mapreduce
Comparacion Entre Rmi Y Api De Sockets
Programación orientada a objetos
Hadoop
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big data, Hadoop, HDInsight
Big Data a traves de una implementación
Analisando eventos de forma inteligente para detecção de intrusos usando ELK
Aula virtual apache_hadoop_v3 1
nerdear.la 2016 - Docker workshop
Como de grandes son tus datos
Polybase
¿Por que cambiar de Apache Hadoop a Apache Spark?
Monta una Infraestructura para Big Data en tu Empresa
Introducción a Docker
Big Data Open Source Analytics (español)
Aplicando elasticidad en la búsqueda con Grails
Publicidad

Similar a Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana (20)

PPTX
On-the-fly ETL con EFK: ElasticSearch, Flume, Kibana
PDF
Best hadoop bigdata architecture resume
PDF
PDF
OpenAnalytics 04/2015 - Data Analytics con Hadoop
PDF
Open analytics. data analytics con hadoop
PPTX
Introducción a polybase en SQL Server
PDF
apache00000000000000000000000000000_t.pdf
PPTX
MIERCODSGDSGDGDGDSGHSDGDGDSDGASDGLE.pptx
PPTX
Pablo Doval | Plain Concepts | Open Data
ODP
Hadoop, Cloud y Spring
PDF
Apache nifi_introduccion_v1.0
PDF
Construyendo Aplicaciones Web con PHP + LUA + REDIS
PPTX
Base de Datos
PDF
Tipos servidores
PDF
Tipos de servidores
PPTX
Clase Hadoop
PDF
Actividad n 5.3 http ftp
PDF
Actividad n 5.3 http ftp
PPTX
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
On-the-fly ETL con EFK: ElasticSearch, Flume, Kibana
Best hadoop bigdata architecture resume
OpenAnalytics 04/2015 - Data Analytics con Hadoop
Open analytics. data analytics con hadoop
Introducción a polybase en SQL Server
apache00000000000000000000000000000_t.pdf
MIERCODSGDSGDGDGDSGHSDGDGDSDGASDGLE.pptx
Pablo Doval | Plain Concepts | Open Data
Hadoop, Cloud y Spring
Apache nifi_introduccion_v1.0
Construyendo Aplicaciones Web con PHP + LUA + REDIS
Base de Datos
Tipos servidores
Tipos de servidores
Clase Hadoop
Actividad n 5.3 http ftp
Actividad n 5.3 http ftp
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...

Último (20)

PPTX
Power Point Nicolás Carrasco (disertación Roblox).pptx
PDF
CONTABILIDAD Y TRIBUTACION, EJERCICIO PRACTICO
PDF
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
PDF
Distribucion de frecuencia exel (1).pdf
PPTX
Historia Inteligencia Artificial Ana Romero.pptx
PPTX
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
PDF
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
PDF
PRESENTACIÓN GENERAL MIPIG - MODELO INTEGRADO DE PLANEACIÓN
DOCX
TRABAJO GRUPAL (5) (1).docxsjsjskskksksksks
PDF
TRABAJO DE TECNOLOGIA.pdf...........................
PPTX
Sesion 1 de microsoft power point - Clase 1
DOCX
TRABAJO GRUPAL (5) (1).docxjsjsjskskksksk
PPTX
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
PPTX
El uso de las TIC en la vida cotidiana..
PPTX
Propuesta BKP servidores con Acronis1.pptx
PPTX
Presentacion de Alba Curso Auditores Internos ISO 19011
PDF
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
PPTX
Curso de generación de energía mediante sistemas solares
PDF
MANUAL de recursos humanos para ODOO.pdf
PDF
capacitación de aire acondicionado Bgh r 410
Power Point Nicolás Carrasco (disertación Roblox).pptx
CONTABILIDAD Y TRIBUTACION, EJERCICIO PRACTICO
Instrucciones simples, respuestas poderosas. La fórmula del prompt perfecto.
Distribucion de frecuencia exel (1).pdf
Historia Inteligencia Artificial Ana Romero.pptx
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
PRESENTACIÓN GENERAL MIPIG - MODELO INTEGRADO DE PLANEACIÓN
TRABAJO GRUPAL (5) (1).docxsjsjskskksksksks
TRABAJO DE TECNOLOGIA.pdf...........................
Sesion 1 de microsoft power point - Clase 1
TRABAJO GRUPAL (5) (1).docxjsjsjskskksksk
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
El uso de las TIC en la vida cotidiana..
Propuesta BKP servidores con Acronis1.pptx
Presentacion de Alba Curso Auditores Internos ISO 19011
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
Curso de generación de energía mediante sistemas solares
MANUAL de recursos humanos para ODOO.pdf
capacitación de aire acondicionado Bgh r 410

Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana

  • 1. Proyecto Final Master Felix Rodriguez Araujo Master Experto en Cloud Computing U-TAD Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana
  • 2. DESCRIPCIÓN GLOBAL DEL PROYECTO TECNOLOGÍAS USADAS WORKFLOW DEL DATO A ALTO NIVEL BIBLIOGRAFÍA 1 2 3 4
  • 4. Con el crecimiento de los volúmenes de datos que estamos experimentando en los últimos años, nos hemos visto obligados a buscar soluciones para poder tratar dicha información de manera ágil y eficiente. E.T.L. está siendo una estrategia claramente en alza en los últimos tiempos,el cómo extraer los datos de múltiples orígenes y sistemas, cargarlos en tablas de datos para luego,posteriormente tratarlos y poder sacar un provecho de ellos. En el ejemplo que quiero tratar con este proyecto, es la gestión de logs generados por los diferentes webservers que tenemos por las diferentes regiones configuradas en AWS,para posteriormente visualizarlos de una manera eficiente y práctica. Transform Extract Load
  • 6. Flume permite diseñar y ejecutar workflows ETL con un gran rendimiento, confiabilidad y una puesta en marcha rápida (sin necesidad de programación) Apache Flume es un sistema para la recolección agregación y transporte de cantidades masivas de información. Distribuido, confiable y flexible. Su capacidad de adaptación permite trabajar con fuentes de datos heterogéneas y con destinos variados. Los datos se pueden transformar, parsear, enriquecer o normalizar al vuelo. También pueden crearse topologías de despliegue sofisticadas, para resolver casos de uso más complejos.
  • 7. Hadoop es un sistema que permite almacenar y procesar grandes datos en un entorno distribuido en clústeres de ordenadores utilizando modelos de programación simple. Está diseñado para aumentar la escala de servidores individuales de miles de máquinas, cada uno de ellos ofrece computación y almacenamiento local. Características de los HDFS ● Es adecuado para el almacenamiento y procesamiento distribuido. ● Hadoop proporciona una interfaz de comandos para interactuar con HDFS. ● Los servidores de namenode datanode y ayudar a los usuarios a comprobar fácilmente el estado del clúster. ● Streaming el acceso a los datos del sistema de ficheros. ● HDFS proporciona permisos de archivo y la autenticación.
  • 8. Hive es almacén de datos creado específicamente para Hadoop que nos facilita la tarea de sumarizar los datos pre-existentes en HDFS. La idea principal de Hive es la de funcionar como capa externa a Hadoop a modo de envoltorio, donde vamos a poder realizar consultas sobre el sistema de archivos que serán tratadas como MapReduces en modo nativo en HDFS. Para poder realizar estas operaciones, fue creado un lenguaje de consultas a "base de datos" (recordemos que HDFS es un sistema de ficheros) muy similar a SQL, que denominaron HiveQL o HQL (dependiendo de en que libro lo leas lo verás de una manera u otra).
  • 9. ElasticSearch indexa cualquier documento que le envíes y escala horizontalmente con mucha facilidad. ElasticSearch es un servidor de indexación y búsqueda schema-less con grandes capacidades de escalabilidad horizontal. Schema-less significa que el esquema se puede actualizar sobre la marcha, en función de los documentos indexados. ElasticSearch puede indexar cada campo de los documentos (full-text search) y genera agregaciones y agrupaciones automáticamente. Registrar un nodo nuevo en el cluster es muy sencillo, con una gestión automática del reparto de los datos y peticiones.
  • 10. Kibana permite sacar provecho de los datos indexados, diseñando dashboards en cuestión de minutos. Kibana es el motor de visualización y análisis de ElasticSearch, que permite una integración nativa con los datos indexados. Los dashboards de Kibana son fáciles de crear y permiten una exploración de los datos en tiempo real, pero también de históricos. Su interfaz es muy flexible y potente, con capacidades de análisis que abarcan desde la visualización de widgets hasta el raw data, con drill-down y estadísticas al vuelo de cada dato indexado.
  • 12. Http requests and responses Apache HTTP server Flume Agent Flume Messaging TCP PORT 4545 HDFS Hive Flume Agent Loading to Elasticsearch with Hive Visualising the data
  • 13. El primer paso, lógicamente será recibir peticiones a nuestros servidores web Apache. Dicho tráfico configuraremos para que loguee donde consideremos oportuno. Http requests and responses Apache HTTP server Flume Agent En cada web-server configuraremos el agente flume, para que envie los logs al HDFS. El archivo de conf básica del flume en el web-server Ruta de los logs a analizar Ip HDFS +Puerto PARA LEVANTAR EL AGENTE /usr/lib/flume/bin/flume-ng agent -c conf -f conf/flume-src-agent.conf -n source_agent
  • 14. Apache HTTP server Flume Agent Flume Messaging TCP PORT 4545 HDFS Hive Flume Agent Una vez levantado el agente Flume en el servidor origen,procederá a enviar al “collector” (servidor destino) los logs que hemos configurado previamente. Path del HDFS donde guardamos los logs enviados desde el source START Agent: flume-ng agent -c conf -f /flume-ng/conf/flume-trg-agent.conf -n collector
  • 15. Una vez lanzados los agentes flumes tanto en el server target como source….. Vemos como, efectivamente nuestro HDFS está recibiendo datos
  • 16. Podemos ver de una manera mucho más gráfica los logs importados por flume en HDFS, usaremos la G.U.I. de Hadoop, HUE.
  • 17. Para poder conseguir nuestro objetivo final, debemos de empezar a tratar los logs con HIVE, para ello vamos a “importar” los logs en tablas, para ello lo haremos desde HUE o también desde la consola hive de un terminal SSH, con la siguiente query.
  • 18. A continuación vamos a “inyectar” datos en ElasticSearch,ya que es un requisito fundamental para finalmente poder verlo en Kibana. Lo primero que debemos hacer es agregar el jar elasticsearch-hadoop a la query Las queries necesarias para ello son las siguientes: CREATE TABLE logs (type STRING, time STRING, ext STRING, ip STRING, req STRING, res INT, bytes INT, phpmem INT, agent STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY 't'; LOAD DATA INPATH '/pro/data/logs/apache_access_combined/150724' OVERWRITE INTO TABLE logs; CREATE EXTERNAL TABLE felix_logses (time STRING, extension STRING, clientip STRING, request STRING, response INT, agent STRING) STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler' TBLPROPERTIES('es.resource' = 'demo/hive', 'es.mapping.names' = 'time:@timestamp', 'es.nodes' = 'your_es_cluster_hostname'); INSERT OVERWRITE TABLE felix_logses SELECT s.time, s.ext, s.ip, s.req, s.res, s.agent FROM logs s;
  • 19. Si todo ha ido bien, ya podemos empezar a tratar datos con Elasticsearch. Para verlo no hay más que ejecutar esta sencilla query…... Y ...Voila...vemos los datos correctamente importados…….
  • 20. El último paso de nuestro proyecto, es ofrecer una visualización de los logs que vamos y hemos importado. Como dijimos antes, usaremos Kibana. Lo primero que deberemos hacer es agregar el index creado en la tabla anteriormente en hive. En este caso, el index creado se denomina felix, vemos que importa las tablas con sus campos y datos.
  • 21. El último paso de nuestro proyecto, es ofrecer una visualización de los logs que vamos y hemos importado. Como dijimos antes, usaremos Kibana. Lo primero que deberemos hacer es agregar el index creado en la tabla anteriormente en hive. En este caso, el index creado se denomina felix, vemos que importa las tablas con sus campos y datos.
  • 22. Los siguientes pasos en Kibana, para no entrar mucho en detalle, es básicamente que debes personalizar tus búsquedas en tus logs para que, posteriormente con los datos importados por Elasticsearch, te muestre los gráficos deseados.
  • 24. http://www.rittmanmead.com/2014/05/trickle-feeding-webserver-log-files-to-hdfs-using-apache-flume/ https://www.elastic.co/guide/en/elasticsearch/reference/1.6/cluster-nodes-info.html https://github.com/hortonworks/hadoop-tutorials/blob/master/Community/T07_Elasticsearch_Hadoop_Integration.md http://www.johnandcailin.com/blog/cailin/exploring-apache-log-files-using-hive-and-hadoop https://www.elastic.co/downloads http://ryrobes.com/systems/connecting-tableau-to-elasticsearch-read-how-to-query-elasticsearch-with-hive-sql-and- hadoop/comment-page-1/ https://github.com/lmenezes/elasticsearch-kopf https://www.digitalocean.com/community/tutorials/how-to-use-kibana-dashboards-and-visualizations hortonworks.com/products/hortonworks-sandbox/#tuts-admins