SlideShare una empresa de Scribd logo
El papel del Cloud Computing en BD & DS
Javier Cacheiro López
jlopez@cesga.es
Contenido
 Soluciones Cloud
 Cloud Federado: EGI FedCloud
 BigData en FedCloud
 Conclusiones
Cloud
Cloud
Modelos Cloud
 Infrastructure as a Service (IaaS)
 Amazon EC2
 Platform as a Service (PaaS)
 Salesforce, Google App Engine
 Software as a Service (SaaS)
 Google Docs
Escalabilidad
Escalabilidad vertical: Scale up
Escalabilidad horizontal: Scale out
Virtualización
Virtual Machine Monitor (VMM)
VMM / Hipervisor
Hardware Máquina Física
Máquina
Virtual
Máquina
Virtual
Máquina
Virtual
Anillos de Protección
Tipos de VMM
 VMM Tipo 1 (bare metal)
 Anillo 0
 Hipervisor directamente sobre el hardware
 VMM Tipo 2 (hosted)
 Anillo 3
 Hipervisor dentro de un SO
Modos de Virtualización
Descripción Ventajas Ejemplos
Rendimiento Xen PV
Rendimiento KVM, Xen HVM
Desventaj
as
Virtualización
completa (full
virtualization)
Simulación completa del
hardware de la máquina física
Pérdida de
rendimiento
No es necesario
modificar el SO
de la MV
VMWare
Workstation,
VirtualBox
Paravirtualización
Simulación parcial del hardware
de la máquina física. La MV es
consciente de que corre en un
entorno virtual.
Es
necesario
modificar el
SO de la MV
para que se
ejecute en
el anillo 1
Virtualización
asistida por
hardware (Native
Virtualization)
Virtualización total que se
aprovecha del soporte para
virtualización presente en el
hardware como las extensiones
VT de Intel o Pacifica de AMD
Es
necesario
hardware
específico
Soluciones de Virtualización en entornos cloud
 Xen
 KVM
 VMware
 Hyper-V
Xen: Conceptos Básicos
 Dom0: el SO anfitrión con el kernel de Xen
 DomU: cada una de las máquinas virtuales
 VIF: Virtual Network Inferface
 VBD: Virtual Block Device
 HVM: Virtualización con soporte hardware
Linux paravirt_ops (pv-ops)
 Pv-ops es una parte del kernel de Linux que le
permite ejecutarse como máquina paravirtual
 Está disponible para x86, x86_64 e ia64
 El mismo kernel puede arrancar nativamente
en el hardware físico o como máquina
paravirtual
 Xen y VMware tienen soporte de pv-ops
Xen StubDom
 StubDom representa un nuevo modelo de
gestión de dispositivos para MV HVM
disponible a partir de Xen 3.3
 El nuevo modelo utiliza un mini-SO para tareas
como acceso a disco, a dispositivos de vídeo o
a memoria
 Se consigure una mejora considerable de
rendimiento
KVM: Conceptos Básicos
 Requiere de un procesador con soporte de
virtualización
 Soporta paravirtualización para ciertos drivers a
través de VirtIO
 RHEL6 añade KVM y elimina Xen
Virtualización Completa vs Paravirtualización
MicroKernel
Hardware
Máquina
Virtual
Máquina
Virtual
Máquina
Virtual
Driver Driver
API Gestión Traducción Binaria
Hipervisor
Hardware
Máquina
Virtual
Máquina
Virtual
Máquina
Virtual
API Gestión API Hardware Virtual HVM
Virtualización Completa Paravirtualización
Xen vs KVM: Linpack
Xen vs KVM: I/O
Standards
 Open Virtualization Format (OVF): Formato
standard para exportar máquinas virtuales
entre VMMs
 Virtual Machine Disk Format (VMDK): Formato
standard para la creación de discos virtuales
(usado principalmente por VMware)
 VMI: Interfaz alternativo a pv-ops desarrollado
por VMware (eliminado a partir del kernel
2.6.37)
Consideraciones prácticas
 Las máquinas virtuales HVM y con
virtualización total pueden presentar problemas
con el reloj del sistema
 Muchos VMM no gestionan eficiencientemente
MV multi-procesador
 El rendimiento de ficheros y LVM para
almacenar las MV es similar
 Algunas distribuciones de Linux incluyen una
versión de /lib/tls que no es compatible con Xen
(es recomendable deshabilitarla)
Soluciones Cloud IaaS
IaaS Pública IaaS Privada
Google Compute Engine
Public IaaS: Hipervisores
 AWS Amazon EC2:
 Xen en general y Xen HVM para instancias tipo:
cluster compute, high I/O, second generation (m3)
and Windows
 Rackspace:
 Xen para Linux y XenServer para Windows
 Google Compute Engine
 KVM
 Windows Azure
 Hyper-V
IaaS
Comparativa
Fuente: http://blog.opennebula.org/?p=4042
Arquitectura OpenNebula
Almacenamiento Cloud
Evolución soluciones almacenamiento
Almacenamiento local
SAN
Distributed Replicated Block Device (DRDB)
Object Storage
Tipos de Almacenamiento
Object Storage
Amazon S3
OpenStack Swift
Ceph
File Storage
NAS (NFS, CIFS)
GlusterFS
Ceph FS
Block Storage
SAS/SATA/iSCSI
Amazon EBS
Ceph RDB
Object Storage
 Escalable:
 Posibilidad de ampliar/reducir el almacenamiento
 Barato:
 Agrega los discos locales de muchos servidores
 Replicación automática:
 Tolerancia a fallos
 Interfaz http: usualmente API REST
Object Storage: Ejemplos
 Amazon S3
 OpenStack Swift
 Ceph
 Object Storage: Ceph filesystem
 Block Storage: Ceph RADOS Block Device (RDB)
 File Storage: Ceph FS
 GlusterFS
Object Storage: Inconvenientes
 Si se actualiza un fichero hay que esperar a
que se propaguen los cambios a todas la
réplicas
 Preferible para almacenar datos que no
cambian mucho
 Interfaz http
Soluciones de Almacenamiento IaaS
AWS
Object Storage Block Storage
Simple Storage Service (S3) Elastic Block Storage (EBS)
OpenStack Swift Ceph, GlusterFS, NetApp
Eucalyptus Walrus Storage Controller (SC)
CloudStack Swift Ceph
OpenNebula Ceph
Cloud Federado
EGI FedCloud
MonitorizaciónMonitorización
AccountingAccounting
OpenNebula
3.x
MySQL
database
MySQL
database
Summarized records
Running /stopped/finished VMs
Summarized records
Running /stopped/finished VMs
meghacloud.cesga.es
Apelglobalrepo.
Ejecutando Hadoop en FedCloud
Configuración de Hadoop
N+1 Hadoop cluster
 1 Master
 NameNode / Secondary NameNode
 JobTracker
 N Slaves
 DataNode
 TaskTracker
Despliegue del cluster
Tiempo de despliegue de un cluster Hadoop de
101 nodos
 Obtener identificador: 71-86 min
 Tiempo total: 2,5-3 horas
Despliegue: Carga en el frontend
Despliegue: Uso de red
Enciclopedia Británica
Wikipedia
GAIA
GAIA
 Misión de la ESA para elaborar un mapa
tridimensional de nuestra Galaxia, la vía
láctea: http://sci.esa.int/gaia/
 El satélite será lanzado en agosto
 Datos a analizar: ~1PB
GAIA
Se analizaron distintas soluciones:
• Cassandra
• Hadoop
• InterSystems Cache
• IBM DB2
• PostgreSQL 9 + Pl/Proxy2 + Cassandra
GAIA
 Solución elegida: Hadoop
GAIA: Escalabilidad en FedCloud
Conclusiones
BigData + Cloud
Ejecutar BigData sobre una plataforma IaaS
ofrece ventajas e inconvenientes
Pros
 Elasticidad: tanta como tenga la aplicación
 Rapidez para obtener recursos
 Facilidad en la configuración
 Sencillez en el despliegue
 Ideal para pruebas
Contras
 Tiempo de despliegue:
 Es necesario optimizar el gestor cloud para mejorar
el tiempo de despliegue
 Rendimiento
 Es necesario optimizar las MV para mejorar su
rendimiento de E/S
 Entorno heterogéneo
 Rendimiento de cada MV variable dependiendo
de la carga del anfitrión

Más contenido relacionado

PDF
AWS CloudFormation en 5 Minutos
PPTX
VMware vSphere ventajas y desventajas
PPT
Virtualizacion de Clusters para prevencion de DDoS
PDF
Virtual Box
PPT
Vmware
PPT
Manual v center converter instalacion y manejo
PDF
VMware vSphere 5 What's New
PPTX
Problemática de servidores virtuales
AWS CloudFormation en 5 Minutos
VMware vSphere ventajas y desventajas
Virtualizacion de Clusters para prevencion de DDoS
Virtual Box
Vmware
Manual v center converter instalacion y manejo
VMware vSphere 5 What's New
Problemática de servidores virtuales

La actualidad más candente (20)

PPTX
Virtualization Station
PDF
Veeam Agents para Linux y Microsoft Windows
PPTX
Docker 2014 v2
PPSX
Virtualizacion De Servidores De Infraestructura Microsoft
PDF
Módulo de Alta Disponibilidad de Elastix
DOC
Informe laboratorio 1 kvm
PDF
La era de la Virtualización y sus beneficios para las empresas
PPTX
Introducción a VMware vSAN
PDF
Proyecto XenServer
PDF
Como reducir costos en AWS
PDF
Virtualizar o no virtualizar, esa es la cuestión | SolidQ Summit 2012
PDF
Cbs aws-fundamentals-3
PDF
Proyecto Integrado ASIR
PDF
Esx, vcenter, vclient, vmotion, freenas
PPT
Vmware
PDF
EC2 Cómputo en la nube a profundidad
PDF
Veeam Fastscp Español
PDF
Congreso del mediterraneo_xen_server_v010
PPTX
Virtualización
PDF
OpenNebula Oneflow: give me the flow!
Virtualization Station
Veeam Agents para Linux y Microsoft Windows
Docker 2014 v2
Virtualizacion De Servidores De Infraestructura Microsoft
Módulo de Alta Disponibilidad de Elastix
Informe laboratorio 1 kvm
La era de la Virtualización y sus beneficios para las empresas
Introducción a VMware vSAN
Proyecto XenServer
Como reducir costos en AWS
Virtualizar o no virtualizar, esa es la cuestión | SolidQ Summit 2012
Cbs aws-fundamentals-3
Proyecto Integrado ASIR
Esx, vcenter, vclient, vmotion, freenas
Vmware
EC2 Cómputo en la nube a profundidad
Veeam Fastscp Español
Congreso del mediterraneo_xen_server_v010
Virtualización
OpenNebula Oneflow: give me the flow!
Publicidad

Destacado (6)

ODP
Virtualizacion Con Xen En Open Solaris
PPTX
Building Scalable .NET Web Applications
PPTX
Gestion de memoria en unix y solaris
PPT
Administración de Memoria en UNIX
PPTX
Scaling asp.net websites to millions of users
ODP
Gestion de memoria en Linux
Virtualizacion Con Xen En Open Solaris
Building Scalable .NET Web Applications
Gestion de memoria en unix y solaris
Administración de Memoria en UNIX
Scaling asp.net websites to millions of users
Gestion de memoria en Linux
Publicidad

Similar a Cloud y BigData (20)

PDF
Virtualizacion - Virtualizacion_Cloud.pdf
PDF
presentacion-proxmox-comparativa.pdf
PDF
Virtualizacion
PDF
Dell emc redhat_dez20
PPTX
To Cloud or not To Cloud, That is the question!
DOCX
Cloud Computing
PPT
Plan antiguo manana-_enrique_gullon-_presentacion_virtualizacion
PPTX
Tipos de virtualizacion : descripcion de
PPT
XEN - Taller presentación Xen
PDF
Xen.org Overview 2009 spanish
PDF
Construyendo una nube con OpenStack
PDF
Introduccion a Open Stack
PDF
"Cloudificación" de servicios: retos y oportunidades
PPTX
Curso Cloud Computing, Parte 1: Amazon Web Services
PDF
2 la nueva versión de v mware
PPTX
Virtualización
PDF
V mware infraestructure 3
PPTX
Cloud computing
PDF
Red Hat Cloud Computing
PPTX
AWS Services Overview
Virtualizacion - Virtualizacion_Cloud.pdf
presentacion-proxmox-comparativa.pdf
Virtualizacion
Dell emc redhat_dez20
To Cloud or not To Cloud, That is the question!
Cloud Computing
Plan antiguo manana-_enrique_gullon-_presentacion_virtualizacion
Tipos de virtualizacion : descripcion de
XEN - Taller presentación Xen
Xen.org Overview 2009 spanish
Construyendo una nube con OpenStack
Introduccion a Open Stack
"Cloudificación" de servicios: retos y oportunidades
Curso Cloud Computing, Parte 1: Amazon Web Services
2 la nueva versión de v mware
Virtualización
V mware infraestructure 3
Cloud computing
Red Hat Cloud Computing
AWS Services Overview

Último (20)

PDF
Calidad desde el Docente y la mejora continua .pdf
PDF
MÓDULO DE CALOR DE GRADO DE MEDIO DE FORMACIÓN PROFESIONAL
PPTX
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
PPTX
Propuesta BKP servidores con Acronis1.pptx
PDF
5.1 Pinch y Bijker en libro Actos, actores y artefactos de Bunch Thomas (coor...
PPTX
sa-cs-82-powerpoint-hardware-y-software_ver_4.pptx
PPTX
RAP01 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
PPT
introduccion a las_web en el 2025_mejoras.ppt
PDF
Plantilla para Diseño de Narrativas Transmedia.pdf
PPTX
Power Point Nicolás Carrasco (disertación Roblox).pptx
PPTX
historia_web de la creacion de un navegador_presentacion.pptx
PDF
SAP Transportation Management para LSP, TM140 Col18
PDF
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
PDF
clase auditoria informatica 2025.........
PPTX
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
PPT
El-Gobierno-Electrónico-En-El-Estado-Bolivia
PDF
Estrategia de apoyo tecnología miguel angel solis
PPTX
Presentación de Redes de Datos modelo osi
PDF
Maste clas de estructura metálica y arquitectura
DOCX
Zarate Quispe Alex aldayir aplicaciones de internet .docx
Calidad desde el Docente y la mejora continua .pdf
MÓDULO DE CALOR DE GRADO DE MEDIO DE FORMACIÓN PROFESIONAL
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
Propuesta BKP servidores con Acronis1.pptx
5.1 Pinch y Bijker en libro Actos, actores y artefactos de Bunch Thomas (coor...
sa-cs-82-powerpoint-hardware-y-software_ver_4.pptx
RAP01 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
introduccion a las_web en el 2025_mejoras.ppt
Plantilla para Diseño de Narrativas Transmedia.pdf
Power Point Nicolás Carrasco (disertación Roblox).pptx
historia_web de la creacion de un navegador_presentacion.pptx
SAP Transportation Management para LSP, TM140 Col18
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
clase auditoria informatica 2025.........
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
El-Gobierno-Electrónico-En-El-Estado-Bolivia
Estrategia de apoyo tecnología miguel angel solis
Presentación de Redes de Datos modelo osi
Maste clas de estructura metálica y arquitectura
Zarate Quispe Alex aldayir aplicaciones de internet .docx

Cloud y BigData

  • 1. El papel del Cloud Computing en BD & DS Javier Cacheiro López jlopez@cesga.es
  • 2. Contenido  Soluciones Cloud  Cloud Federado: EGI FedCloud  BigData en FedCloud  Conclusiones
  • 5. Modelos Cloud  Infrastructure as a Service (IaaS)  Amazon EC2  Platform as a Service (PaaS)  Salesforce, Google App Engine  Software as a Service (SaaS)  Google Docs
  • 6. Escalabilidad Escalabilidad vertical: Scale up Escalabilidad horizontal: Scale out
  • 8. Virtual Machine Monitor (VMM) VMM / Hipervisor Hardware Máquina Física Máquina Virtual Máquina Virtual Máquina Virtual
  • 10. Tipos de VMM  VMM Tipo 1 (bare metal)  Anillo 0  Hipervisor directamente sobre el hardware  VMM Tipo 2 (hosted)  Anillo 3  Hipervisor dentro de un SO
  • 11. Modos de Virtualización Descripción Ventajas Ejemplos Rendimiento Xen PV Rendimiento KVM, Xen HVM Desventaj as Virtualización completa (full virtualization) Simulación completa del hardware de la máquina física Pérdida de rendimiento No es necesario modificar el SO de la MV VMWare Workstation, VirtualBox Paravirtualización Simulación parcial del hardware de la máquina física. La MV es consciente de que corre en un entorno virtual. Es necesario modificar el SO de la MV para que se ejecute en el anillo 1 Virtualización asistida por hardware (Native Virtualization) Virtualización total que se aprovecha del soporte para virtualización presente en el hardware como las extensiones VT de Intel o Pacifica de AMD Es necesario hardware específico
  • 12. Soluciones de Virtualización en entornos cloud  Xen  KVM  VMware  Hyper-V
  • 13. Xen: Conceptos Básicos  Dom0: el SO anfitrión con el kernel de Xen  DomU: cada una de las máquinas virtuales  VIF: Virtual Network Inferface  VBD: Virtual Block Device  HVM: Virtualización con soporte hardware
  • 14. Linux paravirt_ops (pv-ops)  Pv-ops es una parte del kernel de Linux que le permite ejecutarse como máquina paravirtual  Está disponible para x86, x86_64 e ia64  El mismo kernel puede arrancar nativamente en el hardware físico o como máquina paravirtual  Xen y VMware tienen soporte de pv-ops
  • 15. Xen StubDom  StubDom representa un nuevo modelo de gestión de dispositivos para MV HVM disponible a partir de Xen 3.3  El nuevo modelo utiliza un mini-SO para tareas como acceso a disco, a dispositivos de vídeo o a memoria  Se consigure una mejora considerable de rendimiento
  • 16. KVM: Conceptos Básicos  Requiere de un procesador con soporte de virtualización  Soporta paravirtualización para ciertos drivers a través de VirtIO  RHEL6 añade KVM y elimina Xen
  • 17. Virtualización Completa vs Paravirtualización MicroKernel Hardware Máquina Virtual Máquina Virtual Máquina Virtual Driver Driver API Gestión Traducción Binaria Hipervisor Hardware Máquina Virtual Máquina Virtual Máquina Virtual API Gestión API Hardware Virtual HVM Virtualización Completa Paravirtualización
  • 18. Xen vs KVM: Linpack
  • 19. Xen vs KVM: I/O
  • 20. Standards  Open Virtualization Format (OVF): Formato standard para exportar máquinas virtuales entre VMMs  Virtual Machine Disk Format (VMDK): Formato standard para la creación de discos virtuales (usado principalmente por VMware)  VMI: Interfaz alternativo a pv-ops desarrollado por VMware (eliminado a partir del kernel 2.6.37)
  • 21. Consideraciones prácticas  Las máquinas virtuales HVM y con virtualización total pueden presentar problemas con el reloj del sistema  Muchos VMM no gestionan eficiencientemente MV multi-procesador  El rendimiento de ficheros y LVM para almacenar las MV es similar  Algunas distribuciones de Linux incluyen una versión de /lib/tls que no es compatible con Xen (es recomendable deshabilitarla)
  • 22. Soluciones Cloud IaaS IaaS Pública IaaS Privada Google Compute Engine
  • 23. Public IaaS: Hipervisores  AWS Amazon EC2:  Xen en general y Xen HVM para instancias tipo: cluster compute, high I/O, second generation (m3) and Windows  Rackspace:  Xen para Linux y XenServer para Windows  Google Compute Engine  KVM  Windows Azure  Hyper-V
  • 24. IaaS
  • 28. Evolución soluciones almacenamiento Almacenamiento local SAN Distributed Replicated Block Device (DRDB) Object Storage
  • 29. Tipos de Almacenamiento Object Storage Amazon S3 OpenStack Swift Ceph File Storage NAS (NFS, CIFS) GlusterFS Ceph FS Block Storage SAS/SATA/iSCSI Amazon EBS Ceph RDB
  • 30. Object Storage  Escalable:  Posibilidad de ampliar/reducir el almacenamiento  Barato:  Agrega los discos locales de muchos servidores  Replicación automática:  Tolerancia a fallos  Interfaz http: usualmente API REST
  • 31. Object Storage: Ejemplos  Amazon S3  OpenStack Swift  Ceph  Object Storage: Ceph filesystem  Block Storage: Ceph RADOS Block Device (RDB)  File Storage: Ceph FS  GlusterFS
  • 32. Object Storage: Inconvenientes  Si se actualiza un fichero hay que esperar a que se propaguen los cambios a todas la réplicas  Preferible para almacenar datos que no cambian mucho  Interfaz http
  • 33. Soluciones de Almacenamiento IaaS AWS Object Storage Block Storage Simple Storage Service (S3) Elastic Block Storage (EBS) OpenStack Swift Ceph, GlusterFS, NetApp Eucalyptus Walrus Storage Controller (SC) CloudStack Swift Ceph OpenNebula Ceph
  • 37. AccountingAccounting OpenNebula 3.x MySQL database MySQL database Summarized records Running /stopped/finished VMs Summarized records Running /stopped/finished VMs meghacloud.cesga.es Apelglobalrepo.
  • 39. Configuración de Hadoop N+1 Hadoop cluster  1 Master  NameNode / Secondary NameNode  JobTracker  N Slaves  DataNode  TaskTracker
  • 40. Despliegue del cluster Tiempo de despliegue de un cluster Hadoop de 101 nodos  Obtener identificador: 71-86 min  Tiempo total: 2,5-3 horas
  • 41. Despliegue: Carga en el frontend
  • 45. GAIA
  • 46. GAIA  Misión de la ESA para elaborar un mapa tridimensional de nuestra Galaxia, la vía láctea: http://sci.esa.int/gaia/  El satélite será lanzado en agosto  Datos a analizar: ~1PB
  • 47. GAIA Se analizaron distintas soluciones: • Cassandra • Hadoop • InterSystems Cache • IBM DB2 • PostgreSQL 9 + Pl/Proxy2 + Cassandra
  • 51. BigData + Cloud Ejecutar BigData sobre una plataforma IaaS ofrece ventajas e inconvenientes
  • 52. Pros  Elasticidad: tanta como tenga la aplicación  Rapidez para obtener recursos  Facilidad en la configuración  Sencillez en el despliegue  Ideal para pruebas
  • 53. Contras  Tiempo de despliegue:  Es necesario optimizar el gestor cloud para mejorar el tiempo de despliegue  Rendimiento  Es necesario optimizar las MV para mejorar su rendimiento de E/S  Entorno heterogéneo  Rendimiento de cada MV variable dependiendo de la carga del anfitrión