SlideShare una empresa de Scribd logo
Deduplicación en el backup de datos
OpenExpo Day 2015
16 de junio 2015
Martín Domínguez Fernández
Responsable de Consultoría y Preventa
en WhiteBearSolutions
Objetivos del taller
Entender qué es la deduplicación y porque
se necesita…
Entender qué opciones tecnológicas
tenemos y cuál debemos elegir…
Dimensionar correctamente un sistema de
backup con deduplicación…
Presentar alternativas Open y sus ventajas
frente a las soluciones cerradas…
La deduplicación
El escenario...
Las organizaciones almacenan
gran cantidad de datos.
El respaldo de los datos es
necesario, pero es caro.
Los datos siguen creciendo,
entre un 50 – 60 % anual!!
Se hace necesario recurrir a cintas para el almacenamiento de grandes
cantidades de datos, pero....
Las cintas son lentas!!
Las cintas fallan!!
Las cintas ocupan espacio!!
La deduplicación…
La deduplicación es una tecnología que elimina los datos duplicados
reduciendo considerablemente el tamaño de los datos almacenados.
Se mantiene un listado de referencias a los bloques con datos
No es compresión ni thin provisioning , pero tiene un poco de ambas
y se puede combinar con ellas
Reduce los costes de almacenamiento
El backup es un candidato ideal!!
Qué puede hacer por mi…
Nuestra organización tiene 20TB de datos almacenados
Mensualmente se crean 2TB de datos nuevos
¿Cuanto almacenamiento necesitamos?
Sin deduplicación:
tamaño = (datos almacenados + cambio semanal) x retención
Con deduplicación:
tamaño = (datos almacenados + cambio semanal) x retención
0 TB
50 TB
100 TB
150 TB
Week 1 Week 2 Week 3 Week 4 Week 5
20 TB 22 TB 24 TB 26 TB 28 TB
20 TB
42 TB
66 TB
92 TB
120 TB
with dedup
without dedup
Datos en 5 semanas de retención:
Información única: 28TB
Información duplicada: 92TB
¿Cómo funciona?
La unidad…
A nivel de fichero:
A nivel de software
Mejor rendimiento general
Falta de granularidad
Peores ratios de deduplicación
SOLUCIÓN:
Dividir los ficheros en
pequeñas partes: “chunks”
A nivel de bloque:
A nivel de filesystem
Necesidad de más recursos
Buenos ratios de dedupliación
menor tamaño de bloque
+ ratio
+ recursos
MEJORA:
Bloque de tamaño variable
9
El momento…
deduplicación off-line:
no afecta al rendimiento R/W
requiere espacio para alojar los
datos antes de ser deduplicados
requiere más I/O
deduplicación in-line
aporta el ahorro de espacio de
forma instantánea
puede afectar al rendimiento
R/W
Más trabajo en RAM, menos I/O
10
El lugar…
en origen “source”:
la carga está en el cliente
su objetivo es enviar la mínima
cantidad de datos, pero hay que tener
cuidado con el proceso
en destino “target”
la carga está en el servidor
permite deduplicar los datos de varios
clientes, lo cual hace que se consigan
mejores ratios
11
Qué elegir…
(File-level + chunks) ≈ Block-level
(in-line + recursos) > off-line
¿target vs source? Lo ideal sería contar con ambas tecnologías…
Global data deduplication
Deduplica en el origen
Antes de enviar un bloque, comprueba
si está en destino
Deduplica entre varios clientes
Maximiza el uso del ancho de banda
Mejora los tiempos de restauración
Reparte el trabajo entre clientes y
servidor
12
Dimensionando el sistema…
13
Información clásica que recopilar…
Datos de origen: conoce cuanta información vas a respaldar, eso te
dará un punto de partida para dimensionar el sistema.
Numero de copias a guardar: establece tu RPO y tu RTO para tus
necesidades y define una retención.
Incremento de datos por copia: te dará el dato definitivo de
dimensionamiento teórico del sistema.
0 TB
50 TB
100 TB
150 TB
Week 1 Week 2 Week 3 Week 4 Week 5
20 TB
42 TB
66 TB
92 TB
120 TB
20 TB 22 TB 24 TB 26 TB 28 TB
with dedup
without dedup
Estimación para 5 semanas:
Tamaño necesario: 28TB
Con compresión (2:1): 14TB
14
¿Es suficiente…?
NO. Muchos sistemas de backup con
deduplicación fracasan y las principales causas
son dos:
las tasas de deduplicación no son las
esperadas y el almacenamiento
dimensionado no es suficiente, haciéndonos
invertir más dinero del esperado
el rendimiento de la solución es muy bajo,
tanto en backup como en restauración y
hace que incumplamos nuestras ventanas
15
Cuál es el problema…
La deduplicación no es gratis, tiene unos
costes:
Posibilidad de colisiones: corrupción de datos
Uso intensivo de CPU: hashing, indexación…
Uso de grandes cantidades de memoria:
tablas de referencia a bloques
Fragmentación de la información: bloques
dispersos en disco
Planificación de sistemas en función de los
datasheets comerciales de los fabricantes:
dimensionamiento erróneo
16
Conoce la tecnología…
El hashing consume CPU
Las tablas de índices consumen memoria
Los sistemas de caché consumen memoria
Los accesos a disco son lentos. Si algo no cabe en memoria, mejor
en SSD
El tamaño del bloque importa:
Muy grande, baja deduplicación
Muy pequeño, bajo rendimiento
Opciones de bloque variable
17
El tipo de dato…
¿Qué deduplica bien? En general, conjuntos de datos que cambian
poca información
Directorios de usuarios, sistemas de log, Directorios de OS, sistemas de
archivado…
¿Qué deduplica mal? Conjuntos de datos muy cambiantes,
comprimidos o cifrados.
BBDD relacionales, Datawharehouses / BI, Sistemas de correo maildir,
Sistemas que comprimen o cifran datos…
Backups incrementales
A mayor numero de copias, mejor tasa de deduplicación
Es importante es probar que los datos deduplican tal como
esperamos
18
WBSAirback®
&
Bacula Enterprise Edition
19
WBSAirback: ZFS on Linux...
Es un appliance de backup que ofrece
“target deduplication”.
Integra Bacula Enterprise como motor
de backup y su plugin “Aligned
volumes”
ZOL es un porting de ZFS de SUN para Linux
Deduplica a nivel de bloque, de tamaño
variable
Ofrece deduplicación in-line y compresión LZ4
Utiliza un sistema de caché multinivel que hace
que el rendimiento del sistema sea muy alto
20
WBSAirback: ZFS on Linux...
21
Bacula Global Endpoint Dedup.
Permite aplicación en origen y destino
Trabaja con “chunks” de ficheros de tamaño
variable
Mantiene una tabla de hash por “chunk”, residente
en SSD
Utiliza sistemas de caché en memoria para más
rápido acceso
Implementa la funcionalidad “Client Rehydration”
que permite utilizar los datos residentes en el
cliente para no enviarlos de nuevo.
22
Bacula Global Endpoint Dedup.
¿Preguntas?
¡Muchas gracias!
http://www.whitebearsolutions.com
@WhiteBear_WBSgo
@mtindominguez

Más contenido relacionado

PPTX
El disco duro y la gerencia
PPTX
Benito v y scarleth l
PPT
Raid
DOCX
Taller no 1 bases de datos
PPTX
SQL Server - Como se Almacenan los Datos
DOC
Actividad2uni3
DOCX
Dispositivos de almacenamiento carguer (1)
El disco duro y la gerencia
Benito v y scarleth l
Raid
Taller no 1 bases de datos
SQL Server - Como se Almacenan los Datos
Actividad2uni3
Dispositivos de almacenamiento carguer (1)

Destacado (20)

PDF
Uso tecnologías FLOSS en Save the Children- OpenExpo Day 2015
PDF
OpenStack: Retos y oportunidades- OpenExpo Day 2015
PDF
Tendencia actual en la búsqueda de perfiles de software libre- OpenExpo Day 2015
PDF
Marketing digital personalizado, multicanal…¡y al fin Open Source!- OpenExpo ...
PDF
Límites abiertos para la tecnología y la accesibilidad- OpenExpo Day 2015
PDF
Typo3: El CMS que vino del frío
PDF
Modelos y experiencias de innovación en marketing digital usando Open Source ...
PDF
Despliegue de aplicaciones OS en entornos Cloud Computing con Bitnami- OpenEx...
PDF
Caso éxito EMT Madrid- Enrique Diego OpenExpo Day 2015
PPTX
RISCOSS: Gestión del riesgo en proyectos open source (Open Expo Day2015)
PDF
Casos éxito con Woocommerce- OpenExpo Day
PDF
ReactOS: Una alternativa al OpenSource a Windows- OpenExpo Day 2015
PPTX
Construyendo apps sostenibles basadas en procesos- OpenExpo Day 2015
PDF
Cloud Wars- OpenExpo Day 2015
PDF
Taller de Contenidos E-learning: Claves y Consejos- OpenExpo Day 2015
PDF
Zimbra+Sugar CRM, la combinación perfecta- OpenExpo Day 2015
PDF
Taller de Angular JS: La solución tecnológica perfecta
PPTX
El software libre como una buena oportunidad para las grandes empresas- OpenE...
PDF
La gestión de Amnistía Internacional España con software libre- OpenExpo Day ...
DOCX
ESTRATEGIA DE RECUPERACIÓN DE INFORMACIÓN.
Uso tecnologías FLOSS en Save the Children- OpenExpo Day 2015
OpenStack: Retos y oportunidades- OpenExpo Day 2015
Tendencia actual en la búsqueda de perfiles de software libre- OpenExpo Day 2015
Marketing digital personalizado, multicanal…¡y al fin Open Source!- OpenExpo ...
Límites abiertos para la tecnología y la accesibilidad- OpenExpo Day 2015
Typo3: El CMS que vino del frío
Modelos y experiencias de innovación en marketing digital usando Open Source ...
Despliegue de aplicaciones OS en entornos Cloud Computing con Bitnami- OpenEx...
Caso éxito EMT Madrid- Enrique Diego OpenExpo Day 2015
RISCOSS: Gestión del riesgo en proyectos open source (Open Expo Day2015)
Casos éxito con Woocommerce- OpenExpo Day
ReactOS: Una alternativa al OpenSource a Windows- OpenExpo Day 2015
Construyendo apps sostenibles basadas en procesos- OpenExpo Day 2015
Cloud Wars- OpenExpo Day 2015
Taller de Contenidos E-learning: Claves y Consejos- OpenExpo Day 2015
Zimbra+Sugar CRM, la combinación perfecta- OpenExpo Day 2015
Taller de Angular JS: La solución tecnológica perfecta
El software libre como una buena oportunidad para las grandes empresas- OpenE...
La gestión de Amnistía Internacional España con software libre- OpenExpo Day ...
ESTRATEGIA DE RECUPERACIÓN DE INFORMACIÓN.
Publicidad

Similar a Practices: Deduplicación en el backup de datos- OpenExpo Day 2015 (20)

PDF
Complementando su infraestructura de datos con soluciones basadas en Deduplic...
PDF
02 deduplicación avamar
PPT
PPTX
i3 copiaPóngaselo fácil a los demás para encontrar sus archivoss.pptx
DOCX
Proyecto 4
PPTX
PDF
Practica 18
PDF
Nuevas tecnologías de backup sm&c consultors
PPTX
DOC
PDF
Proyecto 4 - Seguridad Pasiva: Almacenamiento
PDF
Almacenamiento y backup open source de rango empresarial - WhiteBearSolutions...
DOCX
Como utilizar el liberador de espacio en disco
PPTX
Salon 1 22 miercoles 5 6 arturo benavides
PPT
7 Db2 Backup Y Sistemas
PPTX
resguardo de informacion
PPT
4 tecnologias backup
PPTX
Respaldo De Informacion
DOCX
Equipo 3
PPTX
Cobaev 02 tempoal
Complementando su infraestructura de datos con soluciones basadas en Deduplic...
02 deduplicación avamar
i3 copiaPóngaselo fácil a los demás para encontrar sus archivoss.pptx
Proyecto 4
Practica 18
Nuevas tecnologías de backup sm&c consultors
Proyecto 4 - Seguridad Pasiva: Almacenamiento
Almacenamiento y backup open source de rango empresarial - WhiteBearSolutions...
Como utilizar el liberador de espacio en disco
Salon 1 22 miercoles 5 6 arturo benavides
7 Db2 Backup Y Sistemas
resguardo de informacion
4 tecnologias backup
Respaldo De Informacion
Equipo 3
Cobaev 02 tempoal
Publicidad

Más de OpenExpoES (12)

PDF
Cookies y Big Data. Cómo funciona la venta de datos de personas en la publici...
PDF
Las grandes tendencias en IoT y su encaje social
PDF
"Beneficios de usar WordPress como CMS", por Joan Artés en #OpenExpoBCN
PDF
"Mi CRM, mis clientes y yo, la historia de un amor correspondido", por Oscar ...
PDF
La integración del eCommerce en el negocio, por Isaac Bosch en #OpenExpoBCN
PDF
Cómo emprender en Madrid, por Javier Alonso del Ayuntamiento de Madrid
PDF
CartoDB Open Source Perks, por Raúl Ochoa de CartoDB
PDF
BQ: Construyendo nuevas herramientas para emprender, por Adán Muñoz, cofundad...
PDF
Herramientas open source útiles para todo emprendedor, por David Lastra, IT E...
PDF
Moodle 2.9: La plataforma e-learning más utilizada en el mundo- OpenExpo Day ...
PDF
Asterik, telefonía IP y ahorro de costes- OpenExpo Day 2015
PDF
Dossier OpenExpo Day 2015 v1.0.4
Cookies y Big Data. Cómo funciona la venta de datos de personas en la publici...
Las grandes tendencias en IoT y su encaje social
"Beneficios de usar WordPress como CMS", por Joan Artés en #OpenExpoBCN
"Mi CRM, mis clientes y yo, la historia de un amor correspondido", por Oscar ...
La integración del eCommerce en el negocio, por Isaac Bosch en #OpenExpoBCN
Cómo emprender en Madrid, por Javier Alonso del Ayuntamiento de Madrid
CartoDB Open Source Perks, por Raúl Ochoa de CartoDB
BQ: Construyendo nuevas herramientas para emprender, por Adán Muñoz, cofundad...
Herramientas open source útiles para todo emprendedor, por David Lastra, IT E...
Moodle 2.9: La plataforma e-learning más utilizada en el mundo- OpenExpo Day ...
Asterik, telefonía IP y ahorro de costes- OpenExpo Day 2015
Dossier OpenExpo Day 2015 v1.0.4

Último (20)

PPTX
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
PDF
SAP Transportation Management para LSP, TM140 Col18
PPTX
Presentación PASANTIAS AuditorioOO..pptx
PPTX
Sesion 1 de microsoft power point - Clase 1
PDF
PRESENTACIÓN GENERAL MIPIG - MODELO INTEGRADO DE PLANEACIÓN
PPTX
historia_web de la creacion de un navegador_presentacion.pptx
PPTX
RAP02 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
PDF
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
PPTX
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
PDF
CyberOps Associate - Cisco Networking Academy
PDF
MANUAL de recursos humanos para ODOO.pdf
PPTX
la-historia-de-la-medicina Edna Silva.pptx
PPTX
Presentación de Redes de Datos modelo osi
PDF
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
PDF
Diapositiva proyecto de vida, materia catedra
PPTX
RAP01 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
PPTX
COMO AYUDAN LAS TIC EN LA EDUCACION SUPERIOR.pptx
PDF
Influencia-del-uso-de-redes-sociales.pdf
PDF
clase auditoria informatica 2025.........
PPT
El-Gobierno-Electrónico-En-El-Estado-Bolivia
ANCASH-CRITERIOS DE EVALUACIÓN-FORMA-10-10 (2).pptx
SAP Transportation Management para LSP, TM140 Col18
Presentación PASANTIAS AuditorioOO..pptx
Sesion 1 de microsoft power point - Clase 1
PRESENTACIÓN GENERAL MIPIG - MODELO INTEGRADO DE PLANEACIÓN
historia_web de la creacion de un navegador_presentacion.pptx
RAP02 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
programa-de-estudios-2011-guc3ada-para-el-maestro-secundarias-tecnicas-tecnol...
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
CyberOps Associate - Cisco Networking Academy
MANUAL de recursos humanos para ODOO.pdf
la-historia-de-la-medicina Edna Silva.pptx
Presentación de Redes de Datos modelo osi
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
Diapositiva proyecto de vida, materia catedra
RAP01 - TECNICO SISTEMAS TELEINFORMATICOS.pptx
COMO AYUDAN LAS TIC EN LA EDUCACION SUPERIOR.pptx
Influencia-del-uso-de-redes-sociales.pdf
clase auditoria informatica 2025.........
El-Gobierno-Electrónico-En-El-Estado-Bolivia

Practices: Deduplicación en el backup de datos- OpenExpo Day 2015

  • 1. Deduplicación en el backup de datos OpenExpo Day 2015 16 de junio 2015 Martín Domínguez Fernández Responsable de Consultoría y Preventa en WhiteBearSolutions
  • 2. Objetivos del taller Entender qué es la deduplicación y porque se necesita… Entender qué opciones tecnológicas tenemos y cuál debemos elegir… Dimensionar correctamente un sistema de backup con deduplicación… Presentar alternativas Open y sus ventajas frente a las soluciones cerradas…
  • 4. El escenario... Las organizaciones almacenan gran cantidad de datos. El respaldo de los datos es necesario, pero es caro. Los datos siguen creciendo, entre un 50 – 60 % anual!! Se hace necesario recurrir a cintas para el almacenamiento de grandes cantidades de datos, pero.... Las cintas son lentas!! Las cintas fallan!! Las cintas ocupan espacio!!
  • 5. La deduplicación… La deduplicación es una tecnología que elimina los datos duplicados reduciendo considerablemente el tamaño de los datos almacenados. Se mantiene un listado de referencias a los bloques con datos No es compresión ni thin provisioning , pero tiene un poco de ambas y se puede combinar con ellas Reduce los costes de almacenamiento El backup es un candidato ideal!!
  • 6. Qué puede hacer por mi… Nuestra organización tiene 20TB de datos almacenados Mensualmente se crean 2TB de datos nuevos ¿Cuanto almacenamiento necesitamos? Sin deduplicación: tamaño = (datos almacenados + cambio semanal) x retención Con deduplicación: tamaño = (datos almacenados + cambio semanal) x retención 0 TB 50 TB 100 TB 150 TB Week 1 Week 2 Week 3 Week 4 Week 5 20 TB 22 TB 24 TB 26 TB 28 TB 20 TB 42 TB 66 TB 92 TB 120 TB with dedup without dedup Datos en 5 semanas de retención: Información única: 28TB Información duplicada: 92TB
  • 8. La unidad… A nivel de fichero: A nivel de software Mejor rendimiento general Falta de granularidad Peores ratios de deduplicación SOLUCIÓN: Dividir los ficheros en pequeñas partes: “chunks” A nivel de bloque: A nivel de filesystem Necesidad de más recursos Buenos ratios de dedupliación menor tamaño de bloque + ratio + recursos MEJORA: Bloque de tamaño variable
  • 9. 9 El momento… deduplicación off-line: no afecta al rendimiento R/W requiere espacio para alojar los datos antes de ser deduplicados requiere más I/O deduplicación in-line aporta el ahorro de espacio de forma instantánea puede afectar al rendimiento R/W Más trabajo en RAM, menos I/O
  • 10. 10 El lugar… en origen “source”: la carga está en el cliente su objetivo es enviar la mínima cantidad de datos, pero hay que tener cuidado con el proceso en destino “target” la carga está en el servidor permite deduplicar los datos de varios clientes, lo cual hace que se consigan mejores ratios
  • 11. 11 Qué elegir… (File-level + chunks) ≈ Block-level (in-line + recursos) > off-line ¿target vs source? Lo ideal sería contar con ambas tecnologías… Global data deduplication Deduplica en el origen Antes de enviar un bloque, comprueba si está en destino Deduplica entre varios clientes Maximiza el uso del ancho de banda Mejora los tiempos de restauración Reparte el trabajo entre clientes y servidor
  • 13. 13 Información clásica que recopilar… Datos de origen: conoce cuanta información vas a respaldar, eso te dará un punto de partida para dimensionar el sistema. Numero de copias a guardar: establece tu RPO y tu RTO para tus necesidades y define una retención. Incremento de datos por copia: te dará el dato definitivo de dimensionamiento teórico del sistema. 0 TB 50 TB 100 TB 150 TB Week 1 Week 2 Week 3 Week 4 Week 5 20 TB 42 TB 66 TB 92 TB 120 TB 20 TB 22 TB 24 TB 26 TB 28 TB with dedup without dedup Estimación para 5 semanas: Tamaño necesario: 28TB Con compresión (2:1): 14TB
  • 14. 14 ¿Es suficiente…? NO. Muchos sistemas de backup con deduplicación fracasan y las principales causas son dos: las tasas de deduplicación no son las esperadas y el almacenamiento dimensionado no es suficiente, haciéndonos invertir más dinero del esperado el rendimiento de la solución es muy bajo, tanto en backup como en restauración y hace que incumplamos nuestras ventanas
  • 15. 15 Cuál es el problema… La deduplicación no es gratis, tiene unos costes: Posibilidad de colisiones: corrupción de datos Uso intensivo de CPU: hashing, indexación… Uso de grandes cantidades de memoria: tablas de referencia a bloques Fragmentación de la información: bloques dispersos en disco Planificación de sistemas en función de los datasheets comerciales de los fabricantes: dimensionamiento erróneo
  • 16. 16 Conoce la tecnología… El hashing consume CPU Las tablas de índices consumen memoria Los sistemas de caché consumen memoria Los accesos a disco son lentos. Si algo no cabe en memoria, mejor en SSD El tamaño del bloque importa: Muy grande, baja deduplicación Muy pequeño, bajo rendimiento Opciones de bloque variable
  • 17. 17 El tipo de dato… ¿Qué deduplica bien? En general, conjuntos de datos que cambian poca información Directorios de usuarios, sistemas de log, Directorios de OS, sistemas de archivado… ¿Qué deduplica mal? Conjuntos de datos muy cambiantes, comprimidos o cifrados. BBDD relacionales, Datawharehouses / BI, Sistemas de correo maildir, Sistemas que comprimen o cifran datos… Backups incrementales A mayor numero de copias, mejor tasa de deduplicación Es importante es probar que los datos deduplican tal como esperamos
  • 19. 19 WBSAirback: ZFS on Linux... Es un appliance de backup que ofrece “target deduplication”. Integra Bacula Enterprise como motor de backup y su plugin “Aligned volumes” ZOL es un porting de ZFS de SUN para Linux Deduplica a nivel de bloque, de tamaño variable Ofrece deduplicación in-line y compresión LZ4 Utiliza un sistema de caché multinivel que hace que el rendimiento del sistema sea muy alto
  • 21. 21 Bacula Global Endpoint Dedup. Permite aplicación en origen y destino Trabaja con “chunks” de ficheros de tamaño variable Mantiene una tabla de hash por “chunk”, residente en SSD Utiliza sistemas de caché en memoria para más rápido acceso Implementa la funcionalidad “Client Rehydration” que permite utilizar los datos residentes en el cliente para no enviarlos de nuevo.