Glosario de EMC: Deduplicación de datos

Publicado: 22/02/2015 en Noticias TI

Deduplicación de datos

La deduplicación de datos busca la redundancia de secuencias de bytes en ventanas de comparación de gran tamaño. Las secuencias de datos (de más de 8 KB de longitud) se comparan con el historial de otras secuencias semejantes. Se hace referencia a la primera versión almacenada de forma exclusiva de una secuencia, en vez de almacenarla de nuevo. Este proceso queda completamente oculto para los usuarios y las aplicaciones, de modo que todo el archivo es legible después de su escritura.

¿Quién usa la deduplicación de datos, y por qué?

La deduplicación es ideal para operaciones de elevada redundancia como el respaldo, que necesita la copia y el almacenamiento repetidos del mismo conjunto de datos varias veces para fines de recuperación durante períodos de 30 a 90 días. Como resultado, empresas de todos los tamaños confían en la solución de respaldo y recuperación con deduplicación para que estos procesos sean rápidos, fiables y rentables.

¿Cómo funciona la deduplicación de datos?

La deduplicación de datos segmenta un flujo de datos entrante, identifica los segmentos de datos de manera exclusiva y, luego, los compara con los datos almacenados anteriormente. Si el segmento es único, se almacena en el disco. Sin embargo, si un segmento de datos entrante es un duplicado de uno ya almacenado, se crea una referencia a este y el segmento no se almacena nuevamente.

Por ejemplo, un archivo o un volumen del que se hace un respaldo todas las semanas crea una cantidad significativa de datos duplicados. Los algoritmos de deduplicación analizan los datos y almacenan solo los segmentos exclusivos comprimidos de un archivo. Este proceso puede reducir los requisitos de capacidad de almacenamiento en un promedio de 10 a 30 veces, en un contexto de políticas de retención de respaldo estándares para datos empresariales normales. Esto significa que las empresas pueden almacenar de 10 TB a 30 TB de datos de respaldo en 1 TB de capacidad física de disco, lo que proporciona enormes beneficios económicos.

Beneficios de la deduplicación de datos

La eliminación de los datos redundantes puede disminuir significativamente los requisitos de almacenamiento y mejorar la eficiencia del ancho de banda. Dado que el almacenamiento primario se ha abaratado con el tiempo, las empresas suelen almacenar muchas versiones de la misma información, de modo que los nuevos empleados puedan reutilizar el trabajo ya hecho. Algunas operaciones como el respaldo almacenan información extremadamente redundante.

La deduplicación reduce los costos de almacenamiento, ya que se necesitan menos discos. También mejora la recuperación de desastres porque hay muchos menos datos que transferir. Los datos de archivo y respaldo suelen incluir un montón de datos duplicados.

Los mismos datos se almacenan una y otra vez, lo cual consume espacio innecesario en disco o cinta, electricidad para la alimentación y la refrigeración de las unidades de disco o cinta, y ancho de banda para la replicación. Esto crea una cadena de ineficiencias de costos y recursos dentro de la organización.

Implementación de la deduplicación de datos

La facilidad con que se implementa la deduplicación puede variar significativamente de un proveedor a otro. Hemos facilitado mucho la implementación de sistemas EMC Data Domain al crear un sistema de almacenamiento con deduplicación independiente de aplicaciones, que se puede conectar como servidor de archivos a través de Ethernet, librería de cintas virtuales (VTL) a través de Fibre Channel, o bien a través de integración avanzada con EMC Data Domain Boost.

Los sistemas Data Domain admiten aplicaciones de respaldo y archivo líderes, y la deduplicación es transparente para los procesos de respaldo y archiving. Se integra fácilmente con varios data movers y cargas de trabajo, incluidos datos no respaldados como el correo electrónico o el archivo de archivos. Más flexibilidad implica que es posible una mayor consolidación usando menos infraestructura física.

Al seleccionar una solución de deduplicación, es fundamental garantizar la facilidad de la integración en el ambiente existente, obtener referencias del cliente en su sector y realizar una prueba piloto del producto o de la tecnología en su ambiente.

Glosario de EMC.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s