EMC deduplikace Data Domain a Avamar Petr Rada

  • Slides: 42
Download presentation
EMC deduplikace Data Domain a Avamar Petr Rada Technický konzultant, EMC © Copyright 2010

EMC deduplikace Data Domain a Avamar Petr Rada Technický konzultant, EMC © Copyright 2010 EMC Corporation. All rights reserved. 1

Odhaduje se, že 40 exabajtů unikátních nových informací vzniklo loni na celém světě

Odhaduje se, že 40 exabajtů unikátních nových informací vzniklo loni na celém světě

To je více než za předchozích 5 000 let

To je více než za předchozích 5 000 let

Digitální Svět: 2009 Vznik nových informací: Jediný růstový koeficient, který není v době ekonomické

Digitální Svět: 2009 Vznik nových informací: Jediný růstový koeficient, který není v době ekonomické krize negativní Digitální Svět zdvojnásobuje objem každých 18 měsíců Source: IDC Digital Universe White Paper, Sponsored by EMC, May 2009 © Copyright 2010 EMC Corporation. All rights reserved. 4

Exploze Digitálního Vesmíru Exabajty 2, 500 5 2, 502 Exabajty x nárůst za 4

Exploze Digitálního Vesmíru Exabajty 2, 500 5 2, 502 Exabajty x nárůst za 4 DVD 2, 000 RFID Digital TV MP 3 players 1, 500 Digital cameras Camera phones, Vo. IP Medical imaging, Laptops, 1, 000 Data center applications, Games 486 Exabajtů Satellite images, GPS, ATMs, Scanners Sensors, Digital radio, DLP theaters, Telematics 500 Peer-to-peer, Email, Instant messaging, Videoconferencing, CAD/CAM, Toys, Industrial machines, Security systems, Appliances 0 2008 2009 roky 2010 2011 2012 Source: IDC Digital Universe White Paper, Sponsored by EMC, May 2009 © Copyright 2010 EMC Corporation. All rights reserved. 5

Digitální Svět – charakter dat Úložiště podle typu dat (Petabajty) 50, 000 Strukturovaná &

Digitální Svět – charakter dat Úložiště podle typu dat (Petabajty) 50, 000 Strukturovaná & Replikovaná 40, 000 Nestrukturovaná 30, 000 20, 000 10, 000 0 2005 2006 2007 2008 2009 2010 2011 2012 Source: IDC Digital Universe White Paper, Sponsored by EMC, May 2009 © Copyright 2010 EMC Corporation. All rights reserved. 6

Digitální svět v roce 2012 Paradox zodpovědnosti 70% Bude vytvořeno jednotlivci 85% Organizace budou

Digitální svět v roce 2012 Paradox zodpovědnosti 70% Bude vytvořeno jednotlivci 85% Organizace budou zodpovědné za zabezpečení, ochranu soukr. údajů, soulad s legislativou a předpisy, důvěryhodnost … Source: IDC Digital Universe White Paper, Sponsored by EMC, May 2009 © Copyright 2010 EMC Corporation. All rights reserved. 7

Zálohování pod lupou palčivé výzvy zálohování – obrovský nárůst zálohovaných dat – primární data

Zálohování pod lupou palčivé výzvy zálohování – obrovský nárůst zálohovaných dat – primární data se zálohují 15 -20 x – dodržení doby zálohy/obnovy (SLA) – spotřeba energie, chlazení a zaplnění serverovny – nákladný a nebezpečný transport pásek mimo datové centrum – výzvy spojené s páskami § § § spolehlivost manipulační náročnost mechanická poškození delší časy obnovy technologické upgrady © Copyright 2010 EMC Corporation. All rights reserved. 8

Zálohovací schéma = potřebná kapacita Primární data 1 x Záložní data 15 x-20 x

Zálohovací schéma = potřebná kapacita Primární data 1 x Záložní data 15 x-20 x © Copyright 2010 EMC Corporation. All rights reserved. 9

Řešení? DEDUPLIKACE

Řešení? DEDUPLIKACE

Deduplikace. Je to zázrak? . . . a potom nastane zázrak. . . Zákazník

Deduplikace. Je to zázrak? . . . a potom nastane zázrak. . . Zákazník EMC konzultant Myslím, že by jste měl být více konkrétní zde, v kroku dva. © Copyright 2010 EMC Corporation. All rights reserved. 11

Hlavní typy deduplikace Typy deduplikace dle různých kritérií SOUBOROVÁ SUB-SOUBOROVÁ FIXNÍ DÉLKA BLOKU VARIABILNÍ

Hlavní typy deduplikace Typy deduplikace dle různých kritérií SOUBOROVÁ SUB-SOUBOROVÁ FIXNÍ DÉLKA BLOKU VARIABILNÍ DÉLKA BLOKU POST-PROCES INLINE NA ZDROJI NA CÍLI © Copyright 2010 EMC Corporation. All rights reserved. 12

Storage 3. 0 – další krok PRIMÁRNÍ Storage 2. 0 PRIMÁRNÍ Storage 3. 0

Storage 3. 0 – další krok PRIMÁRNÍ Storage 2. 0 PRIMÁRNÍ Storage 3. 0 PRIMÁRNÍ © Copyright 2010 EMC Corporation. All rights reserved. PÁSKY SATA & RAID PÁSKY DEDUPLIKOVANÁ STORAGE Logická data Fyzická data PÁSKY Storage 1. 0 13

Deduplikace mění zálohovací paradigma Data Domain Avamar Deduplikační storage Deduplikační zálohovací řešení Deduplikace bez

Deduplikace mění zálohovací paradigma Data Domain Avamar Deduplikační storage Deduplikační zálohovací řešení Deduplikace bez nutnosti cokoliv měnit Nikdy nezálohuje stejná data dvakrát © Copyright 2010 EMC Corporation. All rights reserved. 14

Data Domain - profil společnosti založena v roce 2001 vize deduplikované storage od samého

Data Domain - profil společnosti založena v roce 2001 vize deduplikované storage od samého začátku 900 zaměstnanců součást EMC BRS divize nejrychleji rostoucí storage společnost v roce 2004 © Copyright 2010 EMC Corporation. All rights reserved. 15

Data Domain - lídr v deduplikaci Deduplikační storage systémy Data Domain první a nejvíce

Data Domain - lídr v deduplikaci Deduplikační storage systémy Data Domain první a nejvíce rozšířený deduplikační systém 9500 systémů instalováno celosvětově 3600 koncových uživatelů > 1650 petabajtů dat je bezpečně uloženo na Data Domain řešení čtvrté generace průměrný deduplikační poměr dosažený celosvětově - 13, 4: 1 2003 Dedupe NAS 2004 2005 2006 2007 2008 Dedupe Gateway Dedupe Replikace Největší dedupe pole Dedupe VTL © Copyright 2010 EMC Corporation. All rights reserved. 2009 Nejrychlejší Inline Kontroller Dedupe Nearline Storage 16

Deduplikační poměr aneb kolik kapacity ušetřím? Deduplikační poměr • kapacita všech záloh uložených na

Deduplikační poměr aneb kolik kapacity ušetřím? Deduplikační poměr • kapacita všech záloh uložených na zálohovací storage vůči kapacitě skutečně obsazené deduplikační poměr % ušetřené kapacity 2: 1 50 % 5: 1 80 % 10 : 1 90 % 13, 4 : 1 92, 5 % 15 : 1 93 % 20 : 1 95 % 25 : 1 96 % ušetřená kapacita v % = 100 -(100/x), kde x=deduplikační poměr © Copyright 2010 EMC Corporation. All rights reserved. 17

Reálný zákazník: 20 ti násobné snížení kapacity DD 560 180 TB uloženo 8 TB

Reálný zákazník: 20 ti násobné snížení kapacity DD 560 180 TB uloženo 8 TB využité kapacity 20 x redukce 5 ti měsíční retence 6 U v racku replikace mimo lokalitu červená linka = množství dat uložených v Data Domain (virtuální storage) zelená linka = obsazená kapacita (fyzická storage) modrá linka = kumulovaný deduplikační faktor © Copyright 2010 EMC Corporation. All rights reserved. 18

Data Domain storage systémy DD 610 -DD 660 Series DD 690 DD 880 DD

Data Domain storage systémy DD 610 -DD 660 Series DD 690 DD 880 DD 140 pro vzdálené pobočky DDX Array Series DD 140 DD 610 DD 630 DD 660 DD 690 DD 880 Rychlost (GB/hod. ) 450 6751 1. 1 TB/hr 1 2 TB/hr 2 2. 7 TB/hr 2 5. 4 TB/hr 2 Logická kap. (TB)* 17 75 165 520 710 1420 Hrubá kap. (TB) 1. 5 6 12 36 48 96 Použitelná kap. (TB) . 86 3. 98 8. 4 26. 1 35. 3 71 *Logická kapacita je počítána pro deduplikační poměr 20: 1 1) maximální propustnosti bylo dosaženo VTL protokolem přes 4 Gbps FC porty 2) maximální propustnosti bylo dosaženo OST protokolem přes 10 Gb Ethernet porty © Copyright 2010 EMC Corporation. All rights reserved. 19

Data Domain architektura a nasazení Ethernet NIC (1/10 Gb. E) CIFS NFS OST REPL

Data Domain architektura a nasazení Ethernet NIC (1/10 Gb. E) CIFS NFS OST REPL FC HBA Použijte interface, který vám vyhovuje nebo oba zároveň VTL Použijte protokol, který vám vyhovuje nebo je zkombinujte CPU a Paměť DD OS a File. System disk disk © Copyright 2010 EMC Corporation. All rights reserved. Inline deduplikace, komprese a prefetching Datové kontajney uloženy v optimalizovaném dedikovaném filesystému Mohou být interní SATA nebo LUNy externí SAN storage 20

Infrastruktura a ekosystém s Data Domain Záloha VMware Microsoft Share. Point Oracle SAP Archiv

Infrastruktura a ekosystém s Data Domain Záloha VMware Microsoft Share. Point Oracle SAP Archiv NAS, SAN, DAS CA HP Vizioncore Primární storage Laser. Vault Luminex Archivační aplikace Zálohovací aplikace EMC Symantec Comm. Vault midrange a mainframe partneři IBM Tivoli Atempo Bakbone Symantec Comm. Vault F 5 síť Replikace přes WAN EMC Mimosa Disaster Recovery File System / Ethernet VTL / Fibre Channel EMC Data Domain deduplikační storage © Copyright 2010 EMC Corporation. All rights reserved. 21

Data Domain deduplikace – DD OS deduplikace na cíli - SATA disky s RAID

Data Domain deduplikace – DD OS deduplikace na cíli - SATA disky s RAID 6 ochranou sub-souborová deduplikace s variabilní délkou bloku Generate Checksum Verify Data File System - velikost segmentu 4 – 12 KB inline deduplikace - 99 % duplicitních segmentů je identifikováno v RAM CPU centric deduplikace Global Compression Local Compression RAID - zvýšením výkonu procesoru se navyšuje rychlost deduplikace © Copyright 2010 EMC Corporation. All rights reserved. 22

Deduplikovaná replikace - minimalizuje nároky na přenosové linky Lokalita A 200 GB 10 TB

Deduplikovaná replikace - minimalizuje nároky na přenosové linky Lokalita A 200 GB 10 TB Zálohovací Server A Lokalita B Zdroj 200 GB zápisů 10 TB Replika 200 GB zápisů 10 TB 10 TB Zálohovací Server B 10 TB 10 TB • jsou přenášeny pouze unikátní segmenty a metadata • všechny zálohy jsou dostupné v obou lokalitách pro obnovu či jako kopie • žádný management na denní bázi nebo transport pásek © Copyright 2010 EMC Corporation. All rights reserved. 23

Využití Data Domain deduplikované storage funkční deduplikace Lokální záloha ZÁLOHOVACÍ SERVERY DEDUPLIKOVANÁ IP REPLIKACE

Využití Data Domain deduplikované storage funkční deduplikace Lokální záloha ZÁLOHOVACÍ SERVERY DEDUPLIKOVANÁ IP REPLIKACE snadná integrace se stávajícím zálohovacím sw deduplikovaná replikace do vzdálené lokality (DR) CPU centric deduplikace ARCHIVAČNÍ SERVERY Disaster Recovery APLIKAČNÍ SERVERY © Copyright 2010 EMC Corporation. All rights reserved. 24

Někteří zákazníci s Data Domain © Copyright 2010 EMC Corporation. All rights reserved. 25

Někteří zákazníci s Data Domain © Copyright 2010 EMC Corporation. All rights reserved. 25

www. dedupecalculator. com © Copyright 2010 EMC Corporation. All rights reserved. 26

www. dedupecalculator. com © Copyright 2010 EMC Corporation. All rights reserved. 26

EMC Avamar AVAMAR SOFTWARE Možnost instalace na předepsané typy serverů AVAMAR DATA STORE Zálohovací

EMC Avamar AVAMAR SOFTWARE Možnost instalace na předepsané typy serverů AVAMAR DATA STORE Zálohovací zařízení včetně software/hardware AVAMAR VIRTUAL EDITION pro VMware Avamar VM Operating System Avamar server implementovaný jako virtuální stroj © Copyright 2010 EMC Corporation. All rights reserved. Zálohovací řešení s globální deduplikací na zdroji redukuje velikost zálohy na zdroji, dříve než je přenesena po síti rychleji vytváří plné zálohy při využití stávající infrastruktury deduplikuje napříč servery a lokalitami a zmenšuje až 50 x fyzickou velikost záložní storage ideální pro zálohování virtualizovaných prostředí, vzdálených poboček, serverů i uživatelských stanic/laptopů řeší problémy, na které konvenční zálohovací sw nestačí 27

Avamar základní přehled Avamar je kompletní zálohovací software/hardware Každá záloha je logická plná záloha

Avamar základní přehled Avamar je kompletní zálohovací software/hardware Každá záloha je logická plná záloha Avamar Server Parita napříč storage nody Verifikované checkpointy – při Avamar záloze se přenáší mnohem méně dat než při inkrementální záloze nicméně se logicky jeví jako plná záloha a obnova je pouze jednokroková Redundant Array of Independent Nodes (RAIN) architektura – každý node obsahuje interní disky a CPU – zaručuje vysokou dostupnost a ochranu proti chybě napříč nody Utility a spare node Gridová architektura zaručuje online škálovatelnost a výkonnost © Copyright 2010 EMC Corporation. All rights reserved. 28

Zálohovací cyklus: Sticky-byte Factoring První záloha: data jsou rozdělena na segmenty s proměnnou délkou

Zálohovací cyklus: Sticky-byte Factoring První záloha: data jsou rozdělena na segmenty s proměnnou délkou Sticky Byte Factoring Algorithm 18 K 10 K 25 K 22 K 8 K Následující záloha beze změn v souboru: segmenty jsou rozděleny identicky jako při předešlé záloze Sticky Byte Factoring Algorithm 18 K 10 K 25 K 22 K 8 K Další záloha po změně v souboru: velice rychle jsou segmenty v synchronizaci s předešlými Sticky Byte Factoring Algorithm © Copyright 2010 EMC Corporation. All rights reserved. 20 K 8 K 25 K 22 K 8 K 29

Zálohovací cyklus: komprimace Komprimuje segmenty v rozsahu 30 až 70 %. Průměrná velikost segmentu

Zálohovací cyklus: komprimace Komprimuje segmenty v rozsahu 30 až 70 %. Průměrná velikost segmentu po kompresi je ~12 KB. Sticky Byte Factoring Algorithm 20 K 8 K 25 K 22 K 8 K Compression 12 K 4 K 15 K 13 K 4 K © Copyright 2010 EMC Corporation. All rights reserved. 30

Zálohovací cyklus: SHA-1 Hashing používá SHA-1 secure hash algoritmus vytváří 20 -bytový datový řetězec

Zálohovací cyklus: SHA-1 Hashing používá SHA-1 secure hash algoritmus vytváří 20 -bytový datový řetězec z komprimovaných datových segmentů Sticky Byte Factoring Algorithm 20 K 8 K 25 K 22 K 8 K Compression 12 K 4 K 15 K 13 K 4 K 20 -bytehash Hashing atomic hashes © Copyright 2010 EMC Corporation. All rights reserved. 31

Zálohovací cyklus: Hash File System 4 K 15 K 13 K Atomic Hashes 20

Zálohovací cyklus: Hash File System 4 K 15 K 13 K Atomic Hashes 20 -byte hash 20 -byte hash 20 -byte hash 32 © Copyright 2010 EMC Corporation. All rights reserved. 20 -byte hash Composite Hashes 20 -byte hash 12 K 4 K Atomics (Data segments) Root Hash

Dosahované deduplikační poměry Typ dat Množství primárních dat Množství přenesených dat Dedup. poměr na

Dosahované deduplikační poměry Typ dat Množství primárních dat Množství přenesených dat Dedup. poměr na “cíli” Windows file systémy 3, 573 GB 6. 1 GB (586: 1) 45: 1 Mix Windows, Linux a UNIX file systémů 5, 097 GB 11. 7 GB 40: 1 Engineering soubory na NAS zařízeních (NDMP zálohy) 3, 265 GB 24. 2 GB 21: 1 Mix 20 % databáze a 80 % souborové systémy (Windows a UNIX) 9, 583 GB 80. 0 GB 19: 1 Mix Linuxových file systémů a databází 7, 831 GB 104. 2 GB 14: 1 © Copyright 2010 EMC Corporation. All rights reserved. 90 denní retence 33

Avamar – záloha VMDK souboru Záloha VMDK souboru s Windows XP o velikosti 33,

Avamar – záloha VMDK souboru Záloha VMDK souboru s Windows XP o velikosti 33, 7 GB Popis zálohy % nových dat inkrement zálohovaných dat První záloha 60. 60% 20. 42 GB Druhá záloha beze změny souboru VMDK 0. 00% 0. 00 MB Třetí záloha po spuštění a ukončení činnosti s VM <0, 05% 17. 25 MB Čtvrtá záloha - změněny dva PPT soubory o velikosti 10 MB celkem v rámci VM <0, 05% 17. 25 MB 10 MB Pátá záloha - nakopírován soubor 356 MB a nainstalován sw o velikosti 354 MB do VM 2. 50% 863 MB 710 MB © Copyright 2010 EMC Corporation. All rights reserved. inkrement v rámci VM 34

Avamar – různé způsoby nasazení Větší pobočka Menší pobočka Primární systémy (ENCRYPTED) Avamar Single

Avamar – různé způsoby nasazení Větší pobočka Menší pobočka Primární systémy (ENCRYPTED) Avamar Single Node Data centrum WAN Primární systémy Pouze Avamar agenti na primárních systémech Záložní lokalita Primární systémy (ENCRYPTED) Avamar Data Store Tape Vault Avamar Software Agent © Copyright 2010 EMC Corporation. All rights reserved. Avamar Data Store 35

Avamar optimalizuje zálohování VMware až 95% redukce přenesených dat až 90% zkrácení zálohovacích časů

Avamar optimalizuje zálohování VMware až 95% redukce přenesených dat až 90% zkrácení zálohovacích časů Tradičně se přenáší ~200% týdně Application Operating System až 50% snížení zátěže na zdrojových discích VMware Virtualization Layer x 86 Architecture až 95% redukce využití NIC až 80% redukce zatížení CPU až 50% snížení využití paměti všechny zálohy jsou uchovávány jako „virtuální plné zálohy“ a jdou okamžitě obnovit CPU Disk Avamar přenáší ~2% týdně App OS App OS App OS VMware Virtualization Layer x 86 Architecture CPU © Copyright 2010 EMC Corporation. All rights reserved. NIC Memory NIC Disk 36

Tradiční zálohování vs Avamar - při zátěži Avamar dovoluje regulovat vytížení CPU per klient

Tradiční zálohování vs Avamar - při zátěži Avamar dovoluje regulovat vytížení CPU per klient pro zákazníky, kteří jsou citliví na CPU utilizaci © Copyright 2010 EMC Corporation. All rights reserved. 37

Avamar deduplikovaná replikace pro DR Bez deduplikace S využitím deduplikace nulová redukce kapacity v

Avamar deduplikovaná replikace pro DR Bez deduplikace S využitím deduplikace nulová redukce kapacity v data centru redukované požadavky na kapacitu v primárním data centru nezkrácená délka replikace a vysoké zatížení sítě vysoké nároky na kapacitu i ve vzdálené lokalitě Vzdálená replikace bez deduplikace zkrácení délky replikace a nároků na síť snížené nároky na kapacitu v cílové pobočce Replikace po deduplikaci Backup de-duplication Primární lokalita © Copyright 2010 EMC Corporation. All rights reserved. Vzdálená lokalita Primární lokalita Vzdálená lokalita 38

Deduplikace na zdroji vs na cíli Obě technologie mají své opodstatnění, nicméně pouze deduplikace

Deduplikace na zdroji vs na cíli Obě technologie mají své opodstatnění, nicméně pouze deduplikace na zdroji pomáhá redukovat zatížení sítě a snižuje zatížení zdrojů v průběhu zálohování. DEDUPLIKACE NA CÍLI DEDUPLIKACE NA ZDROJI Přenáší týdně ~ 200 procent primárních dat Přenáší týdně ~ 2 procenta primárních dat Až 50 x menší úložný prostor pro zálohy Obnova tradičně probíhá z inkrementálních a plných záloh Až 500 x menší zatížení sítě Až 10 x rychlejší denní plné zálohy Všechny zálohy jsou plné zálohy; okamžitá obnova v jednom kroku síť © Copyright 2010 EMC Corporation. All rights reserved. síť 39

Licencování Data Domain a Avamar Data Domain dle modelu a využitelné kapacity žádné tirované

Licencování Data Domain a Avamar Data Domain dle modelu a využitelné kapacity žádné tirované licence dle kapacity licence na celý box pro replikace retenční zámek pro archivní data zprovoznění Open. Storage protokolu Avamar pouze podle využitelné fyzické kapacity neplatí se za: klienty – servery/desktopy aplikační moduly apod. zprovoznění VTL protokolu © Copyright 2010 EMC Corporation. All rights reserved. 40

Deduplikace mění zálohovací paradigma Data Domain Avamar Deduplikační storage Deduplikační zálohovací řešení Deduplikace bez

Deduplikace mění zálohovací paradigma Data Domain Avamar Deduplikační storage Deduplikační zálohovací řešení Deduplikace bez nutnosti cokoliv měnit Nikdy nezálohuje stejná data dvakrát © Copyright 2010 EMC Corporation. All rights reserved. 41