MI Macro Impact SANsibly Crafted Macro Impact www
MI Macro. Impact SANsibly Crafted Macro. Impact www. macroimpact. com SANique Fail. Watch A High Availability Cluster Solution Intelligent SAN & Cluster Solutions June, 2008 MI Macro. Impact SANsibly Crafted www. macroimpact. com © 2008, Macro. Impact, Inc. All rights reserved.
High Availability (HA) 구성 www. macroimpact. com LAN LAN Down AS AS Down AS 1 HA Active/Standby Down AS 1 AS 2 Up AS 1 HA Up HA HA N to 1 (DAS 기반) 1 st Standby Down AS 2 AS 1 HA HA Active/Active LAN AS 2 Up AS 1 HA Down AS 1 AS 2 Up HA Fixed Standby Node LAN Down AS 2 AS 1 AS 2 AS 3 HA HA Up AS 3 AS 4 AS 5 AS 6 AS 4 HA HA 2 nd Standby 3 rd Standby N + 1 (SAN 기반) : Failover Path N to N (SAN 기반) : Failback Path AS : Application Service © 2006, Macro. Impact, Inc. All rights reserved. HA : HA Software 3
Split Brain 장애 상황 복구 지원 www. macroimpact. com • SANique Fail. Watch는 DAS 기반 클러스터 및 SAN 기반 클러스터 구성을 모두 지원합니다. • SANique Fail. Watch는 클러스터 내 모든 서버 노드들이 물리적으로 공유할 수 있는 저장장치가 제공될 경우 공유된 quorum partition을 통해 네트워크의 부분 장애로 인한 split brain 상황에 효과적으로 대처할 수 있습니다. SANique Fail. Watch는 Split brain 상황이 발생할 경우 클러스 터 내 모든 서버 노드에서 quorum partition을 통해 정해진 sequence에 의한 통신을 시도함으 로써 다른 서버 노드의 상태를 파악하며, 상호 협의 과정을 통해 전체 클러스터 시스템을 가장 효 율적으로 운영할 수 있는 서버 노드 그룹을 제외한 모든 서버 노드들이 자발적으로 스스로를 shutdown 시킴으로써 서비스 자원의 충돌 및 중복 사용이 없는 상태에서 서비스를 지속할 수 있도록 동작합니다. LAN AS 1 AS 2 Shutdown AS N AS 2 AS 1 Shutdown AS N AS 1 Shutdown AS 2 SFW SFW Lose Win AS 1 AS 2 Shutdown AS 1 SFW Node 1 Node 2 Node N AS N SFW Node N Node 2 SAN Switch 1 Allwinner loser Data quorum Shared Disk DAS 기반 SANique Fail. Watch Cluster System : Heartbeat Signal : Failover Path AS : Split Service SAN 기반 SANique Fail. Watch Cluster System AS © 2006, Macro. Impact, Inc. All rights reserved. : Application Service SFW : SANique Fail. Watch 6
개별 Service Failover 지원 www. macroimpact. com • SANique Fail. Watch는 개별적인 어플리케이션 서비스 failover를 지원합니다. 즉, 서버 노드 내 특정 어플리케이션이 해당 어플리케이션에 종속적인 자원의 장애로 인하여 동작하지 않을 경우 해당 서버 내 다른 서비스와 별개로 해당 서비스만 미리 설정된 정책에 따라 다른 서버 노 드로 failover 시켜줍니다. • SANique Fail. Watch는 다중 네트워크 인터페이스를 지원합니다. 다수의 네트워크 인터페이스 들은 개별적인 IP를 가지고 동작하거나 혹은 단일 가상 IP 상에서 내부적으로 결합되어 동작할 수 있습니다. N-Way Multiple Network I/F Support LAN … … … AS N AS 1 AS 3 AS 2 SFW Node 1 Node 2 … SFW Node N … … AS 1 AS 3 AS 2 SFW Node 1 AS N SFW Node N Node 2 SAN Switch 1 Fine-Grain Service Failover Data quorum Shared Disk DAS 기반 SANique Fail. Watch Cluster System : HB ch. : Service ch. : Heartbeat Signal SAN 기반 SANique Fail. Watch Cluster System : Failover Path © 2006, Macro. Impact, Inc. All rights reserved. AS : Application Service SFW : SANique Fail. Watch 7
연속(Cascading) 장애 Service Failover 지원 www. macroimpact. com • SANique Fail. Watch는 연속적인 자원 장애에 대한 서비스 failover를 지원합니다. • SANique Fail. Watch는 특정 자원의 장애로 인하여 서비스가 중단될 경우 미리 정해진 정책에 따른 failover를 수행합니다. 서비스 failover가 진행 중인 상태에서 2차 장애가 발생할 경우 SANique Fail. Watch는 1차 장애에 대한 failover 과정을 중단하고 1차 및 2차 장애에 대한 서 비스 failover 과정을 동시에 다시 수행하게 되며, 이러한 중복 서비스 failover 과정은 활용 가 능한 자원이 고갈될 때까지 계속 수행됩니다. 따라서, SANique Fail. Watch는 활용 가능한 자 원이 존재하는 한 무정지 서비스를 보장해 줍니다. LAN Cascading Service Failover Down AS 1 Down 1 SFW Node 1 AS N AS 2 AS 1 SFW 2 AS 2 Node N SAN Switch 2 SAN Switch 1 Data quorum Shared Disk SAN 기반 SANique Fail. Watch Cluster System : Heartbeat Signal : Failover Path AS : Application Service © 2006, Macro. Impact, Inc. All rights reserved. SFW : SANique Fail. Watch 8
노드 내 (Intra-Node) Service Failover 지원 www. macroimpact. com • SANique Fail. Watch는 노드 내 서비스 failover를 지원합니다. • 서버 노드가 정상적으로 동작하는 상황에서 해당 서버 노드의 특정 어플리케이션 서비스가 중 단될 경우 SANique Fail. Watch는 해당 어플리케이션 서비스를 다른 서버 노드로 failover 시 키기 전에 해당 서버 노드 내에서 어플리케이션 서비스의 재기동을 시도하게 됩니다. • SANique Fail. Watch는 해당 어플리케이션 서비스의 중단 원인이 영구적이라고 판단될 경우 미리 설정된 정책에 따라 서버 간 (inter-node) failover 과정을 수행하게 됩니다. LAN 1 AS 1 Intra-node Service Failover 2 AS N AS 1 SFW SFW Node 1 Node N Node 2 SAN Switch 1 Data quorum Shared Disk SAN 기반 SANique Fail. Watch Cluster System : Heartbeat Signal : Failover Path AS : Application Service © 2006, Macro. Impact, Inc. All rights reserved. SFW : SANique Fail. Watch 9
자동 Service 복귀 선택적 지원 www. macroimpact. com • SANique Fail. Watch는 자동 서비스 복귀 기능을 선택적으로 지원합니다. • SANique Fail. Watch는 서버 장애가 발생할 경우 해당 서버 노드에서 제공하던 어플리케이션 서비스 그룹을 미리 설정된 다른 서버 노드로 절체시키게 됩니다. 자동 복귀 기능이 활성화된 경우 SANique Fail. Watch는 해당 서버 노드가 다시 기동됨과 동시에 절체되었던 서비스 그룹 을 원래의 서버 노드로 자동 복귀시켜 줍니다. • 그러나 이러한 자동 서비스 복귀 기능은 영구적인 부분 자원 장애와 같은 상황에서는 많은 위 험성을 동반하므로 신중한 검토를 거쳐 선택적으로 사용하기를 권장합니다. LAN Service Failover LAN Automatic Service Failback Down AS 1 AS 2 AS N AS 1 SFW Node 1 AS 1 Failed Node up Node 2 SFW Node N SAN Switch 2 SAN Switch 1 AS N AS 1 SFW AS 2 Node 1 SFW Node 2 SAN Switch 1 Data Node N Data quorum Shared Disk SAN 기반 SANique Fail. Watch Cluster System : Heartbeat Signal : Failover Path AS : Application Service © 2006, Macro. Impact, Inc. All rights reserved. SFW : SANique Fail. Watch 10
자동 Service 기동 선택적 지원 www. macroimpact. com • SANique Fail. Watch는 설정된 어플리케이션 서비스를 SANique Fail. Watch 기동 시 자동적으 로 기동시킬 수 있는 자동 기동 기능을 선택적으로 지원합니다. • 어플리케이션 서비스 그룹이 설정되어 있을 경우 SANique Fail. Watch의 기동만으로 설정된 모든 서비스를 자동적으로 기동시킬 수 있습니다. 만일 SANique Fail. Watch의 기동이 시스템 의 boot-up script에 등록되어 있을 경우 시스템의 기동과 함께 모든 어플리케이션 서비스가 기동될 수 있습니다. LAN Automatic Service Launching AS 1 AS 2 AS N SFW SFW Node 1 Node 2 Node N SAN Switch 2 SAN Switch 1 Data quorum Shared Disk SAN 기반 SANique Fail. Watch Cluster System : Heartbeat Signal : Failover Path AS : Application Service © 2006, Macro. Impact, Inc. All rights reserved. SFW : SANique Fail. Watch 11
동적(Dynamic) 시스템 재구성 지원 www. macroimpact. com • SANique Fail. Watch는 온라인 상태에서 클러스터 시스템 및 서비스의 동적 재구성을 지원합 니다. • SANique Fail. Watch는 어플리케이션 서비스를 온라인 상태에서 수동으로 다른 서버 노드로 절체시킬 수 있으며, 멤버 서버 노드를 클러스터에서 제거하거나 혹은 신규 서버 노드를 클러 스터에 추가하는 작업을 온라인 상태에서 동적으로 지원합니다. LAN AS 1 Dynamic manual service switch over and node removal Dynamic Reconfiguration AS 2 AS N+1 SFW Dynamic node addition and a new service definition AS 1 SFW Node 1 Node N Node 2 Node N+1 SAN Switch 2 SAN Switch 1 Data quorum Shared Disk SAN 기반 SANique Fail. Watch Cluster System : Heartbeat Signal : Failover Path AS : Application Service © 2006, Macro. Impact, Inc. All rights reserved. SFW : SANique Fail. Watch 12
신속하고 안정적인 Application Service Failover www. macroimpact. com • SANique Fail. Watch는 자체적으로도 여러 상용 제품 중 가장 신속한 application failover를 보장합 니다. • SANique Fail. Watch는 특히 SANique Data Sharing 솔루션(CFS + CVM)과 연동될 경우 failover 과정에서 zoning 변경 및 볼륨 mounting 등과 같은 작업이 필요 하지 않기 때문에 더욱 신속한 application service failover를 보장합니다. SANique Data Sharing 솔루션과 연동된 SANique Fail. Watch의 failover 과정은 단순히 필요한 서비스 자원(IP 등)의 재할당으로 이루어집니다. • Failover 과정에서 동적으로 수행되는 zoning 변 LAN N-way Service Failover 경 및 볼륨 mounting 작업은 매우 위험한 작업이 며, 따라서 해당 작업의 실패가 전체 failover 과정 AS N AS 1 AS 2 의 실패를 초래하는 경우가 발생할 수 있습니다. 통 계적으로 파일공유가 제공되지 않는 상태에서의 SFW SFW SCDS application failover는 10% 정도의 높은 실패 확 Node 1 SCDS Node 2 Node N 률을 보이고 있습니다. SANique Data Sharing 솔 SAN Switch 2 SAN Switch 1 루션과 연동된 SANique Fail. Watch에 의한 Data application service failover 과정에서는 zoning quorum Shared Data 변경 및 볼륨 mounting 작업이 생략되기 때문에 SAN 기반 SANique Fail. Watch Cluster System 시간적으로 신속할 뿐 아니라 failover 과정의 성공 적인 완료가 100% 보장됩니다. : Heartbeat Signal : Fibre channel AS : Application Service SCDS : SANique Cluster Data Sharing © 2006, Macro. Impact, Inc. All rights reserved. SFW : SANique Fail. Watch 14
SANique Fail. Watch 주요 기능 요약 www. macroimpact. com Split Brain Resolution 지 원 N-way High Availability Cluster Server Farm 지원 Optional Automatic Service Failback 지원 Fine-grain Service Failover 지 원 Cascading Service Failover 지원 Group 단위 자원 관리 Intra-node Service Failover 지원 우수한 Service Bandwidth 확장성 Fast & Stable Service Failover 보장 Service Downtime 최소화 © 2006, Macro. Impact, Inc. All rights reserved. Dynamic Service & System 재구성 지원 Optional Automatic Service Launching 지원 20
MI Macro. Impact SANsibly Crafted Macro. Impact www. macroimpact. com Thank You! Q&A Macro. Impact Hyun S. Song duke 74 s@macroimpact. com MI Macro. Impact SANsibly Crafted www. macroimpact. com © 2008, Macro. Impact, Inc. All rights reserved.
- Slides: 21