Data Warehouse Data Modeling 2 q 3 n

  • Slides: 42
Download presentation
데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

목 차(2) q 제 3 장 데이터웨어하우징 모델링 n n n 11/26/2020 Dimensional Business

목 차(2) q 제 3 장 데이터웨어하우징 모델링 n n n 11/26/2020 Dimensional Business Model Star Model의 구축 Fact Table 의 속성 Dimension Tables Snowflake Model Multiple Fact Tables Multi Star Schema 외부참조 테이블 (Outboard Table) DW내에서의 시간의 활용 DWM-3

DW는 데이터의 통합체(Consolidation) Internal Data Operational Data Store Data Warehouse External Data Manual Data

DW는 데이터의 통합체(Consolidation) Internal Data Operational Data Store Data Warehouse External Data Manual Data 11/26/2020 Data Marts DWM-6

DW 데이터는. . . q 데이터통합 n 데이터의 일관성 (Data Consistency) n 데이터의 중복

DW 데이터는. . . q 데이터통합 n 데이터의 일관성 (Data Consistency) n 데이터의 중복 (Data Redundancy) q Time Variant n Key Time Element q 비휘발성 11/26/2020 DWM-8

정보요구를 모델로 q 정보요구 수집 n n n JAD (Joint Application Development) Interviews Current

정보요구를 모델로 q 정보요구 수집 n n n JAD (Joint Application Development) Interviews Current Reports IT Report Backlog 대상업무와 관련된 업계의 출판물 경영진, 관리자와의 Meetings q 업무 프로세스가 아닌 데이터를 보는 관점(View)에 주 력 11/26/2020 DWM-9

DW 모델 Operational Data Store Subject Area Logical Data Model Star Schema Physical Data

DW 모델 Operational Data Store Subject Area Logical Data Model Star Schema Physical Data Model Snowflake Schema Physical Data Model 11/26/2020 DWM-10

주제영역 논리적 데이터모델링 q Subject Area 정의 q 엔티티(Entity) 정의 q 속성(Attribute) 정의 q

주제영역 논리적 데이터모델링 q Subject Area 정의 q 엔티티(Entity) 정의 q 속성(Attribute) 정의 q 관계(Relationship) 정의 q 업무규칙(Business Rule) 검증 q Critical Business Measure 정의 q 추출데이터 추가 q 시간요소 추가 11/26/2020 DWM-11

원 데이터와 목적 데이터 q 원 데이터 (Source Data) n 다른 database, file, segment들에

원 데이터와 목적 데이터 q 원 데이터 (Source Data) n 다른 database, file, segment들에 있는 data나 외부에서 제공되는 data n 운영 시스템에서 추출된다 q 목적 데이터 (Target Data) n Data Warehouse database의 data가 되는 data q 원 시스템(Source System) 분석 n ER-Diagram n Database Catalogs n Metadata q 역공학(Reverse Engineering) 을 활용하라 q 80: 20 Rule을 염두에 두라 11/26/2020 DWM-13

갭(Gap) 분석 및 해결 q 갭(Gap) 분석 n Data content n Data format n

갭(Gap) 분석 및 해결 q 갭(Gap) 분석 n Data content n Data format n Data relationship n Granularity q 갭(Gap) 의 해결 n Ignore n Adjust n Compromise n Postpone 11/26/2020 DWM-14

제 3장 데이터웨어하우징 모델링 q Dimensional Business Model q Star Model의 구축 q Fact

제 3장 데이터웨어하우징 모델링 q Dimensional Business Model q Star Model의 구축 q Fact Table 의 속성 q Dimension Tables q Snowflake Model q Multiple Fact Tables q Multi Star Schema q 외부참조 테이블 (Outboard Table) q DW내에서의 시간의 활용 11/26/2020 DWM-16

Dimensional Business Model Product Geography Facts Dist. Channel Sales Inventory Costs Time Dimension High

Dimensional Business Model Product Geography Facts Dist. Channel Sales Inventory Costs Time Dimension High level Dimensional Business Model 11/26/2020 DWM-17

Star Model의 구축 q 주제 영역 q 사실 (Facts) q 세분화 (Granularity) q 차원

Star Model의 구축 q 주제 영역 q 사실 (Facts) q 세분화 (Granularity) q 차원 (Dimensions) q 차원의 속성들 (Dimensional attributes) q 속성의 특징 n 정적인가 n 동적인가 11/26/2020 DWM-19

Fact Table q Major table이라고도 한다. n Business에 관한 수량적이거나 사실적인 data를 갖는다. n

Fact Table q Major table이라고도 한다. n Business에 관한 수량적이거나 사실적인 data를 갖는다. n 숫자로 나타내는 측정치가 정보로 질의된다. n 많은 수의 column들과 수백만의 행을 갖는다. Product Time 11/26/2020 Time Key Product Key Customer Key Channel Key Sales Facts (Units, Price) DWM-20 Customer Channel

Fact Table Attributes q Fact는 업무의 양적 특성을 보이는 속성이다 n Fact table의 속성들은

Fact Table Attributes q Fact는 업무의 양적 특성을 보이는 속성이다 n Fact table의 속성들은 외부 dimension key들이나 판매나 단위 와 같은 수치적 특성들을 구분한다 q Fact Data n Additive n Non-additive n Semi-additive Time Additive Product 11/26/2020 DWM-21 Sales Fact Time_Key Product_Key Store_Key Promotion_Key Quantity_sold* Revenue* Cost* Customer_count Store Semi-Additive Promotion

Multiple Fact Table (1) n Snowstorm model이나 Snowflake model이라고도 한다 n Fact table들이 dimension

Multiple Fact Table (1) n Snowstorm model이나 Snowflake model이라고도 한다 n Fact table들이 dimension table을 통하여 연결된다 n 서로 다른 시간 Dimension을 적용할 수 있다 Period_ID Product_ID Prod_Desc Brand Size Market_ID Units Dollars Discount% Market_Desc District Region Period_ID Product_ID Market_ID Period_Desc Quarter Year 11/26/2020 Product_ID Market_ID Units Dollars Discount% DWM-24

Multiple Fact Table (2) n DW Model의 모든 table들이 fact나 dimension으로 나뉘어지는 것은 아니다

Multiple Fact Table (2) n DW Model의 모든 table들이 fact나 dimension으로 나뉘어지는 것은 아니다 n business의 임의의 차원간의 다-대-다 관계를 해소하기 위하여 추가 된다 Period_ID Period_Desc Quarter Year Period_ID Product_ID Units Dollars Discount% Prod_Desc Brand Size Product_ID Market_ID Product_ID Group_ID n Factless fact table n Associative Dimension 11/26/2020 DWM-25 Market_ID Market_Desc District Region Group_ID Group_Desc

Multi Star Schema n foreign key의 연결만으로 fact table의 각 행을 유일하게 구분 할

Multi Star Schema n foreign key의 연결만으로 fact table의 각 행을 유일하게 구분 할 수 없을 경우에 유도된다 Class_ID SKU_ID Class_Desc Class_ID Dept_ID Item Store_ID SKU_ID Date Store_Name Region Manager Receipt_Nbr Receipt_Line_Item Dept_ID Units Price Amount Dept_Desc 2개의 2차 dimension table을 갖는 Multi star schema 11/26/2020 DWM-26

외부참조 테이블 (Outboard Table) n 임의의 Dimension table은 다른 Dimension table에 의하여 참조될 수

외부참조 테이블 (Outboard Table) n 임의의 Dimension table은 다른 Dimension table에 의하여 참조될 수 있다 n 참조되는 dimension table을 outboard, outrigger 혹은 2차 dimension table이라고도 한다 Period_ID Period_Desc Quarter Year Period_ID Product_ID Units Dollars Discount% Prod_Desc Brand Size 11/26/2020 Product_ID Market_ID DWM-27 District_ID Market_Desc District_ID Region_ID District_Desc Region_ID Region_Desc

제 4장 고급 데이터웨어하우스 모델링 q Dimension 속성의 변경 q History의 관리 q One

제 4장 고급 데이터웨어하우스 모델링 q Dimension 속성의 변경 q History의 관리 q One Dimension Compare To Several Dimensions q 계층구조 데이터의 모델링 q 차원내의 복수 계층 11/26/2020 DWM-29

차원내의 복수 계층 q 테이블 항목의 사용 q 항목 계층의 생성 모든 고객 Sales

차원내의 복수 계층 q 테이블 항목의 사용 q 항목 계층의 생성 모든 고객 Sales Region q Drilling down n 좀 더 자세히 State Sales Zone q Rolling Up n 요약하여 Country Sales District 고객 Dimension table내의 복수 계층 11/26/2020 DWM-34

제 5장 데이터의 집합화와 요약 q 요약 Table과 집합화 q 집합화 (Aggregation) q Snowflake

제 5장 데이터의 집합화와 요약 q 요약 Table과 집합화 q 집합화 (Aggregation) q Snowflake model과 요약 fact table q 하나의 대규모 단일 fact table q DW내에서 요약 Table의 관리 q 요약 Table 사용시의 주의할 사항 q Granularity 11/26/2020 DWM-35

집합화 (Aggregation) Geography Market Region Store Item Class Dept Product Geography와 product dimension에 대한

집합화 (Aggregation) Geography Market Region Store Item Class Dept Product Geography와 product dimension에 대한 미리 저장된 집합화 Table 11/26/2020 DWM-37

Snowflake model과 요약 fact tables q Snowflake 구성 n Dimension table을 공유 가능하게 한다

Snowflake model과 요약 fact tables q Snowflake 구성 n Dimension table을 공유 가능하게 한다 n 보다 진보된 의사결정 tool들의 사용을 쉽게한다 n 유연성 Date Key Region ID. . . Denormalized Store Dimension Table Product Key Total Units Total. S ales Region Summary Table Total by region, by product, by day State ID. . . Date Key Store n 정규화를 요구한다 Key. . . n 성능이 저하될 수 있다 n 대규모 dimension 11/26/2020 Region ID DWM-38 State ID Product Key Total Units Total. S ales State Summary Table Total by state, by product, by day Store Key Product Key Total Units Basic Fact Table Total. S ales

DW내에서 요약 Table의 관리 Yearly summary data Quarterly summary data Monthly summary data Last

DW내에서 요약 Table의 관리 Yearly summary data Quarterly summary data Monthly summary data Last 12 months Daily detail 1994/1995 11/26/2020 1994 1997 DWM-40 1998

Granularity q Grin n DW내의 세밀화의 수준 n Granularity의 수준은 database의 크기와 database가 지원할

Granularity q Grin n DW내의 세밀화의 수준 n Granularity의 수준은 database의 크기와 database가 지원할 수 있는 분석의 형태에 직접 영향을 준다 q Low level of granularity n high level of detail n 한달 동안 고객이 사용한 각각의 통화에 대한 세부 정보 q High level of granularity n low level of detail n 한달에 임의의 고객이 통화한 횟수 11/26/2020 DWM-42