Data Warehouse Data Modeling 2 q 3 n
- Slides: 42
데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)
목 차(2) q 제 3 장 데이터웨어하우징 모델링 n n n 11/26/2020 Dimensional Business Model Star Model의 구축 Fact Table 의 속성 Dimension Tables Snowflake Model Multiple Fact Tables Multi Star Schema 외부참조 테이블 (Outboard Table) DW내에서의 시간의 활용 DWM-3
DW는 데이터의 통합체(Consolidation) Internal Data Operational Data Store Data Warehouse External Data Manual Data 11/26/2020 Data Marts DWM-6
DW 데이터는. . . q 데이터통합 n 데이터의 일관성 (Data Consistency) n 데이터의 중복 (Data Redundancy) q Time Variant n Key Time Element q 비휘발성 11/26/2020 DWM-8
정보요구를 모델로 q 정보요구 수집 n n n JAD (Joint Application Development) Interviews Current Reports IT Report Backlog 대상업무와 관련된 업계의 출판물 경영진, 관리자와의 Meetings q 업무 프로세스가 아닌 데이터를 보는 관점(View)에 주 력 11/26/2020 DWM-9
DW 모델 Operational Data Store Subject Area Logical Data Model Star Schema Physical Data Model Snowflake Schema Physical Data Model 11/26/2020 DWM-10
주제영역 논리적 데이터모델링 q Subject Area 정의 q 엔티티(Entity) 정의 q 속성(Attribute) 정의 q 관계(Relationship) 정의 q 업무규칙(Business Rule) 검증 q Critical Business Measure 정의 q 추출데이터 추가 q 시간요소 추가 11/26/2020 DWM-11
원 데이터와 목적 데이터 q 원 데이터 (Source Data) n 다른 database, file, segment들에 있는 data나 외부에서 제공되는 data n 운영 시스템에서 추출된다 q 목적 데이터 (Target Data) n Data Warehouse database의 data가 되는 data q 원 시스템(Source System) 분석 n ER-Diagram n Database Catalogs n Metadata q 역공학(Reverse Engineering) 을 활용하라 q 80: 20 Rule을 염두에 두라 11/26/2020 DWM-13
갭(Gap) 분석 및 해결 q 갭(Gap) 분석 n Data content n Data format n Data relationship n Granularity q 갭(Gap) 의 해결 n Ignore n Adjust n Compromise n Postpone 11/26/2020 DWM-14
제 3장 데이터웨어하우징 모델링 q Dimensional Business Model q Star Model의 구축 q Fact Table 의 속성 q Dimension Tables q Snowflake Model q Multiple Fact Tables q Multi Star Schema q 외부참조 테이블 (Outboard Table) q DW내에서의 시간의 활용 11/26/2020 DWM-16
Dimensional Business Model Product Geography Facts Dist. Channel Sales Inventory Costs Time Dimension High level Dimensional Business Model 11/26/2020 DWM-17
Star Model의 구축 q 주제 영역 q 사실 (Facts) q 세분화 (Granularity) q 차원 (Dimensions) q 차원의 속성들 (Dimensional attributes) q 속성의 특징 n 정적인가 n 동적인가 11/26/2020 DWM-19
Fact Table q Major table이라고도 한다. n Business에 관한 수량적이거나 사실적인 data를 갖는다. n 숫자로 나타내는 측정치가 정보로 질의된다. n 많은 수의 column들과 수백만의 행을 갖는다. Product Time 11/26/2020 Time Key Product Key Customer Key Channel Key Sales Facts (Units, Price) DWM-20 Customer Channel
Fact Table Attributes q Fact는 업무의 양적 특성을 보이는 속성이다 n Fact table의 속성들은 외부 dimension key들이나 판매나 단위 와 같은 수치적 특성들을 구분한다 q Fact Data n Additive n Non-additive n Semi-additive Time Additive Product 11/26/2020 DWM-21 Sales Fact Time_Key Product_Key Store_Key Promotion_Key Quantity_sold* Revenue* Cost* Customer_count Store Semi-Additive Promotion
Multiple Fact Table (1) n Snowstorm model이나 Snowflake model이라고도 한다 n Fact table들이 dimension table을 통하여 연결된다 n 서로 다른 시간 Dimension을 적용할 수 있다 Period_ID Product_ID Prod_Desc Brand Size Market_ID Units Dollars Discount% Market_Desc District Region Period_ID Product_ID Market_ID Period_Desc Quarter Year 11/26/2020 Product_ID Market_ID Units Dollars Discount% DWM-24
Multiple Fact Table (2) n DW Model의 모든 table들이 fact나 dimension으로 나뉘어지는 것은 아니다 n business의 임의의 차원간의 다-대-다 관계를 해소하기 위하여 추가 된다 Period_ID Period_Desc Quarter Year Period_ID Product_ID Units Dollars Discount% Prod_Desc Brand Size Product_ID Market_ID Product_ID Group_ID n Factless fact table n Associative Dimension 11/26/2020 DWM-25 Market_ID Market_Desc District Region Group_ID Group_Desc
Multi Star Schema n foreign key의 연결만으로 fact table의 각 행을 유일하게 구분 할 수 없을 경우에 유도된다 Class_ID SKU_ID Class_Desc Class_ID Dept_ID Item Store_ID SKU_ID Date Store_Name Region Manager Receipt_Nbr Receipt_Line_Item Dept_ID Units Price Amount Dept_Desc 2개의 2차 dimension table을 갖는 Multi star schema 11/26/2020 DWM-26
외부참조 테이블 (Outboard Table) n 임의의 Dimension table은 다른 Dimension table에 의하여 참조될 수 있다 n 참조되는 dimension table을 outboard, outrigger 혹은 2차 dimension table이라고도 한다 Period_ID Period_Desc Quarter Year Period_ID Product_ID Units Dollars Discount% Prod_Desc Brand Size 11/26/2020 Product_ID Market_ID DWM-27 District_ID Market_Desc District_ID Region_ID District_Desc Region_ID Region_Desc
제 4장 고급 데이터웨어하우스 모델링 q Dimension 속성의 변경 q History의 관리 q One Dimension Compare To Several Dimensions q 계층구조 데이터의 모델링 q 차원내의 복수 계층 11/26/2020 DWM-29
차원내의 복수 계층 q 테이블 항목의 사용 q 항목 계층의 생성 모든 고객 Sales Region q Drilling down n 좀 더 자세히 State Sales Zone q Rolling Up n 요약하여 Country Sales District 고객 Dimension table내의 복수 계층 11/26/2020 DWM-34
제 5장 데이터의 집합화와 요약 q 요약 Table과 집합화 q 집합화 (Aggregation) q Snowflake model과 요약 fact table q 하나의 대규모 단일 fact table q DW내에서 요약 Table의 관리 q 요약 Table 사용시의 주의할 사항 q Granularity 11/26/2020 DWM-35
집합화 (Aggregation) Geography Market Region Store Item Class Dept Product Geography와 product dimension에 대한 미리 저장된 집합화 Table 11/26/2020 DWM-37
Snowflake model과 요약 fact tables q Snowflake 구성 n Dimension table을 공유 가능하게 한다 n 보다 진보된 의사결정 tool들의 사용을 쉽게한다 n 유연성 Date Key Region ID. . . Denormalized Store Dimension Table Product Key Total Units Total. S ales Region Summary Table Total by region, by product, by day State ID. . . Date Key Store n 정규화를 요구한다 Key. . . n 성능이 저하될 수 있다 n 대규모 dimension 11/26/2020 Region ID DWM-38 State ID Product Key Total Units Total. S ales State Summary Table Total by state, by product, by day Store Key Product Key Total Units Basic Fact Table Total. S ales
DW내에서 요약 Table의 관리 Yearly summary data Quarterly summary data Monthly summary data Last 12 months Daily detail 1994/1995 11/26/2020 1994 1997 DWM-40 1998
Granularity q Grin n DW내의 세밀화의 수준 n Granularity의 수준은 database의 크기와 database가 지원할 수 있는 분석의 형태에 직접 영향을 준다 q Low level of granularity n high level of detail n 한달 동안 고객이 사용한 각각의 통화에 대한 세부 정보 q High level of granularity n low level of detail n 한달에 임의의 고객이 통화한 횟수 11/26/2020 DWM-42
- Data warehouse modeling tutorial
- Data warehouse modeling best practices
- Model and role modeling theory
- Dimensional modeling vs relational modeling
- What is kdd process in data mining
- Contoh data mart
- Building blocks of data warehouse
- Contoh data warehouse dan data mart
- Informational data store in data warehouse
- Perbedaan data warehouse dan data mining
- Perbedaan data warehouse dan data mining
- Data warehousing data mining and olap
- What is data acquisition in data warehouse
- Data warehouse vs data mart
- Three tier data warehouse
- Data warehouse dan data mining
- Data mining dan data warehouse
- Modeling relational data with graph convolutional networks
- Idefix notation
- Data modeling using entity relationship model
- Modeling data in the organization
- Modeling data in the organization
- Qlik circular reference
- Vhdl data flow modeling
- Oltp data modeling
- Sinusoidal functions as mathematical models
- Modeling data distributions
- Er modeler
- Dataflow verilog
- Jeff renz
- Data and process modeling
- Modeling data in the organization
- Chapter 2 modeling distributions of data
- Btm 382
- Er model diagram
- Data organization
- Chapter 2 modeling distributions of data
- Modeling data in the organization
- Data modelling
- Erwin data modeler
- Tbone codd
- Modeling distributions of data
- Modeling data in the organization