Khoa Hc K Thut My Tnh Trng i

  • Slides: 22
Download presentation
Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp. Hồ

Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp. Hồ Chí Minh Chương 7: Phát triển ứng dụng khai phá dữ liệu Khai phá dữ liệu (Data mining) Học kỳ 1 – 2009 -2010 1

Nội dung p 7. 1. Tổng quan về vấn đề phát triển ứng dụng

Nội dung p 7. 1. Tổng quan về vấn đề phát triển ứng dụng khai phá dữ liệu p 7. 2. Qui trình phát triển ứng dụng khai phá dữ liệu p 7. 3. Các chuẩn dành cho khai phá dữ liệu p 7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu p 7. 5. Tóm tắt 2

Tài liệu tham khảo p [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and

Tài liệu tham khảo p [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006. p [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001. p [3] David L. Olson, Dursun Delen, “Advanced Data Mining Techniques”, Springer-Verlag, 2008. p [4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, Methodology, Techniques, and Applications”, Springer-Verlag, 2006. p [5] Zhao. Hui Tang, Jamie Mac. Lennan, “Data Mining with SQL Server 2005”, Wiley Publishing, 2005. p [6] Oracle, “Data Mining Concepts”, B 28129 -01, 2008. p [7] Oracle, “Data Mining Application Developer’s Guide”, B 28131 -01, 2008. 3

7. 1. Tổng quan về vấn đề phát triển ứng dụng khai phá dữ

7. 1. Tổng quan về vấn đề phát triển ứng dụng khai phá dữ liệu p p Vấn đề dữ liệu n Lượng và chất lượng dữ liệu n Kiểu dữ liệu Vấn đề tri thức từ quá trình khai phá n p Vấn đề kỹ thuật khai phá n p Biểu diễn và tích hợp vào ứng dụng Lựa chọn giải thuật khai phá Vấn đề hiệu quả (effective) và hiệu suất (efficient) 4

7. 2. Qui trình phát triển ứng dụng khai phá dữ liệu p Qui

7. 2. Qui trình phát triển ứng dụng khai phá dữ liệu p Qui trình phát triển ứng dụng khai phá dữ liệu Tương đồng và khác biệt 5

7. 3. Các chuẩn dành cho khai phá dữ liệu p The Predictive Model

7. 3. Các chuẩn dành cho khai phá dữ liệu p The Predictive Model Markup Language (PMML – www. dmg. org) p Standard application programming interfaces (APIs) p The Cross-Industry Standard Process for Data Mining (CRISP-DM – www. crisp-dm. org) Nguồn: R. L. Grossman, M. F. Hornick, G. Meyer, Data Mining Standards Initiatives, Communications of the ACM 45 (8) 2002 5961. 6

7. 3. Các chuẩn dành cho khai phá dữ liệu p The Predictive Model

7. 3. Các chuẩn dành cho khai phá dữ liệu p The Predictive Model Markup Language (PMML – www. dmg. org) n Chuẩn dựa trên XML p n Mô tả các mô hình thống kê và khai phá dữ liệu, các tác vụ làm sạch và biến đổi dữ liệu Các thành phần của PMML p Data dictionary p Mining schema p Transformation dictionary p Model statistics p Models 7

7. 3. Các chuẩn dành cho khai phá dữ liệu 8

7. 3. Các chuẩn dành cho khai phá dữ liệu 8

7. 3. Các chuẩn dành cho khai phá dữ liệu 9

7. 3. Các chuẩn dành cho khai phá dữ liệu 9

7. 3. Các chuẩn dành cho khai phá dữ liệu 10

7. 3. Các chuẩn dành cho khai phá dữ liệu 10

7. 3. Các chuẩn dành cho khai phá dữ liệu p Standard application programming

7. 3. Các chuẩn dành cho khai phá dữ liệu p Standard application programming interfaces (APIs) n SQL/MM Part 6: Data Mining n The Java Specification Request-73 (JSR-73) p n Jcp. org/jsr/detail/073. jsp Microsoft APIs p Microsoft. Analysis. Services. Adomd. Client 11

7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ

7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu p Các công cụ mã nguồn mở (open-source tools) p Các công cụ thương mại 12

7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ

7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu p Các công cụ mã nguồn mở (open-source) n R (www. r-project. org) n Tanagra (eric. univ-lyon 2. fr/~ricco/tanagra/) n Weka (www. cs. waikato. ac. nz/ml/weka) n YALE (rapid-i. com) n KNIME (www. knime. org) n Orange (www. ailab. si/orange) n … Nguồn: B. Zupan, J. Demsar, “Open-Source Tools for Data Mining”, Clinics in Laboratory Medicine 13 28(2008) 37 -54.

7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ

7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu 14

7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ

7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu 15

7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ

7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu 16

7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ

7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu 17

7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ

7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu 18

7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ

7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu 19

7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ

7. 4. Các công cụ hỗ trợ phát triển ứng dụng khai phá dữ liệu p Các công cụ thương mại n Hỗ trợ từ Intelligent Miner (IBM) n Hỗ trợ từ Microsoft data mining tools (MS SQL Server 2000/2005/2008) n Hỗ trợ từ Oracle Data Mining n Hỗ trợ từ Enterprise Miner (SAS Institute) n … 20

7. 5. Tóm tắt p Xem xét sự tương đồng/khác biệt giữa qui trình

7. 5. Tóm tắt p Xem xét sự tương đồng/khác biệt giữa qui trình phát triển ứng dụng truyền thống và ứng dụng khai phá dữ liệu p Sự cần thiết của các chuẩn (standards) dành cho khai phá dữ liệu p Sự quan tâm của các nhà sản xuất phần mềm đối với việc hỗ trợ phát triển ứng dụng khai phá dữ liệu 21