CSH 4 H 3 Text Mining Semester 201819

  • Slides: 32
Download presentation
CSH 4 H 3 Text Mining Semester: 2018/19 -2 1. Pengantar penambangan teks Moch

CSH 4 H 3 Text Mining Semester: 2018/19 -2 1. Pengantar penambangan teks Moch Arif Bijaksana 1

Sesi Diskusi (dari materi pertemuan sebelumnya dan PR) • Reminder PR Pekan-1 – Baca

Sesi Diskusi (dari materi pertemuan sebelumnya dan PR) • Reminder PR Pekan-1 – Baca Preface buku NLP with Python http: //www. nltk. org/book/ch 00. html – Pelajari Jupyter Notebook khususnya penggunaannya unt Python. – Buat program Python Hello World menggunakan Jupyter Notebook. 2

Outline • • • Apa itu text mining Text vs. non text data Mining

Outline • • • Apa itu text mining Text vs. non text data Mining vs. querying Aplikasi dan proyek penelitian text mining Perbedaan (dan keterkaitan) TM dg yg lain 3

Apa itu text mining • Apa yang dimaksud text di sini? – Teks bahasa

Apa itu text mining • Apa yang dimaksud text di sini? – Teks bahasa manusia – Teks dapat berupa (granularity): kata, term, frase, kalimat, dokumen, . . • Apa yang dimaksud dengan mining di sini? • Text mining ≈ Text analytics 4

Apa itu text mining (cont) • Apa itu? Salah satu utamanya dijawab dg menerangkan

Apa itu text mining (cont) • Apa itu? Salah satu utamanya dijawab dg menerangkan I/O. • Input-output – Input: text. – Output: information. • Contoh pada aplikasi: – Text categorization. – Information extraction. 5

Text vs. non text data • Karakteristik teks – Tdk terstruktur/semi terstruktur. – Dimensi

Text vs. non text data • Karakteristik teks – Tdk terstruktur/semi terstruktur. – Dimensi tinggi. – Penekanan pada makna. 6

Text vs. non text data (cont) • Manusia sebagai “sensor” yg subyektif Dari: Zhai,

Text vs. non text data (cont) • Manusia sebagai “sensor” yg subyektif Dari: Zhai, “Text Mining and Analytics course”, Illinois Univ 7

Mining vs. querying • Mining: proses untuk implisit data • Querying: proses untuk eksplisit

Mining vs. querying • Mining: proses untuk implisit data • Querying: proses untuk eksplisit data 8

Aplikasi dan proyek penelitian text mining 9

Aplikasi dan proyek penelitian text mining 9

10

10

Aplikasi dan proyek penelitian text mining (cont) 11

Aplikasi dan proyek penelitian text mining (cont) 11

Aplikasi dan proyek penelitian text mining (cont) 12

Aplikasi dan proyek penelitian text mining (cont) 12

13

13

14

14

Perbedaan dan keterkaitan TM dg yg lain • TM vs Data Mining 15

Perbedaan dan keterkaitan TM dg yg lain • TM vs Data Mining 15

Perbedaan dan keterkaitan TM dg yg lain (cont) 16

Perbedaan dan keterkaitan TM dg yg lain (cont) 16

Perbedaan dan keterkaitan TM dg yg lain (cont) • TM vs. Information Retrieval (IR)

Perbedaan dan keterkaitan TM dg yg lain (cont) • TM vs. Information Retrieval (IR) 17

Perbedaan dan keterkaitan TM dg yg lain (cont) • TM vs. Machine Learning (ML)

Perbedaan dan keterkaitan TM dg yg lain (cont) • TM vs. Machine Learning (ML) 18

Perbedaan dan keterkaitan TM dg yg lain (cont) • TM vs. Natural Language Processing

Perbedaan dan keterkaitan TM dg yg lain (cont) • TM vs. Natural Language Processing (NLP) 19

20

20

Perbedaan dan keterkaitan TM dg yg lain (cont) • NLP vs. Computational Linguistics (CL)

Perbedaan dan keterkaitan TM dg yg lain (cont) • NLP vs. Computational Linguistics (CL) Buku 2 NLP 21

Perbedaan dan keterkaitan TM dg yg lain (cont) 22

Perbedaan dan keterkaitan TM dg yg lain (cont) 22

 • Data Mining vs. Data Base 23

• Data Mining vs. Data Base 23

Perbedaan dan keterkaitan TM dg yg lain (cont) • Data Mining vs. Data Warehouse

Perbedaan dan keterkaitan TM dg yg lain (cont) • Data Mining vs. Data Warehouse 24

Perbedaan dan keterkaitan TM dg yg lain (cont) Dari: https: //qmetrix. com. au/data-warehousing-for-smallmedium-enterprises-smes/ 25

Perbedaan dan keterkaitan TM dg yg lain (cont) Dari: https: //qmetrix. com. au/data-warehousing-for-smallmedium-enterprises-smes/ 25

Perbedaan dan keterkaitan TM dg yg lain (cont) • Data Mining vs. Statistika 26

Perbedaan dan keterkaitan TM dg yg lain (cont) • Data Mining vs. Statistika 26

Perbedaan dan keterkaitan TM dg yg lain (cont) • Data Mining vs Business intelligent

Perbedaan dan keterkaitan TM dg yg lain (cont) • Data Mining vs Business intelligent Dari: http: //cognisofttech. com 27

Perbedaan dan keterkaitan TM dg yg lain (cont) Dari: https: //motivitysolutions. com/business-intelligence/ 28

Perbedaan dan keterkaitan TM dg yg lain (cont) Dari: https: //motivitysolutions. com/business-intelligence/ 28

Perbedaan dan keterkaitan TM dg yg lain (cont) • Data mining vs. Data science

Perbedaan dan keterkaitan TM dg yg lain (cont) • Data mining vs. Data science • Data mining vs. Big data – Sifat big data: • Volume: big data doesn't sample; it just observes and tracks what happens • Velocity (kecepatan): big data is often available in real-time • Variety (keragaman): big data draws from text, images, audio, video, etc • Variability : inconsistency of the data set can hamper processes to handle and manage it. • Veracity (ketepatan/lebenaran): the quality of captured data can vary greatly, affecting accurate analysis. 29

PR PERTEMUAN-2 PR no 1 • Pelajari contoh pemakaian teks mining pada Sem. Eval

PR PERTEMUAN-2 PR no 1 • Pelajari contoh pemakaian teks mining pada Sem. Eval 2015 Task 1, Task 2 dan Task 3. http: //alt. qcri. org/semeval 2015/index. php? id=tasks • Jelaskan apa input dan output untuk masing task, dan masing-masing task berilah contoh input dan outputnya. • File pdf diupload ke Google Classroom 30

PR Pe. RTEMUAN-2 PR no 2 Python • Gunakan Jupyter Notebook • Coba http:

PR Pe. RTEMUAN-2 PR no 2 Python • Gunakan Jupyter Notebook • Coba http: //www. nltk. org/book/ch 01. html • Coba program Bab 1. 1 s/d 1. 4 31

TERIMA KASIH 32

TERIMA KASIH 32