Rule Based NER Information Extraction NER Rule Based

Rule Based NER Information Extraction & NER

Rule Based NER • Ada 3 cara : – Menggunakan regular expressions – Membuat aturan khusus untuk urutan tertentu – Menggunakan context patterns 2

Rule Based NER (1) • Membuat regular expressions untuk mengekstraksi: – Nomor Telephone – E-mail – Nama yang diawali huruf Kapitak 3

Rule Based NER (1) Regular expressions menyediakan cara yang fleksibel untuk mencocokkan string pada teks. Tidak hanya mencocokkan kata yang memiliki karakter-karakter yang sama, tapi bisa juga dengan menggunakan karakter, kata, atau pola tertentu. 4

Rule Based NER (1) Misal, kita ingin mencari sebuah kata yang 1. Diawali huruf besar “P” 2. Merupakan Huruf pertama pada sebuah baris 3. Huruf setelahnya menggunakan huruf kecil 4. Cuma terdiri dari 3 huruf 5. Huruf ketiga adalah huruf vokal 5

Rule Based NER (1) Misal, kita ingin mencari sebuah kata yang : 1. Diawali huruf besar “P” 2. Merupakan Huruf pertama pada sebuah baris 3. Huruf setelahnya menggunakan huruf kecil 4. Cuma terdiri dari 3 huruf 5. Huruf ketiga adalah huruf vokal Regular expressionnya : “^P[a-z][aeiou]” di mana : ^ - Mengindikasikan awal String [a-z] – semua huruf kecil dari a sampzi z [aeiou] – semua huruf kecil vokal 6

Perl Reg. Ex w (word char) any alpha-numeric d (digit char) any digit s (space char) any whitespace . (wildcard) anything b word bounday ^ beginning of string $ end of string ? For 0 or 1 occurrences + for 1 or more occurrences specific range of number of occurrences: {min, max}. A{1, 5} One to five A’s. A{5, } Five or more A’s A{5} Exactly five A’s 7

Rule Based NER (1) • Membuat regular expressions untuk mengekstraksi: – Nomor Telephone Contoh : 0341 -551611, 0341 -565420, 0857 -467 -45623 Nomor yang dipisah dengan Hypen (-) Reg. Ex = (d+-)+d+ 8

Rule Based NER (2) Membuat aturan untuk mengkestrak lokasi Kata yang diawali huruf besar + {city, center, river} menandakan lokasi Ex. New York city Hudson river {Kota, Desa, Kecamatan, Kabupaten, Kelurahan} + Kata yang diawali huruf besar menandakan lokasi Ex. Kota Kanor Desa Kedung Primpen 9
![Rule Based NER (3) Menggunakan context patterns [PERSON] earned [MONEY] Ex. Frank earned $20 Rule Based NER (3) Menggunakan context patterns [PERSON] earned [MONEY] Ex. Frank earned $20](http://slidetodoc.com/presentation_image_h2/af4564fe97e1742d4cdbf36aae56b642/image-10.jpg)
Rule Based NER (3) Menggunakan context patterns [PERSON] earned [MONEY] Ex. Frank earned $20 [PERSON] joined [ORGANIZATION] Ex. Sam joined IBM [PERSON], [JOBTITLE] Ex. Mary, the teacher 10
![Rule Based NER (3) Menggunakan context patterns [PERSON|ORGANIZATION|ANIMAL] fly to [LOCATION|PERSON|EVENT] Ex. Jerry flew Rule Based NER (3) Menggunakan context patterns [PERSON|ORGANIZATION|ANIMAL] fly to [LOCATION|PERSON|EVENT] Ex. Jerry flew](http://slidetodoc.com/presentation_image_h2/af4564fe97e1742d4cdbf36aae56b642/image-11.jpg)
Rule Based NER (3) Menggunakan context patterns [PERSON|ORGANIZATION|ANIMAL] fly to [LOCATION|PERSON|EVENT] Ex. Jerry flew to Japan Sarah flies to the party Delta flies to Europe bird flies to trees bee flies to the wood 11

Why simple things would not work? Huruf Kapital adalah indikasi yang kuat bahwa kata tersebut adalah sebuah nama, tapi kadang bisa juga sangat tricky: Kata pertama dari kaliat pasti diawali huruf besar Kadang judul di website semuanya pake huruf besar Ada juga yang mengandung huruf kecil University of Southern California adalah Organization, of diawali dengan huruf kecil Pada kasus khusu, yaitu Bahasa Jerman, semua kata benda 12 memakai huruf besar

Why simple things would not work? Entitas yang sama bisa jadi memiliki beberapa variasi Pak Bisri prof. Bisri Ada juga ambiguitas Ahmad Yani orang vs. Ahmad Yani jalan JFK the person vs. JFK the airport May the person vs. May the month 13
- Slides: 13