PENGEMBANGAN SISTEM PENGENALAN HURUF ARAB M ALBADR LUTAN
PENGEMBANGAN SISTEM PENGENALAN HURUF ARAB M. ALBADR LUTAN NASUTION 13508011
Latar Belakang OCR sangat praktikal 50 bahasa Tertinggal vs latin 200 juta jiwa Segmentasi minim
Rumusan Masalah Segmentasi yg mendukung Skema hubungan komponen Kinerja
Tujuan citra • piksel • sulit diolah teks OCR • huruf • dapat disunting • dapat dicari
Studi Literatur • Tulisan Arab: 31 huruf, kursif, 4 bentuk, titik • Akuisisi Data: Online vs Offline • Tahapan Umum OCR: Piksel Praproses Fitur Segmentasi Huruf Kata Representasi Kalimat Pelatihan dan Pengenalan Makna Pascaproses
Penelitian Terkait • Sarfraz, dkk (2003): Pengenalan nomor plat kendaraan dg. pencocokan templat • Al-Taani dan Al-Haj (2010): Pengenalan huruf online dg. pohon keputusan • Sarhan dan Al-Helalat (2007): Pengenalan huruf dg. JST dan fitur standar devisasi dan piksel • Zidouri (2010): Metode segmentasi baru dan pengenalan dua tingkat: templat dan JST • Abandah, dkk (2009): Ragam fitur huruf dan kombinasi pengenaan statistik
Alur Proses Praolah Segmentasi Penipisan Ekstraksi Fitur Klasifikasi
Praolah Median Filter Binerisasi Tinggi 64 Piksel Lini Basis P 1’ = median (P 1. . P 9) BLACK if RG||GB||RB lini basis 64 piksel
Penipisan Algoritma Hilditch 2 < = B(p 1) < = 6 A(p 1)=1 p 2. p 4. p 8=0 or A(p 2)!= 1 p 2. p 4. p 6=0 or A(p 4)!= 1 Templat Cowell Hussain Templat Ketebalan
Segmentasi Baris • Proyeksi horizontal Upakata • Analisis piksel bersambung • Badan utama vs objek sekunder Huruf • Algoritma Zidouri (2010)
Segmentasi Baris
Segmentasi Upakata Amin (2000) Tiap sangkar digolongkan ke: “badan utama”, “objek sekunder”, dan “derau”
Segmentasi Huruf Tipiskan Cari deretan piksel Cek panjang deretan dan piksel atas bawah Masukkan sebagai pita kandidat Ekstrak fitur setiap kandidat Masukkan fitur ke rule Zidouri (2010)
Ekstraksi Fitur • • Rasio aspek Proyeksi Distribusi piksel Jumlah lubang Badan Utama • • • Titik minat Rantai kode Panjang keliling Diag/keliling Rasio kekompakan Tulang & Keliling • Jumlah • Posisi • Jenis komponen Komponen Sekunder
Klasifikasi C 4. 5 (J 48) Pohon Keputusan Badan Utama Weka ++ Objek Sekunder
Data Uji Teks Arab 37 Halaman Sumber: Wikipedia
Prosedur Pengujian Fungsional • Cek sampel hasil setiap proses • Hingga fungsi dianggap cukup baik Segmentasi • Data uji: seluruh citra dokumen • Simpan citra hasil tiap segmentasi • Hitung citra hasil (manual) • Benar, Undersegmentasi, Oversegmentasi Klasifikasi • Pembelajaran dari citra huruf tunggal manual tiap font • Kinerja komponen: validasi silang setiap font pada data latih • Kinerja sistem: cek dan hitung tebakan seluruh huruf pada data uji citra dokumen
Skrinsyut Citra asli Setelah praolah Penipisan Pengotakan Seg. huruf
Antarmuka
Hasil Uji: Seg. Baris Jenis Huruf B O K Arial 99% 1% 21% Arial Unicode MS 99% 1% 9% Microsoft Sans Serif 98% 2% 2% Segoe UI 98% 2% 27% Tahoma 98% 2% 13% Traditional Arabic 97% 3% 33% Benar 98%. Under 0%. Over 2%.
Hasil Uji: Seg. Huruf Jenis Huruf B U O Arial 84% 11% 5% Arial Unicode MS 79% 17% 4% Microsoft Sans Serif 54% 43% 3% Segoe UI 91% 2% 7% Tahoma 92% 2% 6% Traditional Arabic 46% 50% 4% Benar 74%. 5%. 86%. Under 21%. 8%. Over 6%.
demo?
Terima kasih.
- Slides: 23