XML person person namefirst Makiko first person namelast

  • Slides: 15
Download presentation

既存の手法 XML文書 メモリ person “” person/ name/first Makiko first person/ name/last Tanaka Makiko …

既存の手法 XML文書 メモリ person “” person/ name/first Makiko first person/ name/last Tanaka Makiko … Tanaka … person X M L パ ー ー サ XML文書 name 2001年度冬のLAシンポジウム DOM API プ ロ グ ラ ム 3

文字列照合問題 パタン テキスト matching Pattern matching is one of the most fundamental operations in

文字列照合問題 パタン テキスト matching Pattern matching is one of the most fundamental operations in string processing. Recently, a new trend for accelerating pattern matching has emerged: Speeding up pattern matching by text compression. From the traditional criteria for data compression, i. e. , compression ratio and compression/decompression time, adaptive dictionary methods such as the Lempel-Ziv family are often preferred. However, such methods cannot speed up the pattern matching since an extra work is needed to keep track of compression mechanism. Knuth-Morris-Pratt (1974) Boyer-Moore (1977) Aho-Corasick (1975) Shift-Or (1992) 2001年度冬のLAシンポジウム 6

Aho-Corasick(AC)照合機械 パタン集合: ={other, <mother>} 0 任意の 文字 o 1 < 14 6 t m

Aho-Corasick(AC)照合機械 パタン集合: ={other, <mother>} 0 任意の 文字 o 1 < 14 6 t m 2 7 h o e 3 8 t 4 9 h r 5 10 other e 11 r > 12 13 other <mother> goto遷移 failure遷移 2001年度冬のLAシンポジウム 7

属性の取り扱い <mother> <mother nature=“tender”> <mother nature=“hard”> 同じタグ <mother> ・ ・ ・ < 以外 の文字

属性の取り扱い <mother> <mother nature=“tender”> <mother nature=“hard”> 同じタグ <mother> ・ ・ ・ < 以外 の文字 14 < 0 < > < 6 m t 1 7 o h 2 8 t e 3 9 h 4 10 > 以外 の文字 2001年度冬のLAシンポジウム r e > 以外 の文字 other 5 other 16 > r > 12 13 > <mother> ] 15 o 11 11

アイデア スタック 0 (<last>, 2) <person> (<name>, 1) (<person>, 0) 以外のタグ <person> 1 (<xml>,

アイデア スタック 0 (<last>, 2) <person> (<name>, 1) (<person>, 0) 以外のタグ <person> 1 (<xml>, 0) <name> 2 < 以外 の文字 o 0 14 < > h 1 e 2 3 <last> r 4 5 other 3 < 15 6 > 以外 の文字 t m 7 o 8 t 9 h 10 e 11 r 12 > 13 <mother> ={<person>, </person>, <name>, </name>, <last>, </last>, …} ={Tanaka} 2001年度冬のLAシンポジウム 13

実験結果 l Sgrep(J. Jaakkola and P. Kilpeläinen)との比較 パタン //text/"summers" //test//"summers" /site/regions/africa /item/location/ "United_States" Sgrep

実験結果 l Sgrep(J. Jaakkola and P. Kilpeläinen)との比較 パタン //text/"summers" //test//"summers" /site/regions/africa /item/location/ "United_States" Sgrep 38. 44 37. 02 51. 85 提案アルゴリズム 12. 40 12. 30 12. 23 CPU時間(秒) テキスト: 110 MB(英文テキスト) CPU : Celelon 366 MHz メモリ : 128 MB OS : Kondara/MNU Linux 2. 1 RC 2 2001年度冬のLAシンポジウム 14