l CFG l l l CKY PCFG l

  • Slides: 33
Download presentation

今日の講義の予定 l CFGの構文解析 l l l CKYアルゴリズム PCFGの構文解析 l CKYアルゴリズム+ビタビアルゴリズム l 北研二(著) 辻井潤一(編) 言語と計算

今日の講義の予定 l CFGの構文解析 l l l CKYアルゴリズム PCFGの構文解析 l CKYアルゴリズム+ビタビアルゴリズム l 北研二(著) 辻井潤一(編) 言語と計算 4 確率的言語モデル 東大 出版会 C. D. Manning & Hinrich Schütze “FOUNDATIONS OF STATISTICAL NATURAL LANGUAGE PROCESSING” MIT Press, 1999 D. Jurafsky, J. H. Martin, A. Kehler, K. V. Linden & N. Ward “Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition” Prentice Hall Series in Artificial Intelligence, 2000 教科書 l l 2

CFG構文解析のアルゴリズム l トップダウン型 l l アーリー法 (earley parsing algorithm) ボトムアップ型 CKY法 (CKY parsing algorithm,

CFG構文解析のアルゴリズム l トップダウン型 l l アーリー法 (earley parsing algorithm) ボトムアップ型 CKY法 (CKY parsing algorithm, CYK法ともいう ) l チャート法 (chart parsing algorithm) l 左隅解析法 (left-corner parsing algorithm) l l 一般化LR法 (generalized LR parsing) 5

準備: CKYテーブル(チャート) l Si, j: wi+1, . . . , wjに対応する句の非終端記号の 集合 S 0,

準備: CKYテーブル(チャート) l Si, j: wi+1, . . . , wjに対応する句の非終端記号の 集合 S 0, 6 S 0, 5 S 0, 4 S 0, 3 S 0, 2 S 0, 1 0 w 1 S 1, 5 S 1, 4 S 1, 3 S 1, 2 1 w 2 S 1, 6 S 2, 5 S 2, 4 S 2, 3 2 S 2, 6 w 3 S 3, 6 S 3, 5 S 3, 4 3 w 4 S 4, 6 S 4, 5 4 w 5 S 5, 6 5 w 6 6 8

CKY法: 基本的なアイデア l Z→X Y Y X Z w 1 , w 2 ,

CKY法: 基本的なアイデア l Z→X Y Y X Z w 1 , w 2 , w 3 , w 4 Y X w 1 , w 2 , w 3 , w 4 X Y w 1 , w 2 , w 3 , w 4 10

CKY法 l 矢印の順で全てのSi, jが求まる S 0, 6 S 0, 5 S 0, 4 S

CKY法 l 矢印の順で全てのSi, jが求まる S 0, 6 S 0, 5 S 0, 4 S 0, 3 スタート 0 S 0, 2 S 0, 1 w 1 S 1, 5 S 1, 4 S 1, 3 S 1, 2 1 w 2 S 1, 6 S 2, 5 S 2, 4 S 2, 3 2 S 2, 6 w 3 S 3, 6 S 3, 5 S 3, 4 3 w 4 S 4, 6 S 4, 5 4 w 5 S 5, 6 5 w 6 6 11

CKY法: Si, j l 例: S 1, 5に対しk=2, 3, 4 S 0, 6 S

CKY法: Si, j l 例: S 1, 5に対しk=2, 3, 4 S 0, 6 S 0, 5 S 0, 4 S 0, 3 S 0, 2 S 0, 1 0 w 1 S 1, 5 S 1, 4 S 1, 3 S 1, 2 1 w 2 S 1, 6 S 2, 5 S 2, 4 S 2, 3 2 S 2, 6 w 3 S 3, 6 S 3, 5 S 3, 4 3 w 4 S 4, 6 S 4, 5 4 w 5 S 5, 6 5 w 6 6 13

文法 CKY法 l S → NP VP VP → VP PP VP → V

文法 CKY法 l S → NP VP VP → VP PP VP → V NP VP → V 例 NP → NP PP 同じ記号が複数でた場 0, 6 合は、一つにまとめて 構わない (factoring, 0, 5 ファクタリング) この後のステップでの 0, 4 1, 5 処理は全て同じになる S はずだから。 0, 3 1, 4 NP → John NP → Mary PP → P NP VP, VP P → with 1, 6 NP → DT NP NP DT → a 2, 6 PP 2, 5 0 John sees 2, 4 NP 2, 3 1, 2 1 NP 1, 3 V NP 0, 1 2 V → sees 3, 6 VP 0, 2 NP → telescope Mary 3 3, 5 V → runs 4, 6 P DT NP 3, 4 4, 5 5, 6 with 4 a 5 telescope 6 14

文法 CKY法 l S → NP VP VP → VP PP VP → V

文法 CKY法 l S → NP VP VP → VP PP VP → V NP VP → V 例 NP → NP PP NP → John S NP → Mary 0, 6 PP → P NP VP 0, 5 P → with 1, 6 NP → DT NP NP S 0, 4 1, 5 DT → a 2, 6 PP 0, 3 1, 4 2, 5 0 John sees 2, 4 NP 2, 3 1, 2 1 NP 1, 3 V NP 0, 1 2 V → sees 3, 6 VP 0, 2 NP → telescope Mary 3 3, 5 V → runs 4, 6 P DT NP 3, 4 4, 5 5, 6 with 4 a 5 telescope 6 15

PCFG 18

PCFG 18

ビタビアルゴリズム <VP, 0. 03> l例 <VP, 0. 008> をファクタリングす る際は <VP, 0. 03> と確率値の高い方を

ビタビアルゴリズム <VP, 0. 03> l例 <VP, 0. 008> をファクタリングす る際は <VP, 0. 03> と確率値の高い方を 残す 0, 6 1, 6 <NP, 0. 00016> 1, 5 <S, 0. 0008> 2, 6 <PP, 0. 008> 1, 4 2, 5 3, 6 <VP, 0. 008> 0, 2 <NP, 0. 05> 3, 5 4, 6 <NP, 0. 1> <V, 0. 5> <NP, 0. 2> <P, 1. 0> <DT, 1. 0><NP, 0. 2> 0, 1 1, 2 2, 3 3, 4 4, 5 5, 6 0 1 2 3 4 5 6 John 1, 3 NP <VP, 0. 03> <VP, 0. 008> 0, 5 0, 4 0, 3 0. 5× 0. 2×θVP→V =0. 01× 0. 8 =0. 008 sees 2, 4 Mary with a telescope 29

ビームサーチ N: 数による閾値 l W: 幅による閾値 l Si, jの求め方 (CKY法の場合) for k = i+1

ビームサーチ N: 数による閾値 l W: 幅による閾値 l Si, jの求め方 (CKY法の場合) for k = i+1 to j-1 forall <X, p. X>∈ Si, k forall <Y, p. Y>∈ Sk, j forall Z ∈ G(X, Y) Si, j : = Si, j ∪ <Z, p. X×p. Y×θZ→X Y> sort Si, j according to its p (Si, j=<X 1, p 1>. . . <XM, p. M>とする) remove <XN+1, p. N+1>. . . <XM, p. M> remove <X, p> ∈ Si, j s. t. p < p 1×W l 32