Simultaneous Sentence Boundary Detection and Alignment with Pivotbased
Simultaneous Sentence Boundary Detection and Alignment with Pivot‐based Machine Translation Generated Lexicons Antoine 1 Bourlon , 1 ( Japan Chenhui 1 Chu , Toshiaki Science and Technology Agency, Overview せん断強度への根強化の寄与 には結合の特性があると考え, 斜面の根強化の効果は数値シ ミュレーションで分析した。 斜面の安全率を数種類のケー スについて計算した。この研 究の結果は,根の評価などの, より深い研究への理論的基礎 の強化と,植生の選択と対応 する配置を提供する。 将根系对土体的强度贡献以“ 表观凝聚力”表示.采用数值 方法对植物根系固坡效应及其 稳定性进行了分析,考虑根系 强度增量以及护坡深度,在多 种情况下进行了边坡整体安全 系数计算。分析结果可为植物 根系的力学效应评判、护坡植 物的选取,以及其优化布设等 纵深研究方面提供了理论基础。 Ja • Perform both sentence split and alignment, in 3 steps. • Use alignment data to adjust sentence boundaries and maximize the number of 1‐to‐ 1 sentence pairs. 2) Align splits Zh: 结果表明, 在水洗强度� 4. 2 L/(m~2. s)、 气洗强度� 22 L/(m~2·s)的情况下, 均�陶粒�料两�曝气生物�池反冲洗的�浮物�度�化曲�基本相 似, Ja: 結果は4.2L/(m ̄2秒)の水逆洗浄速度と 22L/(m ̄2秒)の空気 逆洗浄速度(m ̄2秒)の条件下で, 一様の媒体がある二段階のBAFの空気‐ 水逆流洗浄におけるSS濃度 3) Merge splits on soft delimiters の曲線は類似であることを示す。 Lexicon • Previous studies: manual dictionary / generated from parallel corpora • Our study: pivot‐based MT generated 1 Pivot‐based MT Generated Lexicons Zh: 结果表明, 在水洗强度� 4. 2 L/(m~2. s)、气洗强度� 22 L/(m~2·s)的情况下, 均�陶粒�料两�曝气生物�池反冲洗的�浮物�度�化曲�基本相 似, Ja: 結果は4.2L/(m ̄2秒)の水逆洗浄速度と 22L/(m ̄2秒)の空気逆洗 浄速度(m ̄2秒)の条件下で, 一様の媒体がある二段階のBAFの空気‐水 2 逆流洗浄におけるSS濃度の曲線は類似であることを示す。 Evaluation • Large‐scale dictionary construction via pivot‐based statistical machine translation [Dabre+ 2015] • Alignment method comparison 100 Ja‐En phrase table 80 アダプター ||| adapter ||| … 反応 ||| reaction ||| … 60 Ja‐Zh phrase table(pivot) ・・・ Pivoting En‐Zh corpus(13. 2 M)En‐Zh phrase table reaction||| 反应 ||| … adapter ||| 接头 ||| … ・・・ アダプター ||| 接头 ||| … 反応 ||| 反应 ||| … ・・・ Zh 雪 � � Ja 雪 愛 発 Ja‐Zh corpus(1. 2 M) 蛋白 質 ||| 蛋白 ||| … アセチル 化 ||| 乙酰化 ||| … ・・・ 乙酰化反应 ||| acetylation reaction ・・・ Ja‐En dictionary (3. 4 M) Zh‐En dictionary (550 k) 56. 19 40. 9 20 Baseline Proposed Ja-Zh SMT EDR+MT‐Noun EDR and MT‐Noun merged EDR+MT‐NVAA EDR and MT‐NVAA merged アダプター蛋白質 ||| 接头蛋白 アセチル化反応 ||| 乙酰化反应 ・・・ 60 76. 46 20 #Entries 0 298, 857 4, 263 79. 32 78. 83 76. 53 56. 19 48. 2 40 Ja‐Zh Dictionary (3. 6 M, 90%) p 79. 55 79. 68 53. 93 43. 52 30. 49 23. 72 None EDR MT‐Noun MT‐NVAA max F measure @tuning precision>0. 9 @tuning EDR+ MT‐Noun MT‐NVAA • Lexicon comparison (Coverage [%]) 50 39 40 7, 004 30 302, 180 304, 305 Proposed (precision>0. 9 @tuning) 100 Kanji mapping table Description Empty dictionary EDR Electronic Dictionary Noun strings extracted from test set and pivot‐MT translated Similar to MT‐Noun, but also extracting verbs and adjectives Proposed (max F @tuning) Precision Recall F‐measure • Lexicon comparison (F measure) • Lexicons used for evaluation MT‐NVAA 79. 56 70. 62 74. 82 84. 43 75. 43 79. 68 89. 76 40 80 アダプター蛋白質 ||| adapter protein ・・・ 89. 03 78. 4 70. 05 Champollion Ja‐Zh phrase table(direct) Lexicon None EDR MT‐Noun University) 1) Split on hard (certain) and soft (ambiguous) delimiters Sentence split • Previous studies: monolingually pre‐split • Our study: simultaneous split and alignment Ja‐En corpus(50. 5 M) 2 Kyoto Sadao 2 Kurohashi Simultaneous Split and Alignment Sentence alignment Zh 1 Nakazawa , 20 3 42 45 46 MT‐NVAA EDR+ MT‐Noun 48 27 None EDR MT‐Noun EDR+ MT‐NVAA 4
- Slides: 1