LDCwww ldc upenn edu ELRAwww elra info GSK

  • Slides: 26
Download presentation

言語資料関係のサイト • • LDC(www. ldc. upenn. edu) ELRA(www. elra. info) GSK(言語資源協会, www. gsk. or.

言語資料関係のサイト • • LDC(www. ldc. upenn. edu) ELRA(www. elra. info) GSK(言語資源協会, www. gsk. or. jp) RSC(音声資源コンソーシアム, research. nii. ac. jp/src/) • 言語情報処理ポータル: nlp. kuee. kyoto-u. ac. jp/NLP_Portal/ NLP 2010 Tokyo University of Technology 5

語の重要度の計算法 • tf・idf法 NLP 2010 Tokyo University of Technology 10

語の重要度の計算法 • tf・idf法 NLP 2010 Tokyo University of Technology 10

tf・idf法の考え方(2) キーワード 文書 言語 Doc 1 Doc 3 コンピュータ Doc 1 Doc 2 問題

tf・idf法の考え方(2) キーワード 文書 言語 Doc 1 Doc 3 コンピュータ Doc 1 Doc 2 問題 Doc 1 Doc 2 Doc 3 Doc 4 情報 Doc 2 Doc 3 Doc 4

tf・idf法の考え方(3) TF Doc 1 DOc 2 Doc 3 Doc 4 IDF 言語 2 0

tf・idf法の考え方(3) TF Doc 1 DOc 2 Doc 3 Doc 4 IDF 言語 2 0 1 0 2 コンピュータ 1 1 0 0 2 問題 2 2 3 1 1 情報 0 1 2 1 1. 3

tf・idf法の考え方(4) TF・IDF Doc 1 Doc 2 Doc 3 Doc 4 言語 4 0 2

tf・idf法の考え方(4) TF・IDF Doc 1 Doc 2 Doc 3 Doc 4 言語 4 0 2 0 コンピュータ 2 2 0 0 問題 2 2 3 1 情報 0 1. 3

検索モデル • ブーリアンモデル(Boolean model) • ベクトル空間モデル NLP 2010 Tokyo University of Technology 15

検索モデル • ブーリアンモデル(Boolean model) • ベクトル空間モデル NLP 2010 Tokyo University of Technology 15

コサイン尺度 NLP 2010 Tokyo University of Technology 18

コサイン尺度 NLP 2010 Tokyo University of Technology 18

例: • 教科書p. 143参照 NLP 2010 Tokyo University of Technology 19

例: • 教科書p. 143参照 NLP 2010 Tokyo University of Technology 19

検索結果の評価式 • 適合度(精度, Precision) • 再現率(Recall) PとRの調和平均Fをとる。 NLP 2010 Tokyo University of Technology 20

検索結果の評価式 • 適合度(精度, Precision) • 再現率(Recall) PとRの調和平均Fをとる。 NLP 2010 Tokyo University of Technology 20

検索評価の練習 c b a d NLP 2010 Tokyo University of Technology 21

検索評価の練習 c b a d NLP 2010 Tokyo University of Technology 21