2002 Fiscal Year Annual Research Report
既存の言語資源からの大規模語彙的言い換え知識の自動抽出
Project/Area Number |
13780293
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
乾 健太郎 奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (60272689)
|
Keywords | 語彙的言い換え / 同概念語 / 語釈文 / 動詞と名詞の共起 / 統計的共起尺度 / 言い換え後の修正処理 / 統計的自然言語処理 |
Research Abstract |
語彙的言い換えは,入力文中の語句を同じ意味を持つ別の語句に置換する作業である.ただし,実際には,文脈に無関係に置換可能な言い換え対はほとんど存在しないため,与えられた言い換え対が置換可能かどうかを所与の文脈に照らして評価する機構が必要になる.本研究では,語彙的言い換えの方法として,同概念語への言い換えと国語辞典の語釈文への言い換えの二つを検討し,実験によって評価機構の有効性を経験的に評価した. 初年度は,言い換え事例約1000件を分析し,言い換え後の文に対する適格性評価の項目と修正処理を分類・整理した.得られた知見は以下の通りである. (a)もっとも頻度が高かったのは活用の誤りだが,これの解決は難しくない. (b)次に多かったのは,動詞と格要素の共起が不適格なケースである.第2年度に解決を試みた. (c) (c)と同様に多かったのは,言い換え前の語が多義であり,誤った言い換え対を選択したケースである.しかし,これらの約半数は(b)と同様の方法で解決できることがわかった. (d)その他の問題は上の3種類に比べると頻度がかなり少なかった. 以上の観察に基づいて,第2年度は,主として上記(b)の問題にとりくんだ.具体的には,20年分の新聞記事コーパスから<名詞,助詞,動詞>の共起事例を大量に収集し,それを正例の訓練データとした.また,評価対象とする名詞と動詞を頻度に基づいて制限し,この制限を満たす言い換え事例約5000件を人手で評価し,負例を収集した.解くべき問題は,こうして収集した大量の正例と少数の負例を訓練事例として,言い換え後の文に含まれる<名詞,助詞,動詞>の共起の適格性を判定することである.実験結果から,大量の正例から統計的に適確性を推定するモデルと,入力と負例との類似度に基づいて不適格性を推定するモデルを組み合わせることによって,精度の高い判別器が得られることがわかった.
|
Research Products
(4 results)
-
[Publications] 藤田篤, 乾健太郎, 松本裕治: "平易な表現への言い換えに必要なテキスト修正処理"第65回情報処理学会全国大会予稿集,特別トラック. 1T6-4. 5-299-5-304 (2003)
-
[Publications] 藤田篤, 乾健太郎: "語彙的言い換えに必要な知識の部品化"情報処理学会自然言語処理研究会予稿集. NL-149-5. 31-38 (2002)
-
[Publications] Takahashi Tetsuro, Iwakura Tomoya, Iida Ryu, Fujita Atsushi, Inui Kentaro: "KURA : A transfer-based lexico-structural paraphrasing engine"Proceedings of the NLPRS-2001 Workshop on Automatic Paraphrasing : Theories and Applications. 89-98 (2001)
-
[Publications] Inui Kentaro, Nogami Masaru: "A Paraphrase-Based Exploration of Cohesiveness Criteria"The 8th European Workshop on Natural Language Generation. 101-110 (2001)