2006 Fiscal Year Annual Research Report
多言語コーパスを利用した語義の瞹昧さ解消と続報記事抽出への適用
Project/Area Number |
17500091
|
Research Institution | University. of Yamanashi |
Principal Investigator |
福本 文代 山梨大学, 大学院医学工学総合研究部, 助教授 (60262648)
|
Keywords | 語義 / コンパラブルコーパス / 続報記事 / 半教師付きクラスタリング / 多言語コーパス |
Research Abstract |
本研究では,多言語(英語,日本語,韓国語,中国語)から成るコンパラブルな報道記事コーパスに注目し, (1)話題の推移を示す動詞単語の多義を解消する (2)解消された多言語コーパスから正の事例に関連する事例を高精度で抽出する (3)正の事例を用いて大量の負の事例を細分類する (4)(2)と(3)の結果を用いてユーザが指定した出来事に関する話題の推移を高精度で抽出し,提示することを目的とする.本年度の研究実績上記(3),及び(4)であり,具体的には以下の通りである. 3.多言語を用いて抽出された正の事例を用いて大量の負の事例を再分類する. 3-1.k-means + EMアルゴリズムを利用した負事例の分類 3-2.分類数を決定するための評価関数BICの導入 4.ユーザが指定した出来事に関する話題の推移を高精度で抽出し,提示する. 4-1.前年度実施した多言語コーパスからの対訳語抽出結果を用いた対訳文書の抽出 4-2.上記3の手法を用いた訓練データの精製j4-3.出来事に関する続報記事の抽出 上記手法を英日のコンパラブルコーパスに適用し,英語に関する正の事例と対となる各言語の事例を抽出した.なお各データは,英語としてReuters'96,TDT3,4のデータ,日本語は毎日新聞と読売新聞を用いた.日本語データについては,TDT3,及び4の報道機関に限定し,TDTで定義されている出来事を含むそれぞれの続報記事を研究補助者2名の協力を得,評価データを作成した.手法の評価では,前年度実施した名詞単語クラスの有効性,動詞単語に関する多義解消の有効性の検証に加え,新たに多言語コーパス利用の有効性を検証するため,(i)コンパラブルコーパスの個数による精度比較を行うことで,続報記事抽出に有効な正の事例に関する抽出の効果を検証した.これらを成果報告として論文にまとめ,公開した.
|
Research Products
(3 results)