Research Abstract |
本研究では,多言語(英語・日本語・韓国語・中国語)から成るコンパラブルな報道記事コーパスに注目し, (1)話題の推移を示す動詞単語の多義を解消する (2)解消された多言語コーパスから正の事例に関連する事例を高精度で抽出する (3)正の事例を用いて大量の負の事例を細分類する (4)(2),及び(3)の結果を用いてユーザが指定した出来事に関する話題の推移を高精度で抽出し,提示する ことを目的とする. 本年度は,(2)においては,多言語コーパスの対応づけとして,N-gramモデルを用いて,辞書に記載されていない対訳語を自動的に抽出する手法を提案した.具体的には,英語と日本語それぞれのコーパスに対して,N-gram統計モデルを適用することで,複合名詞を認識した.次に複合名詞で置き換えたコーパス中の単語に対して,カイ2乗を適用し,その値が高い英単語と日本語単語の組を抽出することで,半自動で対訳語を抽出した.さらに,対訳語で置き換えたコンパラブルコーパスに対して,余弦尺度を適用することで,英文記事と意味的に類似した日本語記事を抽出することで正の英語事例に関連する日本語事例を足し合わせることで,続報記事を高精度で抽出することに成功している.現在,複合名詞については,毎日新聞14年分,Reuters'96の1年分の記事を利用することで,抽出が終了している.また,対応記事とそれを用いた続報記事の抽出においては,TDT3コーパスと毎日新聞を用いた定量的な評価を試みている.さらに現在は,タイトル情報を利用した正の事例に関連する事例抽出の高精度化を図っている.(3)においては,K-means+EMアルゴリズムを用いることで負例の記事を細分類する手法の提案を行った.(3)に関してもTDT3コーパスを用いた定量的な評価を行っている.今後は,多言語として中国語,及び韓国語に対して提案手法を適用することで,多言語に対する定量的な評価を行う予定である.
|