研究課題
特別研究員奨励費
「研究目的」日本語では「誰が何を」などの情報が往々にして表現されない。しかし、この情報は自動要約、質疑応答などの様々な言語処理アプリケーションの高度化に必要になる。特に、機械翻訳(日本語→英語)システム開発においては、それらの省略された情報(ゼロ代名詞)が英語で必須であるため、その先行詞を同定する事は一つの大きな課題となっている。その解決策として、文法や文脈を考慮したアルゴリズムを考案したが、その実装と有用性評価が研究目的。「研究実績」新聞90記事を使用し、ガ格、ヲ格、ニ格のゼロ代名詞の先行詞を自動同定する実験の結果と改良点□実装結果:アルゴリズムの内容が全てプログラム化されていないため、ここでは精度よりも、実験から得れた知見について述べる。1.26.6%(24/90)記事は、全てのゼロ代名詞の先行詞の同定が正しく行われていることから、提唱しているアルゴリズムは省略の基本は掴んでおり、その有用性はあるといえる。2.不正解の原因は、1の結果からすると、著者による書体の違いからくる文体(文型)と省略度合いにも起因しているといえる。つまり、省略を誘発する要因は、統語、意味、文脈、分野の専門知識、世界知識に大きく分かれ、右の要因ほど機械処理には困難になる。人にとっても、理解により多くの推論が必要になり、文が曖昧になる。しかし、著者により統語的な省略だけにとどめる人もいれば、それ以外の要因で推論できるものも省略する人もおり、その度合いに大きな個人差がある。1での結果に、これが顕著に現れていると考えられる。□改良点と今後の課題3.2への対策:エラーや個人的書体とゼロ代名詞使用のヴァリエーションへの対策4.今回の分析で、異なる主語を誘発する動詞があることが判明。これにより、この部分にかんしては、先行詞の同定に世界知識などに頼らなくても機械的に処理することができるようになる。該当する動詞のリスト作成が必要。5.省略の有無(必須情報)の明確な定義付け動詞の選択制限だけではなく、共起する名詞句の意味制約も関連し、また、先行詞が不特定だったり一般である時には、先行詞を同定する必要が感じられない。
すべて 2005 2004
すべて 雑誌論文 (4件)
The Annual conference of the German Linguistics Society, Workshop on ‘Lexical encoding of implicit information' (発表予定)
Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics : ACL-2004. Workshop on ‘Reference resolution and its applications' 2004
ページ: 63-70
Proceedings of the First International Joint Conference on Natural Language Processing (IJCNLP-04) (印刷中)
110002911669
Proceedings of the 5th International Workshop on Linguistically Interpreted Corpora
ページ: 7-10