2004 Fiscal Year Annual Research Report
日本語ゼロ代名詞の先行詞の自動同定アルゴリズムに関する基礎研究および機械翻訳等の文書処理への実装
Project/Area Number |
02F02348
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授
|
Co-Investigator(Kenkyū-buntansha) |
NARIYAMA Shigeko 奈良先端科学技術大学院大学, 情報科学研究科, 外国人特別研究員
|
Keywords | 省略 / ゼロ代名詞 / 機械翻訳 / 照応 |
Research Abstract |
「研究目的」 日本語では「誰が何を」などの情報が往々にして表現されない。しかし、この情報は自動要約、質疑応答などの様々な言語処理アプリケーションの高度化に必要になる。特に、機械翻訳(日本語→英語)システム開発においては、それらの省略された情報(ゼロ代名詞)が英語で必須であるため、その先行詞を同定する事は一つの大きな課題となっている。その解決策として、文法や文脈を考慮したアルゴリズムを考案したが、その実装と有用性評価が研究目的。 「研究実績」 新聞90記事を使用し、ガ格、ヲ格、ニ格のゼロ代名詞の先行詞を自動同定する実験の結果と改良点 □実装結果:アルゴリズムの内容が全てプログラム化されていないため、ここでは精度よりも、実験から得れた知見について述べる。 1.26.6%(24/90)記事は、全てのゼロ代名詞の先行詞の同定が正しく行われていることから、提唱しているアルゴリズムは省略の基本は掴んでおり、その有用性はあるといえる。 2.不正解の原因は、1の結果からすると、著者による書体の違いからくる文体(文型)と省略度合いにも起因しているといえる。つまり、省略を誘発する要因は、統語、意味、文脈、分野の専門知識、世界知識に大きく分かれ、右の要因ほど機械処理には困難になる。人にとっても、理解により多くの推論が必要になり、文が曖昧になる。しかし、著者により統語的な省略だけにとどめる人もいれば、それ以外の要因で推論できるものも省略する人もおり、その度合いに大きな個人差がある。1での結果に、これが顕著に現れていると考えられる。 □改良点と今後の課題 3.2への対策:エラーや個人的書体とゼロ代名詞使用のヴァリエーションへの対策 4.今回の分析で、異なる主語を誘発する動詞があることが判明。これにより、この部分にかんしては、先行詞の同定に世界知識などに頼らなくても機械的に処理することができるようになる。該当する動詞のリスト作成が必要。 5.省略の有無(必須情報)の明確な定義付け 動詞の選択制限だけではなく、共起する名詞句の意味制約も関連し、また、先行詞が不特定だったり一般である時には、先行詞を同定する必要が感じられない。
|