2002 Fiscal Year Annual Research Report
日本語ゼロ代名詞の先行詞の自動同定アルゴリズムに関する基礎研究および機械翻訳等の文書処理への実装
Project/Area Number |
02F00348
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授
|
Co-Investigator(Kenkyū-buntansha) |
NARIYAMA Shigeko 奈良先端科学技術大学院大学, 情報科学研究科, 外国人特別研究員
|
Keywords | 省略 / ゼロ代名詞 / 機械翻訳 |
Research Abstract |
英語で必須の情報である「誰が何を」などの情報が日本語では往々にして表現されない。そのため機械翻訳(日本語→英語)システム開発において、ゼロ代名詞(誰が何をなどの省略)の先行詞を同定する事は一つの大きな問題となっている。その解決策として、文法や文脈を考慮したアルゴリズムを考案したが、その実装と有用性評価が研究目的。 新聞と雑誌のコーパス(言語データ)を分析した結果、アルゴリズムの精度の高さは確認できたが、以下の改良点もみつかった。 1.文脈に出現しない先行詞 現アルゴリズムは先行詞を同定するように構成されているが、一般的なことを述べた文には特定の先行詞が存在しない。例えば、「年をとると、忘れっぽくなる。」のような文でも、現アルゴリズムは先行詞を同定してしまう。これを原因とする誤りは、6.6%であった。この問題は新聞にはあまり出現しないが、雑誌には現れる。今後の対策としては、一般的なことを述べた文なのか、特定の先行詞が存在するのか、文型や文法面から区別する研究する予定。 2.2つのtopicの出現 現アルゴリズムは、話題の中心人物/出来事(topic)1つを要として構成されているが、時には同時に/交互に2つのtopicが現れる問題がある。この原因による誤りは、3.3%であった。何らかの対策が今後の課題である。 3.数の不一致 これは、機械翻訳の時問題になるが、英語では複数/単数の概念が文法化されているため、表示されなければならないが、日本語はそうではない。例えば、"I"しか文中に現れなくても、文脈から"we"の方が適訳のケースが3.9%あった。現アルゴリズムでは、主に文中に明記されたものだけ考慮するようにできているため、これも今後の課題である。 今後の課題は、上記の点を考慮するようアルゴリズムを改良し、このアルゴリズムを搭載した自動翻訳システムを作り、種々のコーパスでその有用性をテストする。
|
Research Products
(1 results)