2003 Fiscal Year Annual Research Report
日本語ゼロ代名詞の先行詞の自動同定アルゴリズムに関する基礎研究および機械翻訳等の文書処理への実装
Project/Area Number |
02F00348
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授
|
Co-Investigator(Kenkyū-buntansha) |
NARIYAMA Shigeko 奈良先端科学技術大学院大学, 情報科学研究科, 外国人特別研究員
|
Keywords | 省略 / ゼロ代名詞 / 機械翻訳 / 照応 |
Research Abstract |
「研究目的」 日本語では「誰が何を」などの情報が往々にして表現されない。しかし、この情報は自動要約、質疑応答などの様々な言語処理アプリケーションの高度化に必要になる。特に、機械翻訳(日本語→英語)システム開発においては、それらの省略された情報(ゼロ代名詞)が英語で必須の情報であるため、その先行詞を同定する事は一つの大きな課題となっている。その解決策として、文法や文脈を考慮したアルゴリズムを考案したが、その実装と有用性評価が研究目的。 「研究実績」 新聞と雑誌のコーパス(言語データ)を分析した結果、さらに以下の改良点がみつかった。 1.特殊構文に現れる省略 一見省略がないように見える構文が2つある。「(Xに)山が見える」「(Xに)後継者ができた」のように「(Xは/に/が/で)Yが述語」の構文では、Xが省略されている。また、「(Xから)(Yに)電話があった。」の構文では、XとYが省略されている。新聞と雑誌のコーパスを分析した結果、12%の文がこの構文をとり、その内、X(またはY)が省略されるのは87%と頻度が高いことがわかった。よって、この2つの構文を他の文と見極める必要がある。動詞の意味属性が有益と考えられるが、他の要因も現在調査中。 2.引用文 引用文が文中に含まれる時、直接話法か間接話法かで先行詞が変化してしまう。 3.省略の有無 どこまでを省略(必須情報)とみなすか、厳格に見極めることは困難であるが必要である。 4.表層に依存した手法の問題点 自然言語は、人間が発するものであり必ず文法的に正しい文ではないこともある。また、複数の助詞が正しいとされる時があったり、反対に助詞が省略されていることもよくある。現手法は、表層(特に、助詞の種類)に依存し、表現されたものだけ頼りに文法で処理するため、このような問題への対処が不十分である。統計手法と兼ね合わせることに加え、何か、画期的な方法/視点が必要。 今後の課題は、上記の点を考慮しアルゴリズムを改良することにある。そして、このアルゴリズムを実装したシステムを作り、種々のコーパスでその有用性をテストする。
|
Research Products
(8 results)
-
[Publications] 成山重子: "口語英語に現れる主語省略の意図理解"人工知能学会 言語・音声理解と処理研究会. SIG-SLUD-A301. 13-18 (2003)
-
[Publications] 成山重子: "機械翻訳から見た主語"月刊言語 特集「日本語の主語を捉える」. Vol.33.No.2. 76-82 (2004)
-
[Publications] Shigeko Nariyama: "Resolving incognito ellipsis : treatment for constructions that disguise ellipsis"In Proceedings of Machine Translation Summit IX. IX. 261-268 (2003)
-
[Publications] Shigeko Nariyama: "A Japanese CALL program incorporating a machine translation system"In Proceedings of WorldCALL 2003. II. 163 (2003)
-
[Publications] Francis Bond, 藤田早苗, 橋本力, 笠原要, 成山重子, EricNichols, 大谷朗, 田中貴秋, 天野成昭: "日本語ツリーバンク「檜」:言語理解のためのコーパス"IPSJ SIG Technical Report. 2003-NLC-159. 75-82 (2004)
-
[Publications] Francis Bond, 藤田早苗, 橋本力, 成山重子, Eric Nichols, 大谷朗, 田中貴秋: "精細な文法に基づいたツリーバンク「檜」の構築"IPSJ SIG Technical Report. 2003-NLC-159. 91-98 (2004)
-
[Publications] Shigeko Nariyama: "Subject ellipsis in English"Journal of Pragmatics. Volume 36,Issue 2. 237-264 (2004)
-
[Publications] Shigeko Nariyama: "Ellipsis and reference tracking in Japanese [Studies in Language Companion Series vol.66]"John Benjamins. 415 (2003)