2006 Fiscal Year Annual Research Report
Project/Area Number |
17500163
|
Research Institution | Musashi Institute of Technology |
Principal Investigator |
上原 徹三 武蔵工業大学, 工学部, 教授 (60257102)
|
Co-Investigator(Kenkyū-buntansha) |
荒井 秀一 武蔵工業大学, 工学部, 助教授 (20212590)
清水 由美子 武蔵工業大学, 工学部, 助教授 (30298020)
|
Keywords | 自然言語処理 / 日本語情報処理 / 機械翻訳 / 文法情報 / 辞書 / コーパス / 格フレーム情報 / 結合価情報 |
Research Abstract |
実施事項は次の通りである。 1.実施計画の第1点である、現代語の文法知識を利用した古典文の現代文への変換 平安時代の古典仮名文から現代文への変換において、古語辞典から得る訳語への単純な変換での問題点である、多義語の訳語の選択と、省略助詞の現代語助詞への変換を、訳語動詞の格フレーム辞書と訳語名詞の概念辞書によって部分的に解決する方法を実現した。処理手順は次の通りである。 (1)単語分け・品詞付けされた古典文の単語列の読込みと、前処理(特定の単語対を一単語にまとめるなど)。 (2)上で得た各々の古語単語を、古語辞典の訳語候補に変換(訳語候補は複数個あり得る)。 (3)訳語候補中の動詞の格フレーム(動詞に係り得る名詞の概念と格助詞の記述)と名詞概念とを現代語辞書から取得。この組合せにより得られる訳文候補(原文の各単語に対する訳語候補の列)の作成とその評価。 (4)訳文候補の単語列の中で、現代文として不自然な単語対を一部変更する後処理。 2.実施計画の第2点である、古典コーパスからの単語情報の獲得(昨年度の見直しで変更した) 前年度の検討で、使用する古語辞典には、固有名詞が不足であり、現代語としても同義で使われる単語も少ないという問題が判明した。そこで、未登録語の中で、古文コーパスの高頻度語を古語辞典に追加した。その際、古語としての品詞・活用情報をコーパスから反映し、固有名詞についてはその概念情報(「場所」・「人間」など)を古語辞典に収容して格フレーム処理時に使用した。 3.評価実験及び検討 「伊勢物語」による評価実験を実施した。その結果と今後の課題の主なものは次の通りである。 (1)「伊勢物語」から100文を選んで実験した。その中で60文については全動詞の格フレームが得られた。そのうち、動詞と名詞の訳語を正しく選択し省略助詞を正しく補えた文は42文であった。本処理法では、副詞や接続詞など他の品詞の多義は解消できないが、他の用言(形容詞・形容動詞)に適用可能である。 (2)今回の処理では、複数動詞を含む文での名詞との係り受け候補を網羅して最良候補を選ぶことはしていない。また、連体形動詞が係る名詞がその動詞の格要素の役割を果たす可能性を考慮していない。動詞以外の用言の格パターンを扱っていない。さらに他品詞の多義単語の扱い方は未検討である。これらは今後の課題である。
|