研究課題/領域番号 |
17500163
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
情報図書館学・人文社会情報学
|
研究機関 | 武蔵工業大学 |
研究代表者 |
上原 徹三 武蔵工業大学, 工学部, 教授 (60257102)
|
研究分担者 |
荒井 秀一 武蔵工業大学, 工学部, 助教授 (20212590)
清水 由美子 武蔵工業大学, 環境情報学部, 助教授 (30298020)
|
研究期間 (年度) |
2005 – 2006
|
研究課題ステータス |
完了 (2006年度)
|
配分額 *注記 |
1,800千円 (直接経費: 1,800千円)
2006年度: 700千円 (直接経費: 700千円)
2005年度: 1,100千円 (直接経費: 1,100千円)
|
キーワード | 自然言語処理 / 日本語情報処理 / 機械翻訳 / 文法情報 / 辞書 / コーパス / 格フレーム情報 / 結合価情報 / 係り受け関係 |
研究概要 |
1.現代語の文法知識を利用した古典文の現代文への変換法 平安時代の古典仮名文から現代文への変換において、古語辞典から得る訳語への単純な変換では、多義語の訳語の選択と省略助詞の現代文での助詞への変換とが問題である。これに対し、現代語のために開発された日本語辞書を用いた解決法を検討した。本方法では、EDR電子化辞書から、訳語動詞の格フレーム情報と訳語名詞の概念情報を用いて、多義の動詞・名詞の訳語の選択と、名詞の後の省略助詞の現代語格助詞への変換を目指す。その処理手順は次の通りである。 (1)単語分け・品詞付けされた古典文の読込みと前処理(特定単語対を一単語にまとめるなど)。 (2)上で得た各古語単語を、古語辞典の訳語候補に変換(訳語候補は複数個あり得る)。 (3)訳語動詞の格フレーム(取り得る名詞の概念と格の記述)と訳語名詞の概念を現代語辞書から取得。この組合せから得る訳文候補(原文の各単語に対する訳語候補列)の作成と妥当性評価。 (4)訳文候補の単語列の中で、現代文として不自然な単語対を一部変更する後処理。 実験結果の検討と今後の課題は次の通りである。 (1)「伊勢物語」から100文を選んで変換した結果の、ある個人による評価では、動詞と名詞の訳語を正しく選択し省略助詞を補えた文は42文であった。これは当初の期待を下回る。 (2)今回の処理では、一文内の複数の動詞・名詞対の係り受け候補を網羅して最良候補を選ぶ方法、連体形動詞が係る名詞がその動詞の格要素となる場合の処理を実現していない。改良が必要である。古語辞典の訳語が単語でなく句である場合を含め、辞書から格フレーム・概念が得られない場合が多数ある。格フレーム・概念情報の代替策として結合価データの利用も考えられる。さらに他品詞の多義単語の扱い方は未検討である。これらは今後の課題である。 2.古典コーパスからの単語情報の獲得 古典コーパス中の高頻度語で古語辞典に未登録の語を追加した。品詞・活用情報はコーパスのタグに依る。固有名詞、連語、現代語でも使用される語などから成る。
|