研究課題/領域番号 |
11680422
|
研究機関 | 武蔵工業大学 |
研究代表者 |
上原 徹三 武蔵工業大学, 工学部, 教授 (60257102)
|
研究分担者 |
清水 由美子 武蔵工業大学, 環境情報学部, 助教授 (30298020)
荒井 秀一 武蔵工業大学, 工学部, 助教授 (20212590)
|
キーワード | 日本語処理 / 自然語処理 / コーパス / 文法 |
研究概要 |
平安時代の仮名文の解析に関し、本年度は文法規則の設定とその解析評価を行う予定であった。しかし、文法規則の設定はコーパスで確認しつつ繰返し試行すべきと判明した。そこで、文法規則を外から与える解析機能の試作、および、前年度までに試作したコーパス参照ツールの高速化を重点とした。以下、他の項目を含む実施項目全体の内容を記す。 1.構文規則の変更可能な古文係り受け解析 解析対象を品詞情報つき単語列の文とし、文節の係り受け特性の設定規則、2文節が係り受け関係を持つための係り受け特性上の条件、および、ある種の副詞の呼応規則から成る制約規則と、動詞の結合価パターンに基づく優先規則とを共に外部から与える。同格構文と係り結びの規則は内蔵したがこれらの使用/不使用の指定を可能とした。本機能を試作し古典文に適用して機能確認した。古典文解析への本格的な適用評価は今後の課題とする。 2.EDR日本語コーパス参照支援ツールの高速化 前に試作したコーパス参照支援ツールは全件探索のため応答性の問題があった。そこで高速化を目的として、単語の品詞と表記に関してコーパス上の出現位置を与える索引を作成し、それによって探索する機能をツールに追加した。EDRコーパスに適用した結果、索引語と例文番号リストが品詞用に約2.6MB、表記用に約6.5MBで実現され、品詞の参照性能が2倍から10倍程度(出現頻度による)に向上した。 3.古典文コーパスの作成 平安時代の歌物語3編(伊勢、大和、平中)と日記5編(土佐、蜻蛉、和泉式部、紫式部、、更級)の総索引の電子化文書版をもとに、品詞タグ付コーパスをEDRコーパスと同形式で作成する実験を行った。 4.古語辞典による古典語の概念推定方法 単語の概念辞書は文の構文解析にも重要だが古典語には存在しない。そこで、古語辞典の与える複数の現代語訳の概念情報を元に古典語の概念推定方法を提案し評価した。
|