研究分担者 |
松原 茂樹 名古屋大学, 情報連携基盤センター, 助教授 (20303589)
外山 勝彦 名古屋大学, 大学院・情報科学研究科, 助教授 (70217561)
稲垣 康善 愛知県立大学, 情報科学部, 教授 (10023079)
大久保 弘祟 愛知県立大学, 情報科学部, 助手 (40295580)
MUHTAR Mahsut 名古屋大学, 大学院・国際開発研究科, 助手 (20283517)
|
研究概要 |
本研究では,音声入力と同程度の速度で処理できる高速な漸進的構文解析技術の開発を目標とする.文脈自由文法を有限オートマトンに近似変換することによって,漸進性を保証すると共に解析の高度化を計る. 上述の目標を達成するために、初年度は,下記の研究を実施した. (1)対訳コーパスの整備 データベースの構築では,文部科学省COE形成プログラム名古屋大学統合音響情報研究拠点で収録された同時通訳対話コーパスを使用した.これは,英語話者と日本語話者との対話音声を大量に収集し,文字化及び翻訳を施した大規模言語データである.24時間分の日本語データ,及びその英語対訳データを使用し,句構造文法の形式で構文木データを付与した.データフォーマットは,Penn Treebankの形式に準拠した基準を設けた. (2)構文木付き大規模コーパスからの統計情報の獲得 構文木を付与した言語コーパスから,各種統計情報を獲得するための手法について検討した.構文木における文法規則の出現位置を調べ,その文脈情報とともに記述することにより,それを統計的に分析した.文脈情報としては,構文木における周辺の節点や深さ,絶対的位置を統合的に活用して定義した. (3)有限オートマトン近似変換手法 文脈自由文法から有限オートマトンに変換する手法を開発した.変換では,文脈自由文法を再帰遷移ネットワークの形式で表現し,それらを下降的に展開することによってオートマトンを作成した.確率計算にしたがって使用頻度の高い弧を優先的に展開するアルゴリズムを開発した.メモリサイズが一定のもとで,最も高精度な解析を実行可能なオートマトンを作成するために,弧や節点の併合やオートマトンの簡単化を試みた. (4)漸進的構文解析法の評価法 漸進的構文解析法の評価手法を開発した.構文解析ツールが課せられている達成目標に対して必要な性能パラメータを分析することにより定めた.
|