研究分担者 |
稲垣 康善 愛知県立大学, 情報科学部, 教授 (10023079)
外山 勝彦 名古屋大学, 大学院・情報科学研究科, 助教授 (70217561)
松原 茂樹 名古屋大学, 情報連携基盤センター, 助教授 (20303589)
MUHTAR Mahsut 名古屋大学, 大学院・国際開発研究科, 助手 (20283517)
大久保 弘崇 愛知県立大学, 情報科学部, 助手 (40295580)
|
研究概要 |
本研究では、同時通訳機能を備えた多言語間翻訳技術を開発することを目的に、音声入力と同程度の速度で処理できる高速な漸進的構文解析技術の開発を目標としてきた。構文木付き言語コーパスを使用し,文法規則の使用頻度等を適切に反映できる統計的手法に基づく近以変換手法を開発するというアプローチを選択した。具体的には以下の項目の研究を推進した。 ○英語・日本語・タイ語のコーパス整備 名古屋大学統合音響情報研究拠点で収録された同時通訳対話コーパスを使用した。本研究では,このうち,24時間分の日本語データ,及びその英語対訳データを使用し,タイ語については,それに対する翻訳データを作成した。各言語コーパスに対して,句構造文法の形式で構文木データを付与した。 ○構文木付き大規模コーパスからの統計情報の獲得 構文木が付与された言語コーパスから,各種統計情報を獲得するための手法について検討した。構文木における文法規則の出現位置を調べ,その文脈情報とともに記述することにより,それを統計的に分析した。 ○有限オートマトン近似変換手法の開発 変換では,文脈自由文法を再帰遷移ネットワークの形式で表現し,それらを下降的に展開することによってオートマトンを作成した。展開方法として,確率計算にしたがって,使用頻度の高い弧を優先的に展開するアルゴリズムを開発した。 ○漸進的構文解析システムの設計及び実装 文法獲得,有限オートマトン近似,及び,構文解析のシステムを設計し,実装した.実用的な解析の実現のために,数千万〜数億個程度の弧からなる有限オートマトンを作成した。 ○構文解析の比較評価 ベンチマークを使って,英語,日本語,タイ語での構文解析実験を実施した。その結果に対して,精度,時間,構文木の数や形態など,多角的な観点からの本解析手法の比較評価を実施した。 2年間の研究を通し,文脈自由文法の有限オートマトン近似により,ロバストな漸進的構文解析手法の実現可能性を検証するとともに,解析の高速化への効果を確認することができた。
|