2003 Fiscal Year Annual Research Report
有限オートマトン近似に基づくロバストで高速な漸進的構文解析手法の開発とその評価
Project/Area Number |
15300044
|
Research Institution | Nagoya University |
Principal Investigator |
小川 泰弘 名古屋大学, 大学院・情報科学研究科, 助手 (70332707)
|
Co-Investigator(Kenkyū-buntansha) |
松原 茂樹 名古屋大学, 情報連携基盤センター, 助教授 (20303589)
外山 勝彦 名古屋大学, 大学院・情報科学研究科, 助教授 (70217561)
稲垣 康善 愛知県立大学, 情報科学部, 教授 (10023079)
大久保 弘祟 愛知県立大学, 情報科学部, 助手 (40295580)
MUHTAR Mahsut 名古屋大学, 大学院・国際開発研究科, 助手 (20283517)
|
Keywords | 自然言語処理 / 構文解析 / 有限オートマン / アルゴリズム / 同時通訳 / 音声言語 / コーパス / 文脈自由文法 |
Research Abstract |
本研究では,音声入力と同程度の速度で処理できる高速な漸進的構文解析技術の開発を目標とする.文脈自由文法を有限オートマトンに近似変換することによって,漸進性を保証すると共に解析の高度化を計る. 上述の目標を達成するために、初年度は,下記の研究を実施した. (1)対訳コーパスの整備 データベースの構築では,文部科学省COE形成プログラム名古屋大学統合音響情報研究拠点で収録された同時通訳対話コーパスを使用した.これは,英語話者と日本語話者との対話音声を大量に収集し,文字化及び翻訳を施した大規模言語データである.24時間分の日本語データ,及びその英語対訳データを使用し,句構造文法の形式で構文木データを付与した.データフォーマットは,Penn Treebankの形式に準拠した基準を設けた. (2)構文木付き大規模コーパスからの統計情報の獲得 構文木を付与した言語コーパスから,各種統計情報を獲得するための手法について検討した.構文木における文法規則の出現位置を調べ,その文脈情報とともに記述することにより,それを統計的に分析した.文脈情報としては,構文木における周辺の節点や深さ,絶対的位置を統合的に活用して定義した. (3)有限オートマトン近似変換手法 文脈自由文法から有限オートマトンに変換する手法を開発した.変換では,文脈自由文法を再帰遷移ネットワークの形式で表現し,それらを下降的に展開することによってオートマトンを作成した.確率計算にしたがって使用頻度の高い弧を優先的に展開するアルゴリズムを開発した.メモリサイズが一定のもとで,最も高精度な解析を実行可能なオートマトンを作成するために,弧や節点の併合やオートマトンの簡単化を試みた. (4)漸進的構文解析法の評価法 漸進的構文解析法の評価手法を開発した.構文解析ツールが課せられている達成目標に対して必要な性能パラメータを分析することにより定めた.
|
Research Products
(6 results)
-
[Publications] 大原 誠: "同時通訳を介した異言語間対話の時間的特長--逐次通訳との比較に基づく対訳コーパスの分析"通訳研究. 3. 35-53 (2003)
-
[Publications] Koichiro Ryu: "Bilingual Speech Dialogue Corpus for Simultaneous Machine Interpretation Research"Proceedings of Oriental International Coordinating Committee on Speech Databases and Speech I/O System Assessment. 217-224 (2003)
-
[Publications] Tomohiro Ohno: "Spiral Construction of Syntactically Annotated Spoken Language Corpus"Proceedings of IEEE International Conference on Natural Language Processing and Knowledge Engineering. 477-483 (2003)
-
[Publications] Makoto Ohara: "Automatic Extraction of Translation Patterns from Bilingual Legal Corpus"Proceedings of IEEE International Conference on Natural Language Processing and Knowledge Engineering. 150-157 (2003)
-
[Publications] Yuki Irie: "An Advanced Japanese Speech Corpus for In-car Spoken Dialogue Research"Proceedings of Oriental International Coordinating Committee on Speech Databases and Speech I/O System Assessment. 209-216 (2003)
-
[Publications] Itsuki Kishida: "Construction of an Advanced In-Car Spoken Dialogue Corpus and its Characteristic Analysis"Proceedings of 8th European Conference on Speech Communication and Technology. (2003)