2004 Fiscal Year Annual Research Report
有限オートマトン近似に基づくロバストで高速な漸進的構文解析手法の開発とその評価
Project/Area Number |
15300044
|
Research Institution | Nagoya University |
Principal Investigator |
小川 泰弘 名古屋大学, 大学院・情報科学研究科, 助手 (70332707)
|
Co-Investigator(Kenkyū-buntansha) |
稲垣 康善 愛知県立大学, 情報科学部, 教授 (10023079)
外山 勝彦 名古屋大学, 大学院・情報科学研究科, 助教授 (70217561)
松原 茂樹 名古屋大学, 情報連携基盤センター, 助教授 (20303589)
MUHTAR Mahsut 名古屋大学, 大学院・国際開発研究科, 助手 (20283517)
大久保 弘崇 愛知県立大学, 情報科学部, 助手 (40295580)
|
Keywords | 自然言語処理 / 構文解析 / 有限オートマトン / アルゴリズム / 同時通訳 / 音声言語 / コーパス / 文脈自由文法 |
Research Abstract |
本研究では,音声入力と同程度の速度で処理できる高速な漸進的構文解析技術の開発を目的とする。文脈自由文法を有限オートマトンに近似変換することにより,漸進性を備えた解析の高速化を計る。上述の目標を達成するために、今年度は,構文解析システムの実装及び評価を推進した。有限オートマトン近似ができれば,解析時には言語入力に対応してオートマトン上の弧をたどるだけでよく,効率のよい,しかも近似性のゆえにロバストな漸進的解析が実現できる。解析実験には、前年度に作成した構文木付き言語コーパスを使用し,文法規則の使用頻度等を適切に反映できる統計的手法に基づく近似変換手法を開発するというアプローチを採用した。具体的には、下記の研究を実施した。 (1)開発した有限オートマトン近似手法のアルゴリズム化を実施した。本研究の有限オートマトン近似法は,状態を結ぶ弧の数が数千万個の膨大なサイズのデータを扱うものである。データを効率よくコンピュータ上のアルゴリズムに変換する手法を開発した。 (2)構文解析システムを設計し、Linux PC上に実装した。具体的には、文法獲得,有限オートマトン近似,及び,構文解析のシステムを作成した。実用的な解析の実現のために,数千万〜数億個程度の弧からなる有限オートマトンを実現している。 (3)多言語に対して本手法の評価を実施した。標準テストセットを使って,英語,日本語,タイ語での構文解析実験を行った。その結果に対して,精度,時間,構文木の数や形態など,多角的な観点からの本解析手法の比較評価を進めた。また,言語の種類と変換手法・文法記述などとの関係を明らかにし,言語に最適な解析方式について検討するとともに,その項目の研究へのフィードバックに努めた。
|
Research Products
(7 results)