2011 Fiscal Year Annual Research Report
大域情報を利用した同時処理による自然言語解析手法の研究
Project/Area Number |
23240020
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)
|
Co-Investigator(Kenkyū-buntansha) |
新保 仁 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90311589)
浅原 正幸 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80379528)
小町 守 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (60581329)
|
Keywords | 自然言語処理 / 形態素解析 / 統語解析 / 述語項構造解析 / 機械学習 / 言語資源 / 同時処理 / 大域情報 |
Research Abstract |
従来,自然言語処理分野で行われていた様々なレベルの解析を独立に行なうのではなく,同時に行なう手法,さらに,局所的な情報だけに頼るのではなく,大域的な情報を利用した解析手法を実現することを目的として研究を行った.形態素解析およびその上位の固有表現認識や統語解析との同時最適化を実現するため,本年度は,機械学習に基づく形態素解析と浅い統語解析のパラメータを同時学習する手法を提案した.係り受け解析と並列構造解析の同時処理については,並列構造を知ることが係り受け解析の誤り訂正にどの程度貢献できるかを実験によって確認し,効果的なアノテーション作業への道筋を明らかにした.述語項構造解析については,大規模コーパスから得られる述語の項に関する情報の利用について研究を行った.また,複数の項の値の同定を同時に行なう手法について研究を行い,成果を得た.単語の使用文脈の関係に基づく意味的類似度の計算については,文脈ベクトルに基づく類似度として類似度行列上のカーネルを用いているが,ベクトルが高次元の場合に生じる問題としてハブとなる点の存在が問題になることが明らかになった.その性質の解明について研究を行った. これらの研究の基本データとなるタグ付きコーパスを構築するため,日本語係り受けと述語項構造のアノテーション作業を行った.また,タグ付きコーパスを格納するコーパス管理ツールに次のような機能拡張を行った.一つは,係り受け解析と並列構造解析を重ねて表示するインタフェースの構築,もう一つは,このツールから係り受け解析システムを呼び出して文あるいは文の一部を再解析させる機能である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度予定していた研究の多くについて,計画通りの進展があった,一部の研究,例えば類似度計算,については,外部発表を行なうまでの成果を得ていないが,解決すべき問題を明らかにするという進捗があった.一方,述語項構造解析については,述語間の関係や複数の項の同時推定,項同定とラベル同定の同時処理など,当初計画以上の研究を行い,成果を挙げることができた.
|
Strategy for Future Research Activity |
今年度の研究では取り扱わなかった浅い統語解析と文全体の解析,全域的な情報と局所的な情報の相補的あるいは同時利用,統語解析と述語項構造解析等の意味解析との同時解析へ研究を進展させて行く.本研究や関連研究で利用可能なタグ付きコーパスの構築と,種々の解析の同時処理を利用した効率良いタグ付きコーパスの構築法を明らかにして行く.
|
Research Products
(7 results)