研究概要 |
従来,自然言語処理分野で行われていた様々なレベルの解析を独立に行なうのではなく,同時に行なう手法,さらに,局所的な情報だけに頼るのではなく,大域的な情報を利用した解析手法を実現することを目的として研究を行った.形態素解析およびその上位の固有表現認識や統語解析との同時最適化を実現するため,本年度は,機械学習に基づく形態素解析と浅い統語解析のパラメータを同時学習する手法を提案した.係り受け解析と並列構造解析の同時処理については,並列構造を知ることが係り受け解析の誤り訂正にどの程度貢献できるかを実験によって確認し,効果的なアノテーション作業への道筋を明らかにした.述語項構造解析については,大規模コーパスから得られる述語の項に関する情報の利用について研究を行った.また,複数の項の値の同定を同時に行なう手法について研究を行い,成果を得た.単語の使用文脈の関係に基づく意味的類似度の計算については,文脈ベクトルに基づく類似度として類似度行列上のカーネルを用いているが,ベクトルが高次元の場合に生じる問題としてハブとなる点の存在が問題になることが明らかになった.その性質の解明について研究を行った. これらの研究の基本データとなるタグ付きコーパスを構築するため,日本語係り受けと述語項構造のアノテーション作業を行った.また,タグ付きコーパスを格納するコーパス管理ツールに次のような機能拡張を行った.一つは,係り受け解析と並列構造解析を重ねて表示するインタフェースの構築,もう一つは,このツールから係り受け解析システムを呼び出して文あるいは文の一部を再解析させる機能である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度予定していた研究の多くについて,計画通りの進展があった,一部の研究,例えば類似度計算,については,外部発表を行なうまでの成果を得ていないが,解決すべき問題を明らかにするという進捗があった.一方,述語項構造解析については,述語間の関係や複数の項の同時推定,項同定とラベル同定の同時処理など,当初計画以上の研究を行い,成果を挙げることができた.
|