2012 Fiscal Year Annual Research Report
大域情報を利用した同時処理による自然言語解析手法の研究
Project/Area Number |
23240020
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)
|
Co-Investigator(Kenkyū-buntansha) |
新保 仁 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90311589)
小町 守 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (60581329)
DUH Kevin 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80637322)
|
Project Period (FY) |
2011-04-01 – 2014-03-31
|
Keywords | 自然言語処理 / 形態素解析 / 統語解析 / 機械学習 / 言語資源 |
Research Abstract |
係り受け解析に基づく統語解析の高性能化のため,ボトムアップ的な情報とトップダウン的情報の同時利用に関する研究を行い,両者の情報を融合できる新しい手法の提案を行った.また,遷移に基づく決定的な係り受け解析の誤りの伝搬を除去するため,後戻りなしに解析誤りを修正しつつ解析を継続する手法を,グラフデータマイニングのアルゴリズムを利用して実現する方法について研究し,従来手法の欠点を補う手法を提案した. 言語学習者による誤りを含む可能性のある文の誤り検出・修正を可能にする言語解析手法に関する研究を行った.英語の綴り誤り訂正と品詞解析を同時に行う手法を提案し,これらの処理を逐次的に行う従来手法より誤り訂正効率を向上できることを示した.また,学習者の作文に生じる動詞のテンス・アスペクトに関する誤りを修正するため,文書全体の大域的な情報を利用する方法を提案し,個々の文に現れる動詞の誤りを個別に検出・訂正するよりも良好な結果が得られることを示した. 単語を言語解析の基本要素とする従来の文解析法の性能を向上させるため,複数の語がまとまって役割や意味をもついわゆる多単語表現の英語辞書の構築と,それを用いた英語の品詞解析の方法を提案した.本年度は機能語として働く多単語表現辞書,および,英語の共通データであるPenn Treebankへの多単語表現のアノテーションコーパスの構築を行った.同時に,この辞書とコーパスを利用して,英語の品詞解析システムの試作を行い,解析精度の向上を確認した.また,英語の統語解析精度の向上を目指し,英語の複文パターンの調査を行い,特に,埋め込み文に関係する300程度のパターンの抽出を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
形態素(品詞)解析,および,統語解析においては,大域的な情報の利用および複数の処理の同時処理において,当初の計画以上の成果を得ることができた. 並列構造の解析,および,述語項構造解析と統語解析との同時処理については,継続して研究を行なっているが,研究発表として具体的な成果を得る結果をだすことができなかった.これらについては,引き続き次年度も研究を継続する予定である. 言語学習者が書いた誤りを含む可能性のある文の解析法の研究への展開は,当初は具体的な課題を設定していなかったが,誤り訂正と品詞解析の融合,および,動詞のテンス・アスペクト誤りへの大域的な情報の利用に関する具体的な成果を挙げることができた. 英語の多単語表現の辞書構築とそれを利用した英語の品詞解析手法,および,英語の複文構造のパターンの抽出に関しても,当初計画していた以上の成果を挙げることができた.
|
Strategy for Future Research Activity |
今後は,以下の項目に関して研究を実施する予定である. 形態素解析と係り受け解析の同時処理を対象に,大規模コーパスから自動的に大域的な情報を抽出し、解析精度を向上させる手法の開発に取り組む.また,表記誤りや表記のバリエーションなどの表層的な異表記に対応する処理と形態素解析の同時処理に関する研究を行う. 係り受け解析と並列構造解析の同時処理を実現するために,前年度に続き、系列アラインメントに基づく並列構造解析手法と従来の係り受け解析の同時処理を可能にする手法の研究を行う. 述語項構造解析において,大規模コーパスから獲得した事象の推移に関する知識と文書全体大域的な情報の利用,および,2つ以上の述語の項解析の同時最適化に関する研究を行う. 上記の様々なタスクの基本情報となる単語間の類似度尺度の計算法の研究を前年度に続いて行う.類似度計算において,対象単語を含む文を係り受け解析し,係り受け関係を利用した部分構造の類似度や,潜在意味クラスを用いることによって類似度の評価尺度を拡張する手法について研究を行う. 各タスクの基礎データの構築のため,様々な分野の言語データに対してアノテーション作業を行う.また,これまで開発してきたコーパスアノテーションツールを拡張し,本研究で開発する種々の言語解析ツールを,コーパスアノテーションツールから呼び出せる機能を追加する.これにより,自動解析ツールを手動によるアノテーション作業に有効に利用する方法を考案し,それを実現する環境の構築へとつなげる.
|
Research Products
(5 results)