2015 Fiscal Year Research-status Report
Project/Area Number |
15K16053
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
進藤 裕之 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (20734784)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 複単語表現 / 構文解析 |
Outline of Annual Research Achievements |
平成27年度は,複単語表現のコーパス作成と,複単語表現を漏れなく同定する手法の研究を行った. コーパス作成では,Wiktionaryという知識データベースから網羅的に複単語表現(2語以上の辞書項目)を抽出し,英語のOntoNotesコーパス(新聞記事データ)に対して正例か負例かのアノテーションを行った.複単語表現は様々な種類があり,Wiktionaryで取得できるものは,主に句動詞や機能表現である.一方,Wiktionaryに不足している複単語表現としては,not only ... but also ...のような文全体にまたがるパターンや,複合名詞などであることがわかった.これらの複単語表現に関しては,今後データマイニング手法を援用して大規模なテキストコーパスから半自動的に獲得し,複単語表現の辞書へ取り入れる必要がある. 複単語表現を漏れなく同定する手法に関しては,畳み込みニューラルネットワークを用いて品詞のタグ付けと複単語表現の同定を同時に行う手法を提案し,既存手法やルールベースの手法に対して精度面で優位であることを実証した.従来とは異なり,本手法では文字や単語に関わる特徴量を明示的に定義する必要がなく,ニューラルネットワークによって特徴量を自動的に獲得できるため,実装も容易で精度も高いことがわかった.今後は,本手法と構文解析手法とを組み合わせることによって,最終的に文から複単語表現および構文木を予測するモデルを構築する必要がある.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初計画していた二つの項目(コーパス作成と同定手法の考案)について,ほぼ計画通りに研究が進捗している.コーパス作成に関しては,一部の複単語表現に関してアノテーションが完了した.複単語表現の同定手法に関しては,ニューラルネットワークを用いた新たな手法を提案し,既存手法に対する優位性を示すことができた.
|
Strategy for Future Research Activity |
今度は,前年度に引き続き複単語表現の辞書作成およびコーパスの構築を進めていく.特に,Wiktionaryでは網羅できない種類の複単語表現に関して,どのようなデータベースまたはコーパスから辞書項目を収集するかが大きな課題である. また,複合語の同定と構文解析を統合して同時に実行できるモデルや手法の開発を推進していく予定である.これは,完全に同時に行う,細かいモデルに分けて最後に統合するなどのいくつかバリエーションが考えられるため,理論的,経験的の両側面から問題に合った方法を考案し評価実験を行っていく予定である.
|