2015 Fiscal Year Annual Research Report
実用的な日本語格解析のための確率的日本語主辞駆動句構造文法に関する研究
Project/Area Number |
25280084
|
Research Institution | Ehime University |
Principal Investigator |
二宮 崇 愛媛大学, 理工学研究科, 准教授 (20444094)
|
Project Period (FY) |
2013-04-01 – 2018-03-31
|
Keywords | 自然言語処理 / 構文解析 / HPSG / 言語学 / 人工知能 |
Outline of Annual Research Achievements |
平成27年度は、日本語HPSGツリーバンクの詳細化による文法精緻化、格解析のための意味表現獲得、深層学習の性能評価実験を行った。 文法精緻化については、固有名を用いた日本語句構造の詳細化を行った。本研究で用いるコーパス指向文法開発手法において、より良い文法を得るためには精密な日本語句構造ツリーバンクを作成することが最も重要な課題となっている。本研究では、日本語係り受け解析コーパスである京都大学テキストコーパスを用い、文節に基づく係り受け構造を日本語HPSGのための句構造に変換することで、日本語HPSGツリーバンクを得ている。平成27年度は、格解析と固有名解析が与えられたNAISTテキストコーパスを用い、固有名の情報を用いて、句構造の詳細化を行った。文節構造と固有名の構造には一貫性がないが、固有名の構造を保った句構造に変換することに成功した。 意味表現獲得については、述語項構造のための分散表現獲得について研究を行った。近年、ニューラルネットワークを用いた単語に対する意味表現獲得の研究が盛んに行われており、低次元の密な実ベクトルによる意味表現は分散表現と呼ばれている。平成27年度は、格解析における述語項構造のための分散表現を獲得する手法を提案し、従来手法である加算式よりも高い精度を実現した。この研究成果は国際会議PACLIC 2015で発表した。 本研究ではより高い精度の格解析を実現するために、深層学習を用いることを検討している。平成27年度は、深層学習の性能評価のために、深層学習による評価分析および固有名解析の実験を行い、従来の機械学習手法よりも高い精度が実現されることがわかった。 平成27年度は、これらの研究を円滑に行うために計算機サーバーを購入し、上述の日本語HPSGツリーバンクの詳細化および述語項構造のための分散表現獲得、深層学習の評価実験に用いた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究目的の年度計画に従って日本語HPSG文法の開発と格解析の研究を進めている。日本語HPSG文法の開発については、プロトタイプシステムの開発において、固有名の構造と句構造に関する不一致の問題が明らかになったが、この問題については解決することができた。一方で、述語項構造と文法理論の関係についてはまだ明らかになっておらず、その理論化と実装が課題として残っている。 格解析については、単語や句の意味と関わる難しい課題となっており、確率モデルだけでは不十分であることがわかってきた。現在、格解析に深層学習と決定性解析を用いることを検討しており、現在までに、深層学習による述語項構造の意味表現獲得と、深層学習による評価分析と固有名解析の評価実験を行った。
|
Strategy for Future Research Activity |
平成28年度は、平成27年度までに開発した日本語格解析のためのプロトタイプシステムを拡充し、実データに対し解析することが可能な日本語格解析の実現を進める。日本語HPSG文法の開発については、NAISTテキストコーパスに付与されている述語項構造を句構造に反映するための理論化を行い、述語項構造が反映された日本語句構造ツリーバンクと文法を作成する。格解析については、現在、深層学習と決定性解析を用いて実現することを考えており、平成28年度は深層学習による表層格判定を行う。
|
Causes of Carryover |
平成27年度の研究成果に関して研究打ち合わせを行う予定であったが、先方の都合のため、平成28年度に行うことにした。
|
Expenditure Plan for Carryover Budget |
研究課題に関する研究打ち合わせのために旅費として用いる。
|