2019 Fiscal Year Research-status Report
Construction of Japanese Predicate-Argument Structure Dictionary for Natural Language Processing and Linguistic Analysis with Concordancer
Project/Area Number |
19K00552
|
Research Institution | Okayama University |
Principal Investigator |
竹内 孔一 岡山大学, 自然科学研究科, 講師 (80311174)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 意味役割 / 言語資源 / 言語パターン / 概念フレーム / 述語項構造 / Blockly / prolog |
Outline of Annual Research Achievements |
初年度は述語項構造辞書の拡充,意味役割解析システムの精度向上,システムの初期段階の開発を行った. まず,辞書の拡張として新たにPropBank形式の意味役割体系を導入して日本語に適用した体系を整備した.具体的にはArg0,Arg1やArgMのように必須項と付加詞を分けて記述する意味役割を従来の名前の意味役割(動作主,時間など)と併記して書くことで,人に理解可能であるとともに,使役態や受動態,被害受身など異なる構文にも項が追跡できるように拡張した.人手による辞書の拡充だけでなく統計的学習モデルを利用した辞書構築法について発表した.具体的にはシソーラス形式の辞書に対して分散表現を利用したAutoExtendを適用することで辞書構造を学習させる手法を提案した.提案手法を日本語WordNetに利用して新語義の獲得に効果が見込めることを明らかにした. 次に意味役割を利用して文書を構造化する手法として深層学習を利用したモデルを新たに提案し,62種類の意味役割のタイプ分けに対して先行研究より約10%近く精度が向上したことを明らかにした. コンコーダンサの開発として,研究室で構築している意味役割解析システムASAの出力を基にBlocklyで指定した言語パターンによりマッチ部分を取り出すことができる基礎システムを開発した.システムは小規模の文書に対して意味役割解析を実行し,prolog形式に変換して文書を構造化する.構造化した文書に対して組合せた言語パターンをprolog形式のクエリとして適用できる.言語パターンの要素としては形態素や基本形の他に品詞や意味役割,概念フレームを組合せて指定することができるため,複雑なパターンが適用可能である.Blocklyとの基本的な接続部分を構築しており,Blocklyによる言語パターンのブロックを通して表現の検索が可能である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度の研究目標では,述語項構造辞書の整備・拡充と,コンコーダンサシステムにおける基礎システムの開発という2点が中心的な課題である. 辞書整備における課題は多様な意味役割体系への対応と事例の追加である.多様な意味役割体系に対応する一つの解決策として,以前からPropBank形式の意味役割の利用を検討してきた.PropBank形式による数字の意味役割を事例で固定し,他の意味役割とリンクを作成することで多様な表現に対応する.付与事例に対する分析を基に,初年度で日本語に対するPropBank形式の意味役割体系を構築した.この成果によりユーザがPropBank形式の意味役割に基づく言語バターンを利用することが可能になる.一方,事例追加の課題については,従来半自動付与の可能性を検討してきた.初年度においてシソーラス形式の辞書に対して分散表現を利用した手法に一定の効果が見込めることを明らかにした.これにより半自動化を一つ前進させることができたと考えられる.以上の状況から,初年度の進捗として辞書整備に関する研究は予定通り進んだと考えられる. 次に,コンコーダンサシステムの開発では文書を構造化するモジュールの開発と,言語パターンをBlocklyで設定して検索するモジュールの基礎システムの開発が初年度の課題である.当初,JavaScriptのBlocklyで設定したパターンを文書検索モジュールに通信して実行する部分がどの程度開発がかかるのか見通しが明確ではなく,期間がずれ込むことも予測された.しかし,初年度でパターンマッチまで実行できる基礎システムが構築できたため進捗としては順調と考えられる.また,初年度で深層学習を利用した新たなモデルで精度が向上する可能性示すことができたことは予定を若干上回る進捗である. 以上をまとめると研究の進捗としては概ね順調と考えられる.
|
Strategy for Future Research Activity |
今後の研究の推進方策として,述語項構造辞書の拡充とコンコーダンサシステムの改良の2点が挙げられる.述語項構造辞書の拡充では,新たな述語の概念フレームと意味役割の登録および公開を引き続き進める.新規の概念フレームの登録は人手による作業を仮定しているが,半自動による述語項構造辞書の拡張方法について初年度に引き続き開発を進める. 次にコンコーダンサシステムでは初年度構築した初期モデルを改良する.具体的にはBlocklyを利用したインターフェースモジュールの改良,パターンマッチモジュールの改良,文書構造化モジュールの改良の3点である.まず,インターフェースモジュールでは初年度構築したWebシステムの表示部分を洗練する.これと同時に,Blocklyによる言語パターンの追加と整理を行う. パターンマッチモジュールの改良では大規模文書に対する言語パターン検索が実行可能になるよう改良する.初年度構築した基礎システムでは構造化した文書に対して全てprologの述語形式に変換し,探索結果を返す簡素な構造で構築した.よって大規模な文書に対して処理に時間がかかることが想定される.そこで大規模文書に対する言語パターンマッチを実行することで実装を洗練する. 文書構造化モジュールの改良では,意味役割付与システムの精度向上に着手する.初年度の手法で深層学習により意味役割付与の精度が向上できることを明らかにしたが,概念フレームの付与についてはさらに開発が必要である.深層学習には大規模な意味役割・概念フレーム付与データが必要である.現在,別のプロジェクトで作成中であるが,いくつかの述語の事例が低頻度になることが考えられる.そこで,低頻度の学習データに対して推定が安定する新たな統計的学習モデルを視野に入れた意味役割・概念フレーム付与システムの構築を目指す.
|
Research Products
(7 results)