2020 Fiscal Year Research-status Report
Construction of Japanese Predicate-Argument Structure Dictionary for Natural Language Processing and Linguistic Analysis with Concordancer
Project/Area Number |
19K00552
|
Research Institution | Okayama University |
Principal Investigator |
竹内 孔一 岡山大学, 自然科学研究科, 講師 (80311174)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 意味役割 / 言語資源 / 言語パターン / 概念フレーム / 述語項構造 / Blockly / prolog / PropBank |
Outline of Annual Research Achievements |
今年度は述語項構造辞書の拡充,意味役割解析システムの新たなモデルの開発,コンコーダンサシステムの開発を行った. 述語項構造辞書の拡充ではPropBank形式の意味役割を導入することで日本語の間接受動態に対して意味役割定義の拡張が必要であることを明らかにした.本拡張は英語では見られない特徴であったことから国際会議の会議誌で発表した.さらにコピュラ表現の意味役割や連語に対する意味役割の付与法などを新たに定めて既存の意味役割体系に矛盾が無いように拡張し,その内容を国内会議で発表した.また,述語項構造辞書の見直しを進めた.具体的には約2万件の例文に対する意味役割と概念フレームを見直し,意味役割の整理と不足している概念フレームおよび述語の項目を追加した. 概念フレームと意味役割が付与されたデータを仮定して新たな意味役割解析手法の研究を進めた.概念フレームの種類が千件以上存在し,意味役割は約70種類程度あるため,付与データが多くても組合わせ事例が疎になることが予測される.そこでベイズの定理を利用したモデル化を実装し,基礎的なデータに対してデータが不十分な場合に安定した確率分布が得られることを実験で示し,国内の会議で発表した. コンコーダンサについて文書を解析して構造化する部分とインターフェース部分のそれぞれについて開発を進めた.解析部ではユーザがアップロードした文書に対して内部で保存すると同時にprolog形式に変換するモジュールを構築した.また文書が大規模な場合にも検索が困難になるため文単位で木構造化するモジュールを追加した. 一方,インターフェース部分ではBlocklyを取り込んだフレームワークを利用して,ユーザからのファイルを取り込むモジュール,解析部分との通信モジュール,表示の際に対象とする項と述語を強調表示するモジュールを構築した.これらの内容は国内会議で発表した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度の研究目標は述語項構造の整備・拡充と初年度に開発したコンコーダンサシステムの拡充である.PropBank形式の意味役割を導入することで従来の名前による意味役割と補完し合う形で記述することが可能になった.一方で,必須項と付加詞を明確に分ける必要があることからPropBank形式の意味役割の種類が当初よりも増えたが,これにより間接受動態を含めた態の異なりによる項同士の関係を捉えることが可能になった.辞書整備による体系の改善を具体的に進めることができたため,この部分において順調に研究が進んでいると考えられる. コンコーダンサシステムの開発では意味役割解析に対する進捗と具体的なシステム開発における進捗の2点が挙げられる.コンコーダンサシステムの基礎となる部分が意味役割解析システムASAの出力精度である.現段階では意味役割および概念フレームの推定は規則と概念フレームの事例頻度を利用した簡易な予測モデルを利用しているため,機械学習を利用することで精度の向上が見込まれる.しかしながら事例が少ないため学習データが少ない場合でも高い精度が出るモデル化が必須である.この点においてベイズを利用したモデル化で見通しを得られたことは当初の予定と大きく遅れていないと考えられる. また,具体的なシステム開発ではJavascriptを利用したWebベースシステムの枠組に対する理解が進み,Blocklyと矛盾すること無くファイルの入力や構築したパターンの保存,文書構造化処理との通信に対して拡張することができた.インターフェース部分から文書を入力して検索結果を出力する一連の処理ができていることから,今後,システムの拡張に焦点をあてた開発が可能である. こうした状況から以上をまとめると研究の進捗として概ね順調と考えられる.
|
Strategy for Future Research Activity |
今後の研究の推進方策として,述語項構造辞書の拡充とコンコーダンサシステムの改良の2点が挙げられる.述語項構造辞書の拡充では意味役割体系を整備しつつ,概念フレームの追加および語彙項目の追加を進める. 次にコンコーダンサシステムではまず意味役割解析システムASAの推定精度の向上に取り組む.現在,国立国語研究所が開発しているNPCMJ(統語情報を付与した日本語トデータ)に対して概念フレームと意味役割を付与したデータが蓄積されている.こうした新たな学習データを利用してASAの概念フレームおよび意味役割推定精度の向上を目指す. コンコーダンサシステムの開発では大規模文書に対する言語パターンマッチング処理の洗練,およびユーザインターフェースの洗練,言語パターンの拡張が挙げられる.大規模文書に対する解析ではユーザが大規模文書をシステムに適用した際に各モジュール間で負荷がかかることが考えられる.現実的な処理時間が行えない場合にはアルゴリズムの変更など改善を行う.また検索時に候補数が極端に多い場合,システムが処理が止まる可能性が考えられる.こうした場合でも処理を続行できるようにアルゴリズムを改善する.ユーザインターフェースの洗練ではパターンにマッチした部分だけを表示するのでなく,いくつかの形式が選択できるよう検索課題を想定して,複数の表示形式を構築する.また作成したパターンは再利用できるように拡張することで一度構築できたパターンは蓄積して利用できる枠組を確立する. 準備しておく言語パターンも拡張する.選択する言語パターンが多すぎると視認性がさがるが,一方で,ユーザが利用したいパターンがあらかじめ準備されていれば利便性は向上することが考えられる. これら上記の取り組みを行うことで使いやすいコンコーダンサの構築を目指す.
|
Causes of Carryover |
世界的に感染症が拡大したことにより当初予定していた国際会議および国内会議の出張費用が不要となりその部分で金額が発生した. 次年度では発生した差額を利用して本研究に直接関係する英語圏の解析済みデータの購入および概念フレームと意味役割の確認作業に対する謝金費用に当てることを計画している.ただし,状況に応じて意味役割付与モデルの改善により計算サーバが必要となる場合は,計算資源に上記の費用を割り当てる. いずれにせよ予算を利用して意味役付与の精緻化を行い,コンコーダンサシステムを洗練する予定である.
|
Research Products
(7 results)