2015 Fiscal Year Research-status Report
言語処理及び言語分析を指向した大規模コーパスを利用した述語シソーラスの拡張
Project/Area Number |
26370485
|
Research Institution | Okayama University |
Principal Investigator |
竹内 孔一 岡山大学, 自然科学研究科, 講師 (80311174)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 名詞項構造 / Generative Lexicon / 意味役割 / 述語項構造シソーラス / PropBank / 名詞述語文 |
Outline of Annual Research Achievements |
今年度は中心的課題となる(1)名詞項構造の記述方法の検討ならびに基本付与データの構築,(2)名詞項構造を考慮した解析システムの構築を行った. まず(1)に関して,名詞述語文を含む表現の異なりを吸収する過程で,述語シソーラスの70種類の意味役割だけでなくPropBankスタイルの個別の語に対する意味役割をArg0など番号で記す方法を導入することで名詞,動詞,形容詞について幅広く処理が行えることから,意味役割記号を拡張したデータ構築を行った.具体的には下記の3つのデータおよびシステムを構築した.(1-1)Rite2の名詞に対してXのYはZであるという例文を作成し,項の意味役割,ならびに対応する述語シソーラスの例文と語義を検索し,対応づけるアノテーション支援システムを構築した.(1-2)上記(1-1)のアノテーション支援システムを利用して,3713名詞のうち項を持つ260語に対して基本例文を作成し,500個所の項について述語の例文と対応付けを行った.(1-3)意味役割においてPropBank流のArg0, Arg1スタイルを述語項構造シソーラスに付与する作業を行い,2.3万事例中,1.4万事例まで作業を終えた. また,(2)については述語項構造シソーラスを基に文書に対して,意味役割と述語の語義を付与するシステムASAを改良して名詞述語文を処理できるように変更し,Abstract Meaning Representation の構造を参考にした含意認識を行うための文間類似度評価システムを構築し,特別研究報告として発表した. また理論的な展開として名詞・述語を一貫した項構造シソーラスを構築した場合の言語処理の可能性についてComputational and Cognitive Approaches to Narratology内の節に記述し,出版された.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度は本研究の中心的課題である名詞の項構造と述語との記述方法について検討を行い,処理システムまで含めて,可能なデータ構造(つまり,名詞項構造と述語項構造との対応)を具体化することができた.当初72種類の述語シソーラスの意味役割体系だけで記述することを想定していたが,名詞の項構造を一時的に記述する枠組として,PropBankが採用したArg0など数字で記述する方法が利用できることに着目し,具体的にデータ構築を始めることができた.これにより,「(盗み食い)[1]の罪は(反省文)[2]だ」は「罰する」という動詞に対して[1]は「原因」,[2]は「手段」のように一貫した意味役割体系を利用して関係付けできる見通しが得られた.この構造は単にアノテーションの観点からだけでなく,入力文から意味役割と語義を推定し,2文間の文の類似度を項構造ベースで比較するシステムを構築しながら決定している.よって含意認識処理システムでの利用可能な構造となっている. データ構造が決定しただけで無く,上記のデータ構造を付与するためのブラウザベースのアノテーション支援システムも構築することができた.対象データとして含意認識評価を行うRite2データを利用し,述語項構造シソーラスとデータの連結,ならびに新たな意味役割と既存の意味役割体系との対応関係をとるシステムであり,手作業では不可能な複数のデータ間のリンク付けを行う機能を有している.現段階ではアノテーションデータは260語の名詞についてであるがこれは期間中に付与しながら構造を何度も変更したためであり,対応可能な構造を見つけることができたことが成果である.アノテーション支援システムが構築できているので,今後のデータの追加が進むものと期待できる. 以上の状況から述語項構造と一貫性のある名詞項構造のデータ構築として,おおむね順調に進展していると評価した.
|
Strategy for Future Research Activity |
平成27年度の成果を踏まえて,今後,名詞項構造データの構築と同時に,構築したデータを基にした含意認識処理システムの精度向上について検討を行う. 1. 名詞を含む項構造データの構築.アノテーション支援システムを利用して名詞項構造に対応する述語項構造例文データの蓄積を行う.付与作業で,支援システムの改良や不足している述語項構造の追加を行う. 2. PropBankスタイルの意味役割を利用した項構造解析システムの構築.既存の意味役割体系より抽象度の高い数字による意味役割を解析するシステムを構築する.これにより名詞の項構造の同定を行い,従来より幅広い類義表現のマッチングを目指す. 3. 名詞,述語を含む項構造解析システムを基にした含意認識システムの構築.現在構築している木構造ベースの文間類似度評価システムを基に構築する.1.による名詞と述語の項構造変換データと2.で構築する新たな意味役割体系も利用し,抽象化した木構造でのマッチングでどの程度含意認識データを正しく認識できるか評価し,改良を進める. 4. 含意認識に不足している言い換え構造の分析.例えば「罰を受けた」と「罰せられた」との関係のようにヲ格を伴った項構造の表現で1つの述語に対応する表現の言い換えが含意認識に必要な場合がある,こうした名詞類語表現は初年度で辞書を利用して獲得したがより充実が求められる.また,「以外」など機能的な名詞の概念処理や,文脈に依存して類義語関係になる表現など3の含意認識システムでは扱えない例が評価の段階で明らかになってくる.そこで不足している言い換え構造を収集し分析することで,どのような言い換えタイプがどの程度の規模で必要なのか整理する.
|
Remarks |
国立国語研究所のコーパスBCCWJ(http://pj.ninjal.ac.jp/corpus_center/bccwj/)に述語項構造シソーラスの概念と意味役割を付与したデータBCCWJ-PTとして公開した.
|
Research Products
(6 results)