2014 Fiscal Year Research-status Report
言語処理及び言語分析を指向した大規模コーパスを利用した述語シソーラスの拡張
Project/Area Number |
26370485
|
Research Institution | Okayama University |
Principal Investigator |
竹内 孔一 岡山大学, 自然科学研究科, 講師 (80311174)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 名詞項構造 / 述語項構造 / 類義語データベース / 述語シソーラス |
Outline of Annual Research Achievements |
日本語の動詞・形容詞・形容動詞・名詞の項構造を一貫した形で整理した意味体系とデータを構築するために,既存の述語項構造シソーラスに新たに名詞の項構造を加える形でデータを構築する.今年度は名詞の項構造の事例構築に関する研究と名詞類語表現データの構築に関する研究を行った. 1. 名詞の項構造の事例構築では,対象とする名詞1万7千語を言語学の文献ならびに含意認識タスクからのデータを利用して策定し,「[(主体)あの小説]の作者は[(対象(人))田中さん]だ」のように名詞「作者」に対する例文を作成し項構造を付与した.手法として(1)人手による作例,(2)京都大学名詞格フレームコーパスを利用した手法,の2つについてシステムを構築して実行した.結果(1)の場合約2200事例(2ヶ月/3名)構築し,(2)の場合は750事例(1ヶ月/1名)となった.ただし手法(2)では例文が不完全になることがあり手法(1)の方が網羅性が高いことが明らかとなった. 2. 名詞類語表現データの構築は,「異なる」と「違いがある」のように述語とほぼ同義の名詞を含む述語表現を集めるもので手法として,(1)同時共起クラスタリングを利用した自動抽出手法と(2)既存の類語辞典を利用した人手による構築,の2種類の方法について適用した.実験および作業の結果,(1)の手法では新聞記事10年分の記事から50クラスタの類語集合が獲得できたが,抽出精度が2%程度であり,ノイズが多いことが分かった.一方,手法(2)では2ヶ月で100語程度の表現を獲得することが出来た. 外部発表としては,上記の研究内容を日本語コーパスワークショップ(第6回,第7回)に発表し,述語項構造シソーラスについて国際ワークショップMAPLEX2015で発表した.また意味役割付与システムにおいて接尾辞を利用した手法を新たに開発しPACLING2015に発表する.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の目的は日本語の動詞・形容詞・形容動詞・名詞に対して一貫した述語項構造データを構築することであるが,その初年度として研究実績に記述したとおり名詞の項構造の事例構築を行い,約2200事例を作成することができた.また言語資源を利用した構築方法を試みたが,コストがかかる割に質的な問題が生じるなど有効で無いことがわかった.一方,名詞類語表現データの構築では,コーパスベースのクラスタリングシステムを当初の計画通り初年度で完成させ,新聞記事で実験することができた.さらに当初予定していなかった類義語辞書を利用した獲得手法も実験することができた.その結果,名詞類語表現はデータ数が通常の述語に比べて少なく,10年分記事で数十事例が獲得できる程度であることなど,初期段階として有効な情報を得られることができた. 以上の状況から名詞を含む述語項構造データ構築の観点から,初年度として基本的な実験環境の構築と可能性のある手法を複数試すことができつつ,さらに事例も確実に得られていることから,おおむね順調に進展していると評価した.
|
Strategy for Future Research Activity |
平成26年度の成果を踏まえて,今後,名詞を含む述語項構造データの拡張の継続と述語項構造解析システムの構築の他に,含意認識タスクを考慮した名詞項構造の記述方法の検討を開始する. 1. 名詞を含む述語項構造データの拡張: 初年度作成したシステムを利用して,(1)人手による名詞項構造データの構築,(2)大規模コーパスとクラスタリングを利用した名詞類語表現データの構築,(3)既存の類語辞書を利用した人手による構築,を利用してそれぞれ名詞述語項構造データを拡張する予定である.作業や実験結果などから,有効な方法に絞り込んでデータの構築方法を安定させる. 2. 述語項構造解析システムの構築: 構築した述語項構造シソーラスが更新されればすぐに反映して解析できる述語項構造付与システムを構築する. 3. 名詞項構造の記述方法の検討: 既に名詞項構造は,名詞とその周りに出現する項を例文形式で記述することを提案してデータを構築している.しかしながら,含意認識タスクを解くためにはデータとしてより豊な記述が必要であり,可能な限り名詞の意味構造を加える形式を検討する.基本的にPustejovskyが提案した生成語彙(Generative Lexicon)に基づく記述を利用する予定である.これにより例えば,「『重力ピエロ』の著者は伊坂幸太郎である」の場合に,「著者」に対してwrite(Agent=伊坂幸太郎,Theme=重力ピエロ)という内部構造まで記述する.一方で,平成26年の末にabstracted meaning representationという動詞や形容詞,名詞の項構造をグラフ構造で記述する枠組が英語圏で提案されて,質問応答システムなどで実験的に使われている.こうした海外の記述枠組とも適合する名詞項構造の記述法について検討する.
|
Causes of Carryover |
ほぼ,当初の計画どおり使用した.約2万6千円の差額は,旅費,物品費,謝金などの支払いの差額が積み上がったものである.
|
Expenditure Plan for Carryover Budget |
平成27年度は名詞項構造データの構築作業を促進するために,作業謝金に使う予定である.
|
Remarks |
日本語の動詞,形容詞,形容動詞を含む述語に対する項構造データを参照できるサイト.名詞項構造データが完成すれば追加して表示する予定.
|
Research Products
(6 results)