研究課題/領域番号 |
15K12873
|
研究機関 | 東京大学 |
研究代表者 |
加藤 恒昭 東京大学, 大学院総合文化研究科, 教授 (60334299)
|
研究分担者 |
林 良彦 早稲田大学, 理工学術院, 教授 (80379156)
|
研究期間 (年度) |
2015-04-01 – 2018-03-31
|
キーワード | 語彙意味論 / 分散表現 / 語彙オントロジー / 語の意味関係 |
研究実績の概要 |
構造表現(語彙分解に基づく語彙知識),ネットワーク表現(語彙オントロジ),素性空間表現(分散表現)という異なる形式で表現された語彙知識を融合・高度化し,知識の相互運用を可能とすることを目指している.今年度は,(1)動詞を中心とした用言に着目し,日本語における代表的な語彙オントロジであるEDR概念辞書のネットワーク構造を,構造表現における主たる素性である使役性(自他性)との関係から明らかにすることを試みた.(2)語彙オントロジの主たる構成要素である包摂関係(上位下位関係)が,分散表現においてどのように表現されているかについて検討を行った. (1)自他関係にある動詞(の語義)のEDR辞書構造における配置の分析を行った.その結果,その配置には予想以上の広がりがあり,EDR辞書の構造が複数の観点を恣意的に選んで作成されていることが明らかとなった.このことはEDR辞書と構造表現との対応づけが困難であることを示唆しているため,EDR辞書に代わる語彙オントロジとして竹内らによる述語項構造シソーラスをとりあげ検討を進めている. (2)分散表現において語義の上位下位関係を同定する手法は,教師あり機械学習が主流となっている.今年度はこの教師あり機械学習の特性について分析を行い,上位下位関係の学習において訓練データに含まれた上位語への過学習が行われていること,語彙オントロジが(ほぼ)木構造であることに由来する訓練データの偏りがその原因であることを明らかにし,この問題を回避する手法を提案した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
日本語における代表的な語彙オントロジであることからEDR概念辞書をネットワーク表現の研究対象として研究を進めてきた.昨年度も構造的な問題が大きいことを明らかにしたが,それは問題点を列挙し解決できるレベルのものと判断していた.今年度の調査はその問題点の整理の意味合いも持っていたが,問題は予想以上に大きく,研究の対象の変更を迫られるものであった.このような方向性の検討に時間を要し,進捗に遅れが出ている.
|
今後の研究の推進方策 |
構造表現とネットワーク表現との融合の方向では,ネットワーク表現の語彙知識として,竹内らによる述語項構造シソーラスを取り上げて分析を進める.ただしこの知識はそもそも構造表現を意識した構造を持っているため,融合により得られるものはあまり多くないことを危惧している.EDR辞書のうち,有益な部分を取り出し,それをこれらの語彙知識に組み込んでいくことを引き続き検討する. 分散表現とネットワーク表現の融合については,上位下位関係に加えて,ネットワーク表現を構成する様々な意味関係と分散表現との関係を明らかにする.同時にそれらの関係がより強くなるような分散表現の構築方法を検討する.また,今年度の検討が主に英語名詞を対象としていたので,日本語動詞を対象とした分析を進める.
|
次年度使用額が生じた理由 |
構造表現とネットワーク表現の融合ということで,ネットワーク表現の語彙知識としてEDR概念辞書を分析し,その後,その結果を基に構造表現と親和性が高いネットワーク表現を構築する計画であったが,EDR辞書の分析に時間をとられ,あわせて,その結果がEDR辞書は構造表現の親和性が高くないというものであったことから,研究の対象についての検討を迫られた.このため,知識構築に進むことができなかった.
|
次年度使用額の使用計画 |
分析の対象となるネットワーク表現に竹内らによる述語項構造シソーラスを含めて,分析を進め,その結果に基づいて知識構築に進むようにする.知識構築にて人件費・謝金の支出を行う.EDR辞書での経験をふまえて迅速な分析を行っていく.
|