研究課題/領域番号 |
26540144
|
研究機関 | 早稲田大学 |
研究代表者 |
林 良彦 早稲田大学, 理工学術院, 教授 (80379156)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 感性情報処理 / 想起 / 意味的類似度 / 意味ネットワーク / ネットワーク探索 / 系列パターンマイニング / 機械学習 |
研究実績の概要 |
本研究課題の初年度である平成26年度は,主に以下の課題に取り組んだ. (1) 既存の想起データの調査・分析: 本研究課題を開始するにあたり,出発点とする想起データについて,既存のデータ(Princeton WordNet,Maによるデータ)を調査・分析した.対象概念の選定基準やデータ量などの定量的観点,得られているデータの定性的な評価から,Princeton WordNetに基づく想起データを採用することを決定した. (2) 想起における特徴的な概念連鎖パターンの分析: 上記の分析を進める中で,想起関係のある部分は,概念の連鎖のショートカットとして捉えることができるという着想を得た.このため,想起における起点・ターゲット概念を結ぶ概念連鎖を,既存の大規模意味資源における意味ネットワーク上の最短経路群として収集し,系列パターンマイニングの技法により分析した.その結果,いくつかの特徴的な部分的な連鎖構造を見つけることができた.なお,想起データはPrinceton WordNetに基づくものであるが,WordNetにおける概念間関係の種別は限られていることから,大規模意味資源としてはEDR電子化辞書を用いることとした.このため,本課題の代表者が別課題(基盤研究B)において進めている手法を適用し,起点・ターゲット概念をEDR電子化辞書における概念へと対応付けた上で概念連鎖データを収集した.(国際会議発表1件,国内会議発表1件) (3) 想起スコアの機械学習による予測の予備検討: 上記のようにして意味ネットワーク上の経路から得られる属性を用いて,機械学習 (サポートベクトル回帰) により想起スコアを予測する方式について予備検討を進めた.その結果,想起関係があることがわかっている概念ペアに関しては,良好な精度で想起スコアが予測できるという見通しを得た.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究に利用する既存の想起データを深く調査・分析する中で,想起関係を既存の大規模意味資源にグランディングする(より具体的には,起点・ターゲット概念を結ぶ概念連鎖とみなす)という,研究計画策定時にはなかった着想を得ることができ,機械学習による想起スコアの予測に関しても良好な見通しを得ることができた.その一方で,計画書に記載していた,日本語想起データの生成については,具体的な作業を進めることができなかった.ただし,上記で述べたように,代表者が別課題で進める手法の援用により,27年度年度以降には,これを効率的に進めることができる見通しを得た.また,計画書に記載の「想起により拡張された意味ベクトルの生成」に関しても具体的な展開は果たせなかったものの,既存手法のサーベイを進め,27年度以降の展開への足固めを行うことができた.以上より,全体としては,「おおむね順調に進展している」と自己評価する.
|
今後の研究の推進方策 |
平成27年度は以下のように研究を推進する. (1) 機械学習による想起スコアの予測方式の研究: 26年度に良好な見通しを得たので,想起の有無の判定を含め,意味ネットワークにおける概念連鎖経路から得られる属性をもとに想起スコアを予測する方法の研究を推進する.これにより,未知の概念ペアに対しても,想起の有無,強さの予測が可能となれば,従来は人手によって作成された想起データの大規模展開への道筋が得られる. (2) 想起データの日本語化: 本項目は従来の英語ベースの想起データを他言語に展開するために必要である.代表者が別課題で研究している異言語概念の対応付け方式を援用することにより,豊富な情報を持つ既存の意味資源(EDR電子化辞書など)を用いて,他言語展開を図ることを試みる. (3) 文の意味的類似度への適用と評価: これらにより得られると想定する想起スコアの推定方法を具体的な文間意味的類似度のタスクにに適用し,評価を行うとともに,新たな研究課題を探索する. なお,これらの課題を遂行するため,人手による言語データの評価や評定が必要となる.平成27年度は,主にこのための作業委託,被験者への謝金などに研究費を使用する予定である.
|
次年度使用額が生じた理由 |
平成26年度は,新たな着想に基づき,既存の意味資源を用いた研究を進めた一方,英語ベースの想起データの日本語化検討を先送りした.このため,この項目に関する人件費・謝金の予算執行がなかった.
|
次年度使用額の使用計画 |
平成26年度の研究により,英語ベースの想起データの大規模化と他言語化(日本語化)を効率化に行う見通しが得られた.この結果を受け,ある程度大規模な作業を展開する予定である.繰り越した助成金を含めた研究費は,この項目の実施に関するデータ処理,評価・評定作業に使用する.
|