研究概要 |
過去, 数々の計量書誌学尺度やリンク解析手法によるグラフ節点間類似度尺度が提案されている. これらの手法の有用性は知られているが, いずれもハブ (他の多数の節点と繋がりを持つ節点) の存在・影響を意識せずに設計されている. さらに最近, データが高次元空間上にある場合には, ほとんどの場合ハブオブジェクト (他の多くのオブジェクトと類似しているオブジェクト) が出現し, 最近傍法などに悪影響を及ぼすことが報告された. 本研究では, これらハブ節点・ハブオブジェクトの影響調査と, その軽減法の開発を目的としている. 研究初年度に引き続き, 各種自然言語処理タスクを題材にハブオブジェクトの軽減を試みた. 大きな成果として, データの「センタリング」がハブの軽減に有効であること, を発見したことが挙げられる. センタリングは古典的なデータ前処理法であるが, 自然言語データにおいてはセンタリングが前処理として行われるケースは極めて稀である. 機械学習分野で主流である距離ベースの手法ではセンタリングに効果がないことも, このような背景に寄与していると思われる. 我々は, 内積ベースの類似度を用いる場合には, センタリングがハブを削減するという点で有効に働くことを明らかにし, 実際タスク精度も向上することを確認した. この成果については EMNLP 2013 にて報告を行った. また, 応用タスクとして有望な, 単語・句のベクトル空間への写像方法に関する成果について, これも EMNLP 2013 にて発表した. さらに, 初年度の成果を発展させた, (1) ランダムウォークに基づく文脈類似度測定法, および (2) 近傍グラフにおけるハブ節点の削減法に関する成果を, 人工知能学会誌にて公表した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
引き続き, 自然言語処理タスクにおけるハブの影響調査と, その軽減法について研究を行った. 計画に沿って, 新たなハブの軽減法 (センタリング) の提案およびその厳密な性能調査を行い, 対訳抽出など新しい自然言語タスクでの同手法の有効性についても予備調査を行った.
|
次年度の研究費の使用計画 |
計画の達成度には差し障りがないが, 年度当初計画していた研究のためのコード・リソース整備について状況の変化があったため再検討を行い, 使途について見直すこととした. 研究開始当初は, 自前でのリソース整備を計画していたが, 一般の公開データがさらに充実してきたこと・取り組むタスクが研究の進展にともない変化してきたこと, といった理由から, それらリソース購入代などに充当することにした. 本年度, リソース整備作業はデータよりはコードの整備を中心に取り組むことにする.
|