2013 Fiscal Year Annual Research Report
高次元・構造化データに適したリンク解析的類似度尺度の研究
Project/Area Number |
24300057
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
新保 仁 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90311589)
|
Co-Investigator(Kenkyū-buntansha) |
原 一夫 国立遺伝学研究所, 生命情報研究センター, 特任研究員 (30467691)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | データマイニング / リンク解析 / 類似度 / 高次元データ |
Research Abstract |
過去, 数々の計量書誌学尺度やリンク解析手法によるグラフ節点間類似度尺度が提案されている. これらの手法の有用性は知られているが, いずれもハブ (他の多数の節点と繋がりを持つ節点) の存在・影響を意識せずに設計されている. さらに最近, データが高次元空間上にある場合には, ほとんどの場合ハブオブジェクト (他の多くのオブジェクトと類似しているオブジェクト) が出現し, 最近傍法などに悪影響を及ぼすことが報告された. 本研究では, これらハブ節点・ハブオブジェクトの影響調査と, その軽減法の開発を目的としている. 研究初年度に引き続き, 各種自然言語処理タスクを題材にハブオブジェクトの軽減を試みた. 大きな成果として, データの「センタリング」がハブの軽減に有効であること, を発見したことが挙げられる. センタリングは古典的なデータ前処理法であるが, 自然言語データにおいてはセンタリングが前処理として行われるケースは極めて稀である. 機械学習分野で主流である距離ベースの手法ではセンタリングに効果がないことも, このような背景に寄与していると思われる. 我々は, 内積ベースの類似度を用いる場合には, センタリングがハブを削減するという点で有効に働くことを明らかにし, 実際タスク精度も向上することを確認した. この成果については EMNLP 2013 にて報告を行った. また, 応用タスクとして有望な, 単語・句のベクトル空間への写像方法に関する成果について, これも EMNLP 2013 にて発表した. さらに, 初年度の成果を発展させた, (1) ランダムウォークに基づく文脈類似度測定法, および (2) 近傍グラフにおけるハブ節点の削減法に関する成果を, 人工知能学会誌にて公表した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
引き続き, 自然言語処理タスクにおけるハブの影響調査と, その軽減法について研究を行った. 計画に沿って, 新たなハブの軽減法 (センタリング) の提案およびその厳密な性能調査を行い, 対訳抽出など新しい自然言語タスクでの同手法の有効性についても予備調査を行った.
|
Strategy for Future Research Activity |
ハブ軽減に関するセンタリングの有効性を確立できたが, 同手法は内積ベースの類似度尺度を用いた場合にしか適用できない, という制限がある. タスクによっては距離ベースの類似度尺度が適切な場合も多々あるため, 今後はそういった場合にも適用可能なハブ軽減法の開発を目標に研究を行う予定である.
|
Expenditure Plans for the Next FY Research Funding |
計画の達成度には差し障りがないが, 年度当初計画していた研究のためのコード・リソース整備について状況の変化があったため再検討を行い, 使途について見直すこととした. 研究開始当初は, 自前でのリソース整備を計画していたが, 一般の公開データがさらに充実してきたこと・取り組むタスクが研究の進展にともない変化してきたこと, といった理由から, それらリソース購入代などに充当することにした. 本年度, リソース整備作業はデータよりはコードの整備を中心に取り組むことにする.
|
-
-
-
-
-
-
-
-
[Presentation] Centering Similarity Measures to Reduce Hubs2013
Author(s)
Ikumi Suzuki, Kazuo Hara, Masashi Shimbo, Marco Saerens, and Kenji Fukumizu
Organizer
Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP)
Place of Presentation
Seattle, WA, USA
Year and Date
20131018-20131021