研究概要 |
過去,数々の計量書誌学尺度やリンク解析手法によるグラフ節点間類似度尺度が提案されている.これらの手法の有用性は知られているが,いずれもハブ(他の多数の節点と繋がりを持つ節点)の存在・影響を意識せずに設計されている.しかしながら,最近,データが高次元空間上にある場合には,ほとんどの場合ハブが出現し,最近傍法などに対する悪影響を及ぼすことが報告された.このような状況を鑑み,各種のリンク解析的類似度尺度について,ハブに対しての頑健性・脆弱性,について調査を行った.先行研究では,コサインなど,ごく一般的な尺度が取り上げられているのみで,多くのリンク解析尺度に対するハブの影響はよくわかっていなかった.我々は,グラフラプラシアンに基づく類似度尺度(通勤時間カーネル正則化ラプラシアンなど)がハブの悪影響を軽減する可能性を指摘し,自然言語処理データを用いてこれを検証した.これら一連の結果を国際会議AAAI 2012で報告した.ハブの出現に対するデータ規模(事例数)の影響についても調査を行った. 一方,化学構造や,単語間の依存関係など,辺が節点間の類似度を表さないグラフにおいては,節点間類似度は,その節点の周辺構造の類似度によって決まる.このような構造的類似度をランダム・ウォークによって計算する手法を,異なる文に出現する単語間の類似度計算に適用し,その効果を検証した.その結果,素朴な素性だけを用いて,既存のより複雑な素性を用いた手法と同等の精度が得られることがわかり,自然言語処理の国際会議であるCOLING 2012で発表した.
|
次年度の研究費の使用計画 |
当初,2012年度後半期に大学院生を雇用し,実験リソース整備などの作業に従事することを予定して人件費を計上していたが,公開データが充実してきた状況変化があり,雇用を保留したことから未使用分が生じた.今後,新アプリケーションにも取り組むことを予定しており,2013年度にそのためのリソース整備作業費として充当する.
|