2012 Fiscal Year Annual Research Report
高次元・構造化データに適したリンク解析的類似度尺度の研究
Project/Area Number |
24300057
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
新保 仁 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90311589)
|
Co-Investigator(Kenkyū-buntansha) |
原 一夫 国立遺伝学研究所, 生命情報研究センター, 研究員 (30467691)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | データマイニング / リンク解析 / テキストマイニング / 高次元データ |
Research Abstract |
過去,数々の計量書誌学尺度やリンク解析手法によるグラフ節点間類似度尺度が提案されている.これらの手法の有用性は知られているが,いずれもハブ(他の多数の節点と繋がりを持つ節点)の存在・影響を意識せずに設計されている.しかしながら,最近,データが高次元空間上にある場合には,ほとんどの場合ハブが出現し,最近傍法などに対する悪影響を及ぼすことが報告された.このような状況を鑑み,各種のリンク解析的類似度尺度について,ハブに対しての頑健性・脆弱性,について調査を行った.先行研究では,コサインなど,ごく一般的な尺度が取り上げられているのみで,多くのリンク解析尺度に対するハブの影響はよくわかっていなかった.我々は,グラフラプラシアンに基づく類似度尺度(通勤時間カーネル正則化ラプラシアンなど)がハブの悪影響を軽減する可能性を指摘し,自然言語処理データを用いてこれを検証した.これら一連の結果を国際会議AAAI 2012で報告した.ハブの出現に対するデータ規模(事例数)の影響についても調査を行った. 一方,化学構造や,単語間の依存関係など,辺が節点間の類似度を表さないグラフにおいては,節点間類似度は,その節点の周辺構造の類似度によって決まる.このような構造的類似度をランダム・ウォークによって計算する手法を,異なる文に出現する単語間の類似度計算に適用し,その効果を検証した.その結果,素朴な素性だけを用いて,既存のより複雑な素性を用いた手法と同等の精度が得られることがわかり,自然言語処理の国際会議であるCOLING 2012で発表した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究目的の内,2012年度に予定していたk近傍分類に対するハブの影響調査に加え,その悪影響低減のための手法の方向性が定まった点で,順調と言える.
|
Strategy for Future Research Activity |
2012年度は,もっとも基本的な類似度ベースの手法であるk近傍法を取り上げたが,それ以外の手法についての影響評価を行う.また,新アプリケーションへの適用に取り組む.
|
Expenditure Plans for the Next FY Research Funding |
当初,2012年度後半期に大学院生を雇用し,実験リソース整備などの作業に従事することを予定して人件費を計上していたが,公開データが充実してきた状況変化があり,雇用を保留したことから未使用分が生じた.今後,新アプリケーションにも取り組むことを予定しており,2013年度にそのためのリソース整備作業費として充当する.
|