2012 Fiscal Year Research-status Report
Project/Area Number |
23650074
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
坂本 比呂志 九州工業大学, 情報工学研究院, 教授 (50315123)
|
Co-Investigator(Kenkyū-buntansha) |
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
|
Keywords | データ圧縮 / データマイニング / 情報抽出 / パターン発見 |
Research Abstract |
あまりにも巨大なテキストは,読むことができないデータとほぼ同じであり,このようなデータの洪水に立ち向かうための次世代基盤技術の確立が急務である.本研究は,データ圧縮を要約するための技術として発展させることで巨大テキストの俯瞰を可能にし,気づかれずに埋もれている知識を発掘する.具体的には,これまでに申請者が開発した,テキスト中のパターンの関係を保存しながら圧縮する技術をマイニングに応用することで,GB 超~TB クラスの巨大テキスト同士の直接比較を可能にし,これまでは歯が立たなかった超大規模テキストから知識のまとまりを再構成する.平成24年度は,データ圧縮アルゴリズムによる大規模データからの知識抽出の研究を推進した.まず,データベースへの応用として,twitterなどのSNSデータへの適用可能性を探るために,学術用に公開されているデータを用いて,関連tweet間を結ぶ編で構成された巨大グラフを構築し,そのグラフ上のパターン発見を既存アルゴリズムであるクリーク発見手法によって行った.その結果,SNS特有のパターンが取得できることを示した.この結果は国際会議のポスター発表として公開した.次年度では,SNS特有の表現が含まれているテキストの内容を加味したパターン発見に拡張する.また本年度は,文字列が出現する数学上の問題に,データ圧縮が適用可能であることを示した.これは絡み目理論と呼ばれるトポロジーの分野に現れるある種の問題解析にデータ圧縮を用いることで圧倒的に計算時間を短縮できることを示したものである.この結果により,この分野に新しい解析手法をもたらしたと言える.今後は,この手法の普及に努めていく.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
平成24年度は,当初は【基礎理論の構築】のみを目指していたが,アルゴリズムの改良の進展によって,大規模データを十分に高速にかつ省メモリで実行することが可能となった.そこで,予備的に,この基本アルゴリズムを実データに適用した結果,今年度の実績として記述した内容の成果を得た.この結果によって,次年度以降の研究が前倒しで実施できる見込みである.また,基礎理論の構築については,当初の目標をクリアし,計算時間やメモリ消費量についてさらに高い水準を達成している. これらの成果を具体的に以下にまとめる. ・圧縮マイニングの定式化: 前年度で構築したデータ構造とアルゴリズムに高速・軽量の照合技術を組み合わせることで圧縮マイニングの基本的枠組みを完成させた.現在はさらなる省メモリ化に取り組んでいる.また,このプログラムは公開予定である. ・ネットワーククラスタリングへの応用: 申請者がデータ圧縮と平行して進めているネットワークマイニングの成果を応用することでネットワークからの知識発見に発展させる.すでに予備実験によってクラスタが発見できている.今後は,時系列データに対しても実行できるようにする.
|
Strategy for Future Research Activity |
次年度は本研究の最終年度である.最終年度は以下の観点から研究を推進する. 【アルゴリズムの実装】曖昧検索の実現: 基本的な枠組みでは,圧縮データからパターン検索には曖昧な検索ができない.しかし,似ているパターンがほぼ同じ意味を持つような場合に対応できないため,近似照合や木の類似性判定を応用して,グラフ構造からの曖昧検索のための機能拡張を行う.並列分散環境の構築: 本研究が対象とするテキストやログデータは数GB~TB クラスの規模となる.そのため,PC クラスタや分散環境下で実行することを想定している.そこで,ここまでの研究で実装されているプログラムを並列化する. 【実世界への応用と情報発信】圧縮マイニングの応用として実現可能性が高い以下の順で取り組む.これらは,木の類似性判定,多項関係の学習,高速照合の技術などで補強する予定である.以上の研究計画に基づいて,本研究の成果をセミナーやソフトウエアの公開によって社会に発信する.
|
Expenditure Plans for the Next FY Research Funding |
予定していた国際会議への出張が取りやめになったため未使用額が発生した。 これまでに,すでに基本アルゴリズムが完成しており,また,予備実験も終了している.今後はデータの大規模化に応じたプログラムの改良と,実験結果の解析などが中心となるため,研究費は主として研究打ち合わせのための旅費と実験のための謝金として支出する予定である.
|