研究課題/領域番号 |
23650074
|
研究機関 | 九州工業大学 |
研究代表者 |
坂本 比呂志 九州工業大学, 大学院情報工学研究院, 准教授 (50315123)
|
研究分担者 |
久保山 哲二 学習院大学, 計算機センター, 准教授 (80302660)
|
研究期間 (年度) |
2011-04-28 – 2014-03-31
|
キーワード | データ圧縮 / マイニング / 簡潔データ構造 / パターン発見 |
研究概要 |
あまりにも巨大なテキストは,読むことができないデータとほぼ同じであり,このようなデータの洪水に立ち向かうための次世代基盤技術の確立が急務である.本研究は,データ圧縮を要約するための技術として発展させることで巨大テキストの俯瞰を可能にし,気づかれずに埋もれている知識を発掘する.具体的には,これまでに申請者が開発した,テキスト中のパターンの関係を保存しながら圧縮する技術をマイニングに応用することで,GB 超~TB クラスの巨大テキスト同士の直接比較を可能にし,これまでは歯が立たなかった超大規模テキストから知識のまとまりを再構成する.テキストの洪水に立ち向かう技術として,キーワード検索によって網羅的に得られた情報を再構築し,それらが大まかに意味するものを端的に提示する高度な情報処理が必要である.このとき,一次的な検索結果全体をパターンとして再検索することで,情報のフィードバックが掛かり,データ間の深い関連性を見いだせると期待できる.そこで本研究ではデータ圧縮による情報の要約のための枠組みを提案し,その有用性を実証することで,データ圧縮に新しい価値を見いだそうとしている.また,本研究の成果を一般に広く周知するため,プログラムソースの公開と可視化ツールの作成・配布を計画している.(A) 大規模テキストを圧縮によって直接比較する手法の開発および(B) システムの実装と実世界データでの実証実験および情報発信が焦点である.このような目的に対して,今年度は,データを一度圧縮して,パターン同士を関連づける文法と呼ばれるデータ構造に変換し,頻出なパターンを高速に集計できるオンラインアルゴリズムを構築した.また,このアルゴリズムを用いて,実世界データに対する予備実験を行い,その性能が十分であることを確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
アルゴリズムの開発が順調に進んだため,次年度以降の予定であった実世界データへの応用にすでに取りかかれるようになった.
|
今後の研究の推進方策 |
昨年度は、研究開始までに発表された当該分野の関連研究について研究事例のレビューをすることになったため、当初予定していた研究費の支出を保留した。予定していた品目について、次年度に改めて研究計画に沿った品目に対して支出する。今後は,基本アルゴリズムの開発と共に,実世界データへの応用を平行して行う.近年のソーシャルネットワークの発達により,様々なデータが社会に氾濫しているため,どのような問題に取り組むべきかを検討するため,異分野の研究者とコミュニケーションを取りながら研究を進める.
|
次年度の研究費の使用計画 |
これからは共同研究が重要となるため,研究費のほとんどを旅費に計上する計画である.開発は既存設備を利用可能である.また,その他として論文誌への投稿や英文校正のための費用等を計上する計画である.
|