2012 Fiscal Year Research-status Report
省メモリWebマイニング手法の開発とクラウドコンピューティングへの応用
Project/Area Number |
24500178
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Hiroshima City University |
Principal Investigator |
内田 智之 広島市立大学, 情報科学研究科, 准教授 (70264934)
|
Co-Investigator(Kenkyū-buntansha) |
正代 隆義 九州大学, システム情報科学研究科(研究院, 准教授 (50226304)
宮原 哲浩 広島市立大学, 情報科学研究科, 准教授 (90209932)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | グラフアルゴリズム / Webマイニング / 簡潔データ構造 / 機械学習 / クラウドコンピューティング / 順序木パターン / 順序木言語 |
Research Abstract |
研究課題の目的は、ユーザのネットサーフィンにおける閲覧履歴等から欲しい情報やノイズとなる情報を切り分けるために、Webページやマルチメディアデータの持つグラフ構造をはじめとする特徴を一体的に抽出する省メモリWebマイニング手法の開発を行い、クラウド・コンピューティングに基づくユーザ・オリエンティッドな情報検索・提示システムを開発することである。初年度となる24年度は、主として次の3テーマについて研究を行った。 1)Webコンテンツを対象とした木パターンとその簡潔データ構造の開発:構造変数を有する根付順序木である項木という木パターンに対する簡潔データ構造を定式化した。また、計算量的学習理論における項木に関する結果をもとに、項木をテキストやマルチメディアデータ、Webページのもつ構造的特徴を一体として表現できる木パターンへと拡張し、その簡潔データ構造への変換方法について研究を行った。 2)Webコンテンツを対象とした木パターンに関する計算量的機械学習理論の構築:項木およびそのグラフ言語に関するこれまでの計算量的機械学習理論の結果を精査し、画像などのマルチメディアデータを有するWebコンテンツから効率よく知識を獲得する手法について検討を行った。特に、画像などは順序グラフでモデル化することができるため、構造変数を有する順序グラフパターンを新たに定式化し、その諸属性問題を効率よく解く多項式時間マッチングアルゴリズムを提案した。 3)WebコンテンツからのオンラインWebマイニング手法の開発:これまでの研究において得られた成果である、簡潔データ構造を用いた順序木に対するマッチングアルゴリズムを用いた効率的な項木枚挙手法を提案した。さらに、所有していた計算機上に実装し、人工データを用いた評価実験を行った。 以上が本年度に得た研究実績の概要である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究初年度である24年度は、1 Webコンテンツを対象とした木パターンとその簡潔データ構造の開発、2 Webコンテンツを対象とした木パターンに関する計算量的機械学習理論の構築、3 WebコンテンツからのオンラインWebマイニング手法の開発 を研究テーマとして計画した。 研究テーマ1については、簡潔データ構造への提案変換手法を、Webコンテンツ上のテキストおよびその木構造を抽出するパーザーおよびマルチメディアデータである画像から情報を抽出するOpenCVライブラリを用いて年度末に購入した計算機上へ実装を開始している。研究テーマ2については、順序グラフに関する諸属性問題を解く多項式時間マッチングアルゴリズムを提案し、計算機に実装したうえで人工データを用いた評価実験を行った。これにより、研究テーマ1にこの結果を反映するための土台ができたと考えている。また、ネットサーフィンしたWebコンテンツから、それらの特徴をコンパクトに表現した項木の集合を枚挙する手法を提案し、かつ計算機上に実装した研究テーマ3と呼応して、マルチメディアデータを有するWebコンテンツに対応した項木に関する計算量的機械学習理論の土台を作ることができた。実装しての実験結果を見る限り、更なる高速化を図らなければならないが、項木を学習対象にしたオンラインWebマイニングシステムは実用的であると考えている。 以上のことから、全体的に見て、研究計画はおおむね順調に進展していると言える。
|
Strategy for Future Research Activity |
本研究課題は、簡潔データ構造を用いた省メモリ化を前提にしているため、計算論的学習理論の側面と実装しての実用面との両方から研究を進める必要がある。平成24年度は、理論面の構築と実用面で可能性を示す土台を作ったが、平成25年度以降は、より高速化、省メモリ化を目指したアルゴリズムの改良も同時に進める必要がある。よって、オンラインWebマイニングにより抽出された項木を効率よく管理できるデータ構造を開発し、項木に対する簡潔データ構造の長所を崩すことなく、音声、画像、映像の特徴量を追加・削除できる省メモリで実現可能な管理データ構造を開発する、「省メモリ木パターン管理手法の開発」を行う。平成24年度から逐次実装をしている手法を統合し、「簡潔データ構造を用いた省メモリオンラインWebマイニング手法」の開発および実装を行う。さらに、WebコンテンツからのオンラインWebマイニングシステムのプロトタイプを実装し、擬似環境下での評価実験を行ったうえで、できるだけ早期に実データでの評価実験が可能となるように、クライアントである携帯情報端末のアプリ開発も同時に行う予定である。そのために25年度にAndroid端末およびiOS上の携帯端末の購入を予定している。25年度末に、項木を対象とした省メモリオンラインWebマイニングシステムを携帯情報端末上で稼働させる方法が実用的であるか否か判断して、もし実用的でないと判断した場合は、システムをサーバー側で稼働させ、携帯情報端末を単なるクライアントとするクラウド・コンピューティングに基くシステムの開発にすぐに移行する予定である。また、研究過程で得られた研究成果はできるだけ迅速に国内および国際会議で発表し、雑誌等へ投稿する予定である。
|
Expenditure Plans for the Next FY Research Funding |
次年度の研究費は、24年度末に購入した計算機で使用するHDDなどの周辺機器の購入費用、クライアントしてタブレットなどの情報携帯端末を想定しているためその購入費用、および分担者との研究打ち合わせに必要な旅費、研究成果発表のための旅費・投稿費等で使用する予定である。
|