2013 Fiscal Year Research-status Report
省メモリWebマイニング手法の開発とクラウドコンピューティングへの応用
Project/Area Number |
24500178
|
Research Institution | Hiroshima City University |
Principal Investigator |
内田 智之 広島市立大学, 情報科学研究科, 准教授 (70264934)
|
Co-Investigator(Kenkyū-buntansha) |
正代 隆義 九州大学, システム情報科学研究科(研究院, 准教授 (50226304)
宮原 哲浩 広島市立大学, 情報科学研究科, 准教授 (90209932)
|
Keywords | グラフアルゴリズム / Webマイニング / 簡潔データ構造 / 機械学習 / クラウドコンピューティング / 順序木パターン / 順序木言語 |
Research Abstract |
研究課題の目的は、ユーザのネットサーフィンにおける閲覧履歴等から欲しい情報やノイズとなる情報を切り分けるために、Webページやマルチメディアデータの持つグラフ構造をはじめとする特徴を一体的に抽出する省メモリWebマイニング手法の開発を行い、ユーザ・オリエンティッドな情報検索・提示システムを開発することである。2年目となる平成25年度は、主として次の3テーマについて研究を行った。 1 簡潔データ構造を用いた省メモリオンラインWebマイニング手法の改良とその実装:平成24年度に提案した、テキストやマルチメディアデータ、Webページのもつ構造的特徴を一体として表現できる、構造変数を有する根付順序木である項木パターンの枚挙手法の高速化について研究を行った。与えられた木構造データに頻出する項木パターンを重複なく枚挙できるアルゴリズムを提案し、計算機に実装した上で人工データを用いた評価実験を行い、平成24年度に提案した枚挙手法より高速である結果を得た。 2 計算量的機械学習理論に基づく極大順序グラフパターンの発見手法の開発:画像やWebページの表示画面などは順序グラフでモデル化できため、平成24年度に定式化した構造変数を有する順序グラフパターンを対象に、その計算量的機械学習理論の構築を行った。特に、平成24年度に提案した多項式時間パターンマッチングアルゴリズムと新たに平成25年度に提案した極小言語を生成する順序グラフパターンを発見するMINLアルゴリズムを用いることにより、順序グラフパターンに対する多項式時間帰納推論可能性を示した。 3 省メモリ特徴パターン管理データ構造の開発:オンラインWebマイニングにより抽出された特徴的な項木パターンを効率よく管理でき、画像、映像の特徴を表す順序グラフパターンを効率よく管理できるデータ構造について研究を行った。 以上が本年度に得た研究実績の概要である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2年目となる平成25年度は、1. 簡潔データ構造を用いた省メモリオンラインWebマイニング手法の改良とその実装、2. 計算量的機械学習理論に基づく極大順序グラフパターンの発見手法の開発、3. 省メモリ特徴パターン管理データ構造の開発を研究テーマとして計画した。 研究テーマ1については、ネットサーフィンしたWebコンテンツから、それらの特徴をコンパクトに表現した項木パターンを重複なく枚挙する効率的なアルゴリズムを定数倍ではあるが高速化することができ、その研究成果を国際会議で発表した。研究テーマ2については、平成24年度に提案した順序グラフパターン順序グラフパターンに対する多項式時間マッチングアルゴリズムおよび極小な順序グラフパターン言語を生成する順序グラフパターンを発見する多項式時間MINLアルゴリズムを提案し、計算量的機械学習理論の観点から順序グラフパターンの多項式時間帰納推論可能性を示した。その研究成果を国際会議で発表した。研究テーマ3についてはテーマ1と呼応しており、特徴的な項木パターンの枚挙順を木で表現することで効率的なデータ構造を用いることができるが、画像や映像の構造的特徴を管理するデータ構造について研究中である。 テーマ3については遅れ気味ではあるが、全体的に見て研究計画はおおむね順調に進展していると言える。
|
Strategy for Future Research Activity |
これまで継続的に簡潔データ構造を用いた高速化と省メモリ化の研究を進めてきている。最終年度である平成26年度は、25年度末から始めているWebコンテンツからのオンラインWebマイニングシステムのプロトタイプを実装する。実装したシステムを用いた評価実験を行い、さらなるアルゴリズムの高速化と省メモリ化を目指す。これまでの研究結果から判断して、項木パターンを対象とした省メモリオンラインWebマイニングシステムを携帯情報端末上で稼働させるのは実用的ではない。このため、サーバーでオンラインWebマイニングを稼働させ、クライアントである携帯情報端末では出現位置を検索し提示させるアプリを作成してクラウド・コンピューティングに基づく情報検索・提示システムの開発を行う。クライアントで稼働するアプリとして、項木パターンの出現位置を枚挙する高速かつ省メモリなアルゴリズムを提案し、Andoroid端末あるいはiOS上の携帯端末上に実装し、使用感などのアンケート調査を行って改良を行う。アンケート調査を行うため、平成26年度もAndroid端末およびiOS上の携帯端末の追加購入を予定している。 また、研究過程で得られた研究成果はできるだけ迅速に国内および国際会議で発表し、雑誌等へ投稿する予定である。
|
Expenditure Plans for the Next FY Research Funding |
以下の理由により次年度使用額が生じた。 研究成果を海外発表論文としてまとめる際に行う論文校正作業費を使用しなかったこと、海外発表旅費が当初予定より少なく済んだこと、出張旅費を使用することを予定していた研究発表出張やそれに伴う学会参加費、研究分担者および研究連携者間の研究打合せをSkypeミーティング等で行ったことなどが大きな要因である。 海外発表した論文は論文校正作業が十分に行われているとはいえないため、Journal化作業には論文校正費が必要である。また平成25年度中ではまとめきれずに残ってしまった未発表成果を発表する旅費を確保する必要がある。システム開発をサポートしてもらうための費用やシステム開発用計算機、評価実験を効率よく行うための情報携帯端末の追加購入などを年度の早い時期に行う予定である。
|