研究課題/領域番号 |
26730155
|
研究機関 | 大阪大学 |
研究代表者 |
松本 真佑 大阪大学, 情報科学研究科, 助教 (90583948)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | クラウド / ウェブマイニング / ソフトウェアリポジトリ / MSR / トレンドマイニング |
研究実績の概要 |
本年度は平成26年度(前年度)に開発した,トレンドマイニングを支える各種技術の基盤化に取り組んだ.具体的には,Webリソースのクローリング技術とクローリング結果の統合データベースの2点を,複数の計算機で処理可能な並列処理環境へ移植に取り組んだ.移植の際は,Amazonが提供するクラウドインフラ環境(AWS),および既に高い実績を持つHadoop/MapReduceフレームワークといった既存の技術を利用することにより,効率的な研究の達成を目指した.この並列処理化により,これまでアクセスランキングのトップ500程度にとどまっていたマイニング対象を,Web全体へと大幅に広げることが可能となる.このスケーラビリティの向上は,Web全体でのトレンドを見つけ出すという本研究の目的に対して,重要な役割を担う実績であると考える.これらの成果を国内ワークショップと国際会議で発表し議論を行った.一方で,並列処理化は難航気味である.まず,Webのクローリング実施の際に発生しがちな,短時間での多リクエストによるアクセスBANや,DBへの同時書き込みといった問題が発生した.さらに,近年のWeb技術に依存した課題として,JavaScriptを用いたクライアント側での動的なWebページの生成,ページのスクロール同期ロード,クライアントに応じたレスポンス結果の動的な変化などの技術に対するクローリングが必要であった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
初年度の計画と比較して,わずかに遅れているのが現状である.概要にあげたとおり,クローリングにありがちな問題への対策,さらには最新のWeb技術に固有の課題への対策が必要だったためである.後者の問題の内,スクロール同期ロードについて考える.この技術はページのスクロールに応じて次のページを動的にロードする方法である.アクセス時の初期データ転送やDOM構築処理を減らすことが可能であり,ここ数年で大幅に広まった一方で,ページ全体の検索が出来ない,ページの後半へのアクセシビリティが低いといった問題がある.そのため,この技術を使うべきかどうかについては様々な議論がなされている.この技術の現状を幅広く調査できれば,本研究のトレンド技術を見つけ出すという目的において良い題材となると考える.これらの調査のためには,クローリングプログラム上にJavaScriptの実行エンジンが必要であり,難航しているのが現状である.現在はこれらの問題の解決に取り組んでいる.
|
今後の研究の推進方策 |
まず,並列処理化で発生した課題の解決に取り組む.研究全体の遂行を第一とするために,進捗状況によっては前述のJavaScript実行エンジンの適用の優先度を下げることも視野に入れる.優先すべきタスクは,トレンド検索システムの開発,およびWebエンジニアに対する実地調査である.トレンド検索システムの開発においては,様々な提示方法,見せ方がありよく検討する必要がある.たとえば,Web上のサービスとして公開しトレンドの現状を提示する俯瞰的な見せ方や,特定のWebサイトに対し解析結果を見せると行った個別的な見せ方などが考えられる.さらに,本研究により得られたマイニング結果は,トレンド技術の提示だけに限らず,悪い技術の検出や動的なコード補完にも応用が可能と考えている.数々の実例に基づいた実装技術を蓄えているため,実装の最中にその近辺のコードによく似たコードを提示するほか,よくない実装に警告を出す等の応用についても検討する予定である.
|