研究課題/領域番号 |
26730155
|
研究機関 | 神戸大学 |
研究代表者 |
松本 真佑 神戸大学, その他の研究科, 助教 (90583948)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | クラウド / ウェブマイニング / ソフトウェアリポジトリ / MSR / トレンドマイニング |
研究実績の概要 |
トレンドマイニングの実現に向け,本年度は,(1)Webリソースのクローリング技術,(2)クローリング結果の統合データベースの設計,及び,(3)1と2を活用したJavaScript最適化技術の普及率の調査,の3つの研究に取り組んだ.(1)と(2)ではWeb上に存在する様々なWebリソースを読み込み,マイニング処理しやすい形に処理を加えた上で大規模データベースに保持する仕組みである.膨大な数のWebデータを処理するためのスケールアウト可能な設計となっている.動作確認として,Amazonの仮想Webサーバに本コンポーネントを設置し複数台並列でのクローリングを実施中である.(3)では(1)と(2)の活用事例として,あるWebトレンド技術のマイニング,及び調査に取り組んだ.具体的な対象はJavaScript Minificationと呼ばれる技術であり,JavaScriptに対して事前に最適化や圧縮処理を加えることでネットワーク通信量の削減を狙う手法である.さらにHTTP圧縮と呼ばれる,HTTP通信のパケットを圧縮して転送する技術も同様に調査対象のWeb技術とした.これらの手法は副作用が小さい一方で,ネットワーク通信量をわずかに低減できるという意味で,いわゆる低リスク・低効果なWeb技術であるといえる.しかしながら,HTML5の普及によりJavaScriptに与えられる責務は増すばかりであり,その普及率とファイルサイズは今後も増加の一途をたどると考えられる.そのため,このMinification技術とHTTP圧縮を一つのWeb技術ととらえ,その利用の実態を調査し世の中に発信することは,今後のより良いWebの構築に貢献すると考えられる.調査結果として,アクセスランキングの高い,すなわち需要の高い大手Webサイトであっても,Minification処理を徹底している割合は6%にとどまっていることが明らかとなった.また,HTTP圧縮は90%近い普及率を持っている一方で,アクセスランキングが高くない,その他のWebサイトでは20%にとどまっていることが分かった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
おおむね順調であると考える.平成26年度に実施予定であった,トレンド技術の調査やマイニング手法の検討,クローリング技術の開発といった点を本年度に実施出来たためである.トレンド技術の調査においては,CSSの前方ロード,スクリプトの後方ロード,インライン画像,CSSスプライト,JavaScriptでの閉包関数によるスコープ閉じ込め,JSONPなど,Web技術者に対してマイニングする価値のある技術を洗い出すことが出来た.ただし,計画では良い効果を与える技術だけでなく,初学者がやりがちな誤った悪い技術(バッドノウハウと呼ぶ)の定義を検討していたが,この点については未検討段階である.Webはソースコードが利用者に公開されるという一般的なソフトウェアとは異なるアーキテクチャを持つ.そのため,ひとまず動けば良いという考えで作られたバッドノウハウを多く含むWebリソースを参考に,さらに別のWeb開発者がそのノウハウを転用してしまうといった悪い知識の伝播という現象が存在する.この悪い伝播も本研究のトレンドマイニングによって検出することも本研究の意義の一つであり,今後取り組んでいく予定である.バッドノウハウの定義に関しては計画よりも遅れている一方で,クローリング結果の統合データベースについては計画よりも順調に進んでいる.特にScript MinificationとHTTP圧縮の2つの技術を実際にマイニングできた点については,計画よりも大幅に進んでいる点であるといえる.この調査は本研究で想定しているトレンドマイニングのごく一部ではあるが,この一部を早めに実施し,トレンドマイニング自体の修正点や改善点を洗い出せたことは,研究を大きく推進させる契機となった.
|
今後の研究の推進方策 |
これまでの計画がおおむね順調であるため,研究計画に従って進めていく予定である.まず今年度のやり残しとして,バッドノウハウの定義と,そのマイニング方法の検討を早期に実施する予定である.良いノウハウとは対照的にバッドノウハウはそれ自体に名称がつけられていないことが多く,その定義が困難である.まずはこれらをアンチパターンとしてまとめる必要があると考える.さらにScript MininficationとHTTP圧縮以外のWeb技術の発掘に取り組む予定である.まずは対象となるWeb技術それぞれのマイニング方法について検討し,その結果をいかにメトリクス化するかを考える.これらの方法に基づき,実際のWebに対してトレンド発掘を行う.これらの事前に定義されたトレンド技術のマイニングと提示だけでなく,ソースコードの検索システムにも取り組んでいく予定である.トレンド技術とはその時々に応じて変化するものであり,事前定義のトレンド技術の提示だけでは世の中の変化には対応できない.そこでソースコードの検索システムを取り入れることで,Webに公開されているソースコード,すなわち利用事例そのものを開発者が参考にするといった方法が可能となる.たとえば次世代のJavaScriptバージョン(ECMAScript 6)で取り入れられるPromiseと呼ばれるAPIを取り入れたい開発者がいた場合,Google等でPromiseを検索して利用方法を探すことも可能であるが,新しすぎる技術は検索で見つかる記事が少ないケースもある.この時にソースコード検索システムを用いて"new Promise()"のような事例を検索することで,実際にPromiseがどのように使われているかを把握することが可能となる.
|