2012 Fiscal Year Research-status Report
非観測情報の統計的推定によるWebアプリケーション識別
Project/Area Number |
23500075
|
Research Institution | Tohoku University |
Principal Investigator |
和泉 勇治 東北大学, 情報科学研究科, 准教授 (90333872)
|
Co-Investigator(Kenkyū-buntansha) |
田中 和之 東北大学, 情報科学研究科, 教授 (80217017)
|
Keywords | Webアプリケーション識別 / 特徴量 / コネクション同時発生数 |
Research Abstract |
本年度は,Webアプリケーション利用時に発生するトラヒックの識別実験を通し,必要な特徴量についての検討を主に行った.トラヒックの数値化方式である特徴量抽出の際にまず問題となったのは,一つのWeb画面を生成する際に複数のコネクション(端末とサーバ間の回線)が同時に発生し,画像検索と地図サービスなどでは,複数のコネクションで画像のダウンロードが並列で行われるため,個々のコネクションの転送内容の種別の推定のみでは,全体としてどのWebアプリケーションを利用しているのかが不明確な点である. そこで,複数の画像をダウンロードするWebアプリケーションのコネクション発生のタイミングについて時系列での分析を行ったところ,あるコネクションを発生時点を基準としたコネクションの並列数がWebアプリケーション毎に異なり,それが統計的に分離可能であることが判明した.この知見を利用し,ネットワークトラヒックから抽出する数値列に,該当コネクション発生時点から一点期間内での新規コネクションの発生数を取り込むことにより,複数の画像を並列的にダウンロードするWebアプリケーションが識別可能であることを実験的に確認出来た. 具体的な識別アルゴリズムとしては,k-meansとAffinity Propagationのクラスタリングアルゴリズムを学習データに適用し,求まったクラスタの重心をテンプレートとしたテンプレートマッチングを利用した.これにより,Webメール,画像検索,Webページ検索,地図,動画の識別を85%以上の正解率で達成することが出来た.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
識別精度の観点からは,85%以上の正解率を得ていることから当初の計画時点よりも進展していると認識している.しかし,識別アルゴリズムとしては,単純なクラスタリングによる学習データの量子化による汎化性の向上を実現している程度であり,より詳細な確率モデルによる識別の実現までは進んでいない状況にある.具体的には,コネクションの同時発生数とデータサイズの遷移を組み合わせることで上記の識別精度が達成出来ているはが,この二種類の観測量の統計的分布をガウス分布により近似し,確率的にWebアプリケーションの識別を試みた場合,クラスタリング以上の識別精度を達成することが出来ていない.この理由により,Webアプリケーション識別に有効な確率モデルの提案まで実現できておらず,やや遅れていると判断する.
|
Strategy for Future Research Activity |
今年度までは,ネットワークの観測量をガウス分布で近似し,同時確率として未知の観測量に対するアプリケーション種別毎の確率を算出し,最大のものを識別結果としているのみであった.ここまでの研究科結果から,アプリケーション種別とコネクションの同時発生数,コネクションを構成するデータサイズの遷移に因果関係,または,相関関係が存在し得ることが明らかとなっている.例えば,地図サービスの利用においては,地図を構成する複数の画像をダウンロードするため,比較的大きなデータが連続してダウンロードされ,それらが多数同時に発生している.つまり,地図サービスにおいては,短時間に大きなサイズのデータが複数のコネクションによって転送される特性があるということになる. このような観測量間の相関関係を積極的にモデルに取り込むことにより,より高精度な識別を実現する識別モデルの提案を主に研究を進めていく予定である.
|
Expenditure Plans for the Next FY Research Funding |
24年度までの識別実験を通して,Webアプリケーション識別システムの基礎的な枠組みは完成している.ここに,今後の研究推進方策で言及した観測量間の相関関係を考慮して識別モデルとそれを利用した識別アルゴリズムを組み込むことにより,より高精度な識別システムの構築を行う予定である.ネットワークトラヒックから抽出される特徴量は,非常に大規模なものになり,それらを組み合わせ相関関係を学習することは計算コストが非常に高くなることになる.その計算を現実的な時間で実現出来るワークステーションの購入を検討している.また,研究成果の公開のための学会参加費などが研究費の主な支出になる予定である.
|
Research Products
(3 results)