研究課題/領域番号 |
24500175
|
研究機関 | 文教大学 |
研究代表者 |
阿部 秀尚 文教大学, 情報学部, 講師 (00397853)
|
キーワード | 系列パターン評価指標 / 属性構築 / 時系列クラスタリング / 転移学習 |
研究概要 |
本研究では,これまで別々の対象領域の系列データについて開発が行われてきた指標について,系列パターンの評価指標として統一した視点から評価指標群の開発を行っている。このため,本年度は,系列データベース中で系列パターンが出現する頻度などから種々の性質を数値として計量化する系列パターン評価指標の拡充を行った。また,情報システムの利用者による操作に関する系列パターン評価指標に基づく操作予測モデルの別期間への適用可能性について評価した。さらに,先行研究で示したテキストにおける評価指標群の時系列変化パターンと系列パターン評価指標による時系列変化パターンについて,評価指標間でパターンの検出傾向にどのような関連があるかを比較した。 評価指標の拡充では,従来,自然言語処理における用語の自動抽出で用いられてきた評価指標と,語彙の豊富さを表す指標について,系列パターン評価指標としての有用性とそれぞれの指標による並び替え結果の相関について比較評価を行った。 系列パターン評価指標に基づくWebクリックストリーム予測モデルの評価では,共通データセットとして提供されるWebクリックストリームデータセットにおいて,別々の期間での予測モデルを適用できる可能性について評価した結果を示した。 系列パターン評価指標による時系列変化パターンの検出では,四半期ごとのWebクリックストリームデータセットにおいて,時系列変化に伴う系列パターンの変遷を検出することを示した。また,複数の系列パターン評価指標間で時系列クラスタに含まれる系列パターンの関連性について,連関係数を用いて評価した。この結果,テキストデータにおける変化パターンの連関よりも指標間での連関が小さなことが示され,各期間における順位相関が高い2指標でも時系列変化では異なる傾向をとらえていることが示唆された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は,系列パターン評価指標の実装について,用語性評価指標と語彙の豊富さを示す指標の計3種の評価指標の定式化を行い,実装した。これらの指標は本年度前半に計画していたものであり,前年度の7指標同様に評価傾向の比較を行い,評価傾向の差異を評価することができた。なお,計画中にあった系列パターン評価指標を基本指標としたメタ評価指標については,これまで定式化した10指標を用いて,定式化と実装を行う。 一方,複数の系列パターン評価指標による時系列変化の検出では,時間経過による変化を反映した属性の構築が時系列テキストデータに対する属性構築同様に可能であることを示した。これにより,系列パターン評価指標による期間毎の評価と時間経過に伴う変遷を反映する時系列クラスタを情報システムのログデータからの利用者意図の検出モデルに属性として加えることが可能になったと考えられる。 以上より,一部当初計画とは異なる箇所はあったが,研究遂行上必要となる実証を先行して行ったためであり,全体の研究計画の遂行は概ね順調に進行していると考えている。
|
今後の研究の推進方策 |
次年度においては,時系列パターンの視覚化と目的とする事象との規則性に基づく記述を提示するシステムを作成し,専門家による分類ルールの評価作業支援について効率性向上の観点から評価を行う。また,時間粒度の異なる時系列データセットを作成し,得られる操作系列の差異についても専門家の視点から評価を行う。 これらを実現するため,時間経過とともに収集される情報システムのログデータを基に,特定のページへのアクセスや不具合への遭遇などを検出するモデルの構築を行う。このため,当初は共通データセットとして用意されたログデータを対象に,系列パターンの抽出と各評価指標の算出,これら評価指標群に基づく時系列パターンの生成,各評価指標の代表値と時系列パターンによる複合的な属性集合の構築を行う。これらの属性を持つデータセットを用い,目的とする事象への分類モデルを構築することによって,複合形式のデータからの規則性の抽出を行う。 さらに,時系列パターンの生成を行う時系列クラスタリング手法について,複数の手法を用いて,前述の分類モデルがどのように変化するかを正解率などの評価指標による定量的評価,および解釈容易性に関する定性的評価を行うことを目指す。
|
次年度の研究費の使用計画 |
本年度は,昨年度からの繰越金を用いて開発環境の整備を拡充し,これを実施した。開発環境の拡充については,概ね計画の通り実施できたものといえる。 しかしながら,研究成果発表について予定していた旅費について,当初計画より少額となったため,次年度使用額が生じる結果となった。 次年度は,系列パターン評価指標の各指標に閾値処理などを加えてネットワーク上の中心度などを測るメタ指標について,基本評価指標とそれに対する演算処理とに分けて整理することで,新たな組み合わせが可能なメタ指標の開発を行い,これらを実装する。そのため,本年度導入の開発用計算機を活用し,研究協力者によるさらなる開発協力を仰ぐことを計画している。 また,複雑かつ大規模なデータセットから膨大な系列パターンや時系列パターンの計算を高速に行うため,クラウド技術を利用した大規模高速計算基盤の利用を行い,研究計画の促進を図っていく。
|