研究課題/領域番号 |
24500175
|
研究種目 |
基盤研究(C)
|
研究機関 | 文教大学 |
研究代表者 |
阿部 秀尚 文教大学, 情報学部, 講師 (00397853)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 系列データマイニング / 系列パターン評価指標 / 分類学習 / 時系列クラスタリング |
研究概要 |
本年度は,系列データベース中で系列パターンが出現する頻度などから種々の性質を数値として計量化する系列パターン評価指標の開発と情報システムの利用者による操作に関する系列パターン評価指標に基づく操作予測モデルの構築を行った。 本研究では,これまで別々の対象領域の系列データについて開発が行われてきた指標について,系列パターンの評価指標として統一した視点を与える。このため,従来のテキストマイニングにおける重要度指標として用いられる頻度・tf-idfなどの他,頻出アイテム集合に対する評価指標として頻繁に用いられる3種類の評価指標を系列パターンの評価指標とした。本年度は,これらを定式化し,計算モジュールとして実装した。 評価指標の定義および頻度数え上げの基準を組み合わせた計7種の評価指標により,系列パターンをWebサイトのクリックストリームデータに適用し,それぞれの指標での並び替え順序の比較を行った。この結果を第8回情報システム学会において発表を行った。 また,系列パターン評価指標に基づくWebクリックストリーム予測モデル構築を行った。この結果,共通データセットとして提供されるWebクリックストリームデータセットにおいて,高い精度の予測モデルが得られることが示された。さらに,予測モデルに用いられる評価指標とその閾値を用いることで,別々の期間での予測モデルを適用できる可能性について検討を行った。これらをまとめ,人工知能と知識処理研究会(信学技報 Vol.112, No.477)において発表を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は,系列パターン評価指標の実装と評価を中心に研究を進める計画に対し,評価指標の定義および頻度数え上げの基準を組み合わせた計7種の評価指標の定式化を行い,実装した。この中で,計画中にあった系列パターン評価指標を基本指標としたメタ評価指標については,未実装として残されたため,今後,計算モジュールとして開発を行う。 また,一部,来年度において計画していた,利用者のタスク意図やそれに対する不具合の発生を目的とする事象(クラス)として与え,系列パターンの出現との関連性について,教師有り学習アルゴリズムを用いて両者の間の規則性を分類予測モデルとして抽出可能であることを示した。 情報システムにおける実システムでの操作履歴データの収集に関しては,適切な情報システムの検討を行うにとどまったが,従来のWebサーバログデータでの適用可能性を示すことができた。このため,当初想定より多くの情報システムからのログデータを対象とした系列データ収集を行っていくことが可能であることが明らかとなった。 以上より,一部当初計画とは異なる箇所はあったが,研究遂行上必要となる実証を先行して行ったためであり,全体の研究計画の遂行は概ね順調に進展しているものと考える。
|
今後の研究の推進方策 |
次年度においては,年度前半において,発話などの自然言語によるテキストを含む情報システム上での利用者タスク意図の検出を行うため,系列データの収集を行う。さらに,操作と語句の双方に対する系列パターンによる属性を含む表形式データセットへのルールマイニングを実行する。出力されたif-then形式のルールが指摘する語句や操作系列について,タスク意図や不具合事象につながるものとしての有用性については,専門家に評価を依頼する。 さらに,時点毎に計量化を行った時系列データからパターンを得るため,複数の時系列クラスタリング手法を適用する。ここで得られた時系列パターンの組み合わせについて,複数の手法による時系列パターンを属性とした分類ルール学習の正解率をもって,客観的な評価を行う。 また,語句や系列パターンの出現の多寡や構成要素の組み合わせの特異性を表す指標を基本指標とするメタ指標計算モジュールの開発を行う。従来のメタ指標では,特定の基本指標に閾値処理を加えることによって中心性や名望度を計量化してきた。本研究では,それ以外の基本指標との組み合わせによるメタ指標が計量化する系列パターンの性質について,実証的な検証を行う。 以上の数値時系列パターン,系列パターン評価指標群により,複合形式データから従来の表形式データセットを作成し,評価用データセットとして公開する。表形式データセットに対しては,ルールマイニング以外に種々の分類モデルマイニングなど従来のデータマイニング手法の適用が可能となることを示す。 さらに,次々年度においては,時系列パターンの視覚化と目的とする事象との規則性に基づく記述を提示するシステムを作成し,専門家による分類ルールの評価作業支援について効率性向上の観点から評価を行う。また,時間粒度の異なる時系列データセットを作成し,得られる操作系列の差異についても専門家の視点から評価を行う。
|
次年度の研究費の使用計画 |
昨年度,未達成であった系列パターン評価指標の各指標に閾値処理などを加えてネットワーク上の中心度などを測るメタ指標について,基本評価指標とそれに対する演算処理とに分けて整理することで,新たなメタ指標の開発を行う。新たなメタ指標は,任意の系列パターンの基本評価指標と併せて,系列パターンの評価が行えるよう,実装する。 そのため,開発用計算機と研究協力者による開発協力を仰ぐことを予定しており,本年度における差額の一部を活用し,研究計画の促進を図る。
|