研究課題/領域番号 |
26280090
|
研究機関 | 学習院大学 |
研究代表者 |
久保山 哲二 学習院大学, 計算機センター, 教授 (80302660)
|
研究分担者 |
申 吉浩 兵庫県立大学, その他の研究科, 教授 (60523587)
チャクラボルティ バサビ 岩手県立大学, ソフトウェア情報学部, 教授 (90305293)
橋本 隆子 千葉商科大学, 商経学部, 教授 (80551697)
|
研究期間 (年度) |
2014-04-01 – 2018-03-31
|
キーワード | 特徴選択 / フィルター型 / カテゴリカルデータ / トピック抽出 |
研究実績の概要 |
昨年度までに、フィルタ型の特徴選択アルゴリズムについて大きな2つの成果をあげた。我々の開発しているアルゴリズムCWCは、単純な2値一貫性評価指標(consistency measure)を用いることにより、複数の特徴間の相互作用を非常に効率よく検出できる。この2値一貫性評価指標と従来の特徴選択アルゴリズムで用いられてきた複数の一貫性評価指標との間に、理論的な階層構造があることを示し、この構造を裏付ける実験結果を得たこと、および、大量のデータに対する非常に効率の良い探索戦略をアルゴリズムに組み込んだことである。これらの成果を本年度はさらに発展させ、主として以下の2つの研究成果を得た。 (1) 線形探索に基づいていた従来のアルゴリズムを、二分探索に基づく高速な探索に改良し、CWCに組み込みこんだ。さらに、疎データに対応したメモリ効率の高い新しい実装をScalaで行いGithubで公開した。 (2) 大量のツイッターデータからのトピック抽出に、本研究で開発した特徴選択アルゴリズムを適用し、応用した成果をデータマイニングに関する国際ワークショップにて公表した。約100万ツイッターIDと、23万単語からなるデータセットに対して、ノートPC上の処理系で約15分で結果が得られることを示した。また、本アルゴリズムは大幅な特徴の絞込が可能であるが、選択する特徴数をパラメータとして与える必要がないことが大きな特徴である。 (3) 一貫性指標による特徴選択手法と深い関わりのあるラフ集合に関する研究が盛んなポーランドのヴロツワフ科学技術大学にて、ワークショップを開催し、本研究テーマに関する講演と共同研究のための情報交換を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
特徴選択アルゴリズムCWCの高速な実装をScalaによりおこない、広く利用できるようにソースコードをGithubで公開した。また、大量のツイッターデータからのトピック抽出への応用を示した。並列化の実装の実験も引き続き行っているものの、当初想定していたほどの高速化が実現できていない。この点で課題を抱えているものの、本研究課題の進捗状況はおおむね順調に進展しているといえる。
|
今後の研究の推進方策 |
適用領域拡大のため、さらにトピック抽出以外への応用を探索してゆく予定である。また、本研究のアルゴリズムは一貫性評価指標を用いるという仕組みから原理的にカテゴリカルデータが対象となる。現在、順序変数を特徴に持つ場合には、精度の高い特徴選択が可能であることがわかっているものの、連続値変数を特徴として持つデータの離散化には、検討の余地があるため、本研究課題で開発したアルゴリズムに適した離散化手法の開発を引き続き行う予定である。
|
次年度使用額が生じた理由 |
当初、委託での作成を予定していた開発アルゴリズムの公開用ソフトウェア実装を、研究グループ内で行ったこと、および、7月にポーランドヴロツワフ科学技術大学で開催した、ラフ集合および特徴選択分野の専門家らとの研究集会に際して、予定していた他の研究者への旅費支給が不要となったことから、研究費を節約できたため。
|
次年度使用額の使用計画 |
今年度は、さらに本研究成果の公知と適用領域拡大のために主に次の2つの計画をたてている。 (1) 現在の公開ソフトウェアをさらに使いやすく、また高速にするための実装、およびドキュメントの拡充。 (2) 本研究の成果の応用を広げるための研究活動、および、国際的な共同研究に結びつけるための国際セミナーの開催。
|