研究課題/領域番号 |
26280090
|
研究機関 | 学習院大学 |
研究代表者 |
久保山 哲二 学習院大学, 計算機センター, 教授 (80302660)
|
研究分担者 |
申 吉浩 兵庫県立大学, 応用情報科学研究科, 教授 (60523587)
チャクラボルティ バサビ 岩手県立大学, ソフトウェア情報学部, 教授 (90305293)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 特徴選択 / カテゴリカルデータ / 疎データ |
研究実績の概要 |
本年度は、カテゴリカル・データを対象としたフィルターアプローチに基づく高速な特徴選択アルゴリズムCWCおよびLCCについて、主として次の2つの成果を得た。 (1)CWCでは最も単純な2値一貫性評価関数を用いて特徴を取捨選択している。従来の類似研究では、ベイズリクス(またはICR)、条件付きエントロピー等が使われてきた。本年度は、これらの指標間に存在する階層関係を解析し、これまでに知られていなかった一貫性評価関数間の関係を理論的に明らかにした。また、実験的にも理論的に導き出された階層関係を裏付ける結果が得られた。この成果は人工知能関連の国際会議IJCAI2015に採択された。 (2)CWCの探索戦略を二分探索改良し、特徴語抽出等に対応するために疎データにも対応させることにより、従来よりさらに高速かつ省メモリなシステムをScalaにより実装した。また、実際に大量のTwitterデータに本実装を適用することにより、その効果を示した。また、この成果により、本アルゴリズムは、我々の知る限り、カテゴリカル・データの特徴選択では世界一高速かつ高精度である。この成果は国際会議IEEE BigData2015に採択された。 これらの成果に基づき、米国のUCLAのDigital Humanities およびタイのチュラロンコン大学工学部にて、本研究課題の成果を広く様々な研究領域で活用できるように、特徴選択とその応用に関するセミナーを開催した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
アルゴリズムの開発では、探索戦略を見直すことにより、性能的に拮抗していた既存研究を実質的に凌ぐ新しいアルゴリズムの提案に成功しており、今後もさらなる改良が見込める状況である。理論的にも、従来研究で提案された様々な特徴選択指標間の関係を理論的に位置づけることに成功している。当初研究計画にあった並列化に関しては、並列化せずともさらに探索戦略の高速化が見込めるため、優先度を下げている。以上の状況に鑑みると、本研究課題の進捗状況はおおむね順調に進展しているといえる。
|
今後の研究の推進方策 |
本研究成果は、自然言語処理やバイオインフォマティクスの分野でも活用されつつあり、それぞれの分野への応用のために、次の課題に取り組む予定である。 (1)大規模文書からのトピック語抽出を想定し、二値の特徴変数に特化した大規模疎ブール行列を対象とする処理系を構築する。また、クラスラベルを想定しない特徴選択アルゴリズムの開発もあわせてすすめる。 (2)マイクロアレイデータ等の連続値データへの応用を想定し、CWCを順序変数を扱えるように拡張する。また、CWCの性質を利用した連続値の離散化アルゴリズムについても継続して検討をすすめる。 アルゴリズムの改良についても継続してすすめる。本年度は特徴数に対する計算量を大幅に改善することができた。同様に、データインスタンス数に対する計算量についても、改善できる見通しであるため、当初の並列化の計画の優先度を下げて、アルゴリズムの改良に取り組む。本研究成果の応用領域での有用性を示すために、すでに、大規模Twitterデータに対して本研究の成果を適用している研究者を新たに研究分担者に加えた。
|
次年度使用額が生じた理由 |
海外でセミナーを開催した際に、想定していた参加者の旅費が、1名分不要になったため。
|
次年度使用額の使用計画 |
今年度開催予定の本研究に関連したワークショップへの参加者の旅費に充てる。
|