• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2016 年度 実績報告書

フィルタ型特徴選択法の統一理論と高性能アルゴリズム

研究課題

研究課題/領域番号 26280090
研究機関学習院大学

研究代表者

久保山 哲二  学習院大学, 計算機センター, 教授 (80302660)

研究分担者 申 吉浩  兵庫県立大学, その他の研究科, 教授 (60523587)
チャクラボルティ バサビ  岩手県立大学, ソフトウェア情報学部, 教授 (90305293)
橋本 隆子  千葉商科大学, 商経学部, 教授 (80551697)
研究期間 (年度) 2014-04-01 – 2018-03-31
キーワード特徴選択 / フィルター型 / カテゴリカルデータ / トピック抽出
研究実績の概要

昨年度までに、フィルタ型の特徴選択アルゴリズムについて大きな2つの成果をあげた。我々の開発しているアルゴリズムCWCは、単純な2値一貫性評価指標(consistency measure)を用いることにより、複数の特徴間の相互作用を非常に効率よく検出できる。この2値一貫性評価指標と従来の特徴選択アルゴリズムで用いられてきた複数の一貫性評価指標との間に、理論的な階層構造があることを示し、この構造を裏付ける実験結果を得たこと、および、大量のデータに対する非常に効率の良い探索戦略をアルゴリズムに組み込んだことである。これらの成果を本年度はさらに発展させ、主として以下の2つの研究成果を得た。
(1) 線形探索に基づいていた従来のアルゴリズムを、二分探索に基づく高速な探索に改良し、CWCに組み込みこんだ。さらに、疎データに対応したメモリ効率の高い新しい実装をScalaで行いGithubで公開した。
(2) 大量のツイッターデータからのトピック抽出に、本研究で開発した特徴選択アルゴリズムを適用し、応用した成果をデータマイニングに関する国際ワークショップにて公表した。約100万ツイッターIDと、23万単語からなるデータセットに対して、ノートPC上の処理系で約15分で結果が得られることを示した。また、本アルゴリズムは大幅な特徴の絞込が可能であるが、選択する特徴数をパラメータとして与える必要がないことが大きな特徴である。
(3) 一貫性指標による特徴選択手法と深い関わりのあるラフ集合に関する研究が盛んなポーランドのヴロツワフ科学技術大学にて、ワークショップを開催し、本研究テーマに関する講演と共同研究のための情報交換を行った。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

特徴選択アルゴリズムCWCの高速な実装をScalaによりおこない、広く利用できるようにソースコードをGithubで公開した。また、大量のツイッターデータからのトピック抽出への応用を示した。並列化の実装の実験も引き続き行っているものの、当初想定していたほどの高速化が実現できていない。この点で課題を抱えているものの、本研究課題の進捗状況はおおむね順調に進展しているといえる。

今後の研究の推進方策

適用領域拡大のため、さらにトピック抽出以外への応用を探索してゆく予定である。また、本研究のアルゴリズムは一貫性評価指標を用いるという仕組みから原理的にカテゴリカルデータが対象となる。現在、順序変数を特徴に持つ場合には、精度の高い特徴選択が可能であることがわかっているものの、連続値変数を特徴として持つデータの離散化には、検討の余地があるため、本研究課題で開発したアルゴリズムに適した離散化手法の開発を引き続き行う予定である。

次年度使用額が生じた理由

当初、委託での作成を予定していた開発アルゴリズムの公開用ソフトウェア実装を、研究グループ内で行ったこと、および、7月にポーランドヴロツワフ科学技術大学で開催した、ラフ集合および特徴選択分野の専門家らとの研究集会に際して、予定していた他の研究者への旅費支給が不要となったことから、研究費を節約できたため。

次年度使用額の使用計画

今年度は、さらに本研究成果の公知と適用領域拡大のために主に次の2つの計画をたてている。
(1) 現在の公開ソフトウェアをさらに使いやすく、また高速にするための実装、およびドキュメントの拡充。
(2) 本研究の成果の応用を広げるための研究活動、および、国際的な共同研究に結びつけるための国際セミナーの開催。

  • 研究成果

    (11件)

すべて 2017 2016 その他

すべて 国際共同研究 (2件) 雑誌論文 (5件) (うち国際共著 1件、 査読あり 5件、 謝辞記載あり 3件) 学会発表 (2件) 備考 (1件) 学会・シンポジウム開催 (1件)

  • [国際共同研究] Wroclaw Univ. of Science and Technology(Poland)

    • 国名
      ポーランド
    • 外国機関名
      Wroclaw Univ. of Science and Technology
  • [国際共同研究] Digital Humanities, UCLA(米国)

    • 国名
      米国
    • 外国機関名
      Digital Humanities, UCLA
  • [雑誌論文] Topic Extraction Method from Millions of Tweets Based on Fast Feature Selection Technique CWC2016

    • 著者名/発表者名
      Takako Hashimoto, Dave Shepard, Tetsuji Kuboyama, Kilho Shin
    • 雑誌名

      Proc. IEEE International Conference on Data Mining Workshops

      巻: IEEE Comp. Soc. Ord. No. E6018 ページ: 724-731

    • DOI

      10.1109/ICDMW.2016.0107

    • 査読あり / 国際共著 / 謝辞記載あり
  • [雑誌論文] Fast Hilbert Sort Algorithm Without Using Hilbert Indices2016

    • 著者名/発表者名
      Yasunobu Imamura, Takeshi Shinohara, Kouichi Hirata, Tetsuji Kuboyama
    • 雑誌名

      Lecture Notes in Computer Science (SISAP)

      巻: 9939 ページ: 259-267

    • DOI

      10.1007/978-3-319-46759-7_20

    • 査読あり / 謝辞記載あり
  • [雑誌論文] Using canonical representations of block tree patterns in acquisition of characteristic block preserving outerplanar graph patterns2016

    • 著者名/発表者名
      Fumiya Tokuhara, Tetsuhiro Miyahara, Yusuke Suzuki, Tomoyuki Uchida, Tetsuji Kuboyama
    • 雑誌名

      Proc. 9th IEEE International Workshop on Computational Intelligence and Applications

      巻: IEEE Cat. No. CFP1661U-ART ページ: 93-99

    • DOI

      10.1109/IWCIA.2016.7805755

    • 査読あり
  • [雑誌論文] A Fast and Accurate Feature Selection Algorithm Based on Binary Consistency Measure2016

    • 著者名/発表者名
      Kilho Shin, Seiya Miyaza
    • 雑誌名

      Computational Intelligence

      巻: 32(4) ページ: 646-667

    • DOI

      10.1111/coin.12072

    • 査読あり / 謝辞記載あり
  • [雑誌論文] Breaking Anonymity of Social Network Accounts by Using Coordinated and Extensible Classifiers Based on Machine Learning2016

    • 著者名/発表者名
      Eina Hashimoto , Masatsugu Ichino , Tetsuji Kuboyama , Isao Echizen, Hiroshi Yoshiura
    • 雑誌名

      Lecture Notes in Computer Science (IFIP)

      巻: 9844 ページ: 455-470

    • DOI

      10.1007/978-3-319-45234-0_41

    • 査読あり
  • [学会発表] クラスタ構造を仮定した場合の双クラスタリングアルゴリズムの解析2017

    • 著者名/発表者名
      山浦智佳子 (共著者: 小林靖明, 山本章博, 久保山哲二)
    • 学会等名
      第103回人工知能基本問題研究会(SIG-FPAI)
    • 発表場所
      湯布院公民館
    • 年月日
      2017-03-13 – 2017-03-14
  • [学会発表] モジュラリティを基準とした関係データに対する特徴選択2017

    • 著者名/発表者名
      紫藤佑介 (共著者: 山本章博,小林靖明,久保山哲二)
    • 学会等名
      第103回人工知能基本問題研究会(SIG-FPAI)
    • 発表場所
      湯布院公民館
    • 年月日
      2017-03-13 – 2017-03-14
  • [備考] sCWC: very fast feature selection for nominal data

    • URL

      https://github.com/tkub/scwc

  • [学会・シンポジウム開催] High Dimensional Data Summarization for Discrete Structures (Special Session in SISA2016)2016

    • 発表場所
      Classic Kameo Hotel & Serviced Apartments, Ayutthaya
    • 年月日
      2016-09-14 – 2016-09-14

URL: 

公開日: 2018-01-16   更新日: 2022-02-16  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi