• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Annual Research Report

フィルタ型特徴選択法の統一理論と高性能アルゴリズム

Research Project

Project/Area Number 26280090
Research InstitutionGakushuin University

Principal Investigator

久保山 哲二  学習院大学, 計算機センター, 教授 (80302660)

Co-Investigator(Kenkyū-buntansha) 申 吉浩  兵庫県立大学, 応用情報科学研究科, 教授 (60523587)
チャクラボルティ バサビ  岩手県立大学, ソフトウェア情報学部, 教授 (90305293)
Project Period (FY) 2014-04-01 – 2017-03-31
Keywords特徴選択 / カテゴリカルデータ / 疎データ
Outline of Annual Research Achievements

本年度は、カテゴリカル・データを対象としたフィルターアプローチに基づく高速な特徴選択アルゴリズムCWCおよびLCCについて、主として次の2つの成果を得た。
(1)CWCでは最も単純な2値一貫性評価関数を用いて特徴を取捨選択している。従来の類似研究では、ベイズリクス(またはICR)、条件付きエントロピー等が使われてきた。本年度は、これらの指標間に存在する階層関係を解析し、これまでに知られていなかった一貫性評価関数間の関係を理論的に明らかにした。また、実験的にも理論的に導き出された階層関係を裏付ける結果が得られた。この成果は人工知能関連の国際会議IJCAI2015に採択された。
(2)CWCの探索戦略を二分探索改良し、特徴語抽出等に対応するために疎データにも対応させることにより、従来よりさらに高速かつ省メモリなシステムをScalaにより実装した。また、実際に大量のTwitterデータに本実装を適用することにより、その効果を示した。また、この成果により、本アルゴリズムは、我々の知る限り、カテゴリカル・データの特徴選択では世界一高速かつ高精度である。この成果は国際会議IEEE BigData2015に採択された。
これらの成果に基づき、米国のUCLAのDigital Humanities およびタイのチュラロンコン大学工学部にて、本研究課題の成果を広く様々な研究領域で活用できるように、特徴選択とその応用に関するセミナーを開催した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

アルゴリズムの開発では、探索戦略を見直すことにより、性能的に拮抗していた既存研究を実質的に凌ぐ新しいアルゴリズムの提案に成功しており、今後もさらなる改良が見込める状況である。理論的にも、従来研究で提案された様々な特徴選択指標間の関係を理論的に位置づけることに成功している。当初研究計画にあった並列化に関しては、並列化せずともさらに探索戦略の高速化が見込めるため、優先度を下げている。以上の状況に鑑みると、本研究課題の進捗状況はおおむね順調に進展しているといえる。

Strategy for Future Research Activity

本研究成果は、自然言語処理やバイオインフォマティクスの分野でも活用されつつあり、それぞれの分野への応用のために、次の課題に取り組む予定である。
(1)大規模文書からのトピック語抽出を想定し、二値の特徴変数に特化した大規模疎ブール行列を対象とする処理系を構築する。また、クラスラベルを想定しない特徴選択アルゴリズムの開発もあわせてすすめる。
(2)マイクロアレイデータ等の連続値データへの応用を想定し、CWCを順序変数を扱えるように拡張する。また、CWCの性質を利用した連続値の離散化アルゴリズムについても継続して検討をすすめる。
アルゴリズムの改良についても継続してすすめる。本年度は特徴数に対する計算量を大幅に改善することができた。同様に、データインスタンス数に対する計算量についても、改善できる見通しであるため、当初の並列化の計画の優先度を下げて、アルゴリズムの改良に取り組む。本研究成果の応用領域での有用性を示すために、すでに、大規模Twitterデータに対して本研究の成果を適用している研究者を新たに研究分担者に加えた。

Causes of Carryover

海外でセミナーを開催した際に、想定していた参加者の旅費が、1名分不要になったため。

Expenditure Plan for Carryover Budget

今年度開催予定の本研究に関連したワークショップへの参加者の旅費に充てる。

  • Research Products

    (12 results)

All 2016 2015

All Journal Article (7 results) (of which Int'l Joint Research: 2 results,  Peer Reviewed: 7 results,  Acknowledgement Compliant: 6 results,  Open Access: 2 results) Presentation (3 results) Funded Workshop (2 results)

  • [Journal Article] Topic extraction from millions of tweets using singular value decomposition and feature selection2015

    • Author(s)
      Takako Hashimoto, Tetsuji Kuboyama, Basabi Chakraborty
    • Journal Title

      Proc. of Asia-Pacific Signal and Information Processing Association Annual Summit and Conference

      Volume: IEEE Catalog No. 36228 Pages: 1145--1150

    • DOI

      10.1109/APSIPA.2015.7415451

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Super-CWC and super-LCC: Super fast feature selection algorithms2015

    • Author(s)
      Kilho Shin, Tetsuji Kuboyama, Takako Hashimoto, Dave Shepard
    • Journal Title

      Proc. of IEEE International Conference on Big Data

      Volume: IEEE Cat.No. CFP15BGD-USB Pages: 61--67

    • DOI

      10.1109/BigData.2015.7363742

    • Peer Reviewed / Int'l Joint Research / Acknowledgement Compliant
  • [Journal Article] Tree PCA for Extracting Dominant Substructures from Labeled Rooted Trees2015

    • Author(s)
      Tomoya Yamazaki, Akihiro Yamamoto, Tetsuji Kuboyama
    • Journal Title

      Discovery Science, Lecture Notes in Computer Science, Springer

      Volume: 9356 Pages: 316--323

    • DOI

      10.1007/978-3-319-24282-8_27

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Event Detection from Millions of Tweets Related to the Great East Japan Earthquake Using Feature Selection Technique.2015

    • Author(s)
      Takako Hashimoto, Dave Shepard, Tetsuji Kuboyama, Kilho Shin
    • Journal Title

      Proc. of IEEE International Conference on Data Mining Workshop

      Volume: IEEE Comp. Soc. Ord. No. E5653 Pages: 7--12

    • DOI

      10.1109/ICDMW.2015.248

    • Peer Reviewed / Int'l Joint Research / Acknowledgement Compliant
  • [Journal Article] A Geometric Theory of Feature Selection and Distance-Based Measures2015

    • Author(s)
      Kilho Shin, Adrian Pino Angulo
    • Journal Title

      Proc. of IJCAI

      Volume: IJCAI2015 Pages: 3812--3819

    • Peer Reviewed / Open Access
  • [Journal Article] Fast and Accurate Steepest-Descent Consistency-Constrained Algorithms for Feature Selection2015

    • Author(s)
      Adrian Pino Angulo, Kilho Shin
    • Journal Title

      Machine Learning, Optimization, and Big Data, Lecture Notes in Computer Science

      Volume: 9432 Pages: 293--305

    • DOI

      10.1007/978-3-319-27926-8_26

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Real Time Recommendations from Connoisseurs2015

    • Author(s)
      Noriaki Kawamae
    • Journal Title

      Proc. of the ACM SIGKDD

      Volume: KDD'15 Pages: 537--546

    • DOI

      10.1145/2783258.2783260

    • Peer Reviewed / Open Access / Acknowledgement Compliant
  • [Presentation] A Novel Hybrid Feature Selection Algorithm for Intrusion Detection2016

    • Author(s)
      Adrian Pino Angulo, 申吉浩
    • Organizer
      人工知能学会 第100回人工知能基本問題研究会(SIG-FPAI)
    • Place of Presentation
      熊本市民会館
    • Year and Date
      2016-03-27 – 2016-03-28
  • [Presentation] Feature selection based identification of crucial factors for successful advertising on mobile devices2016

    • Author(s)
      Chun-Cheng Liu, Goutam Chakraborty
    • Organizer
      人工知能学会 第99回人工知能基本問題研究会(SIG-FPAI)
    • Place of Presentation
      仙台市湯の原ホテル
    • Year and Date
      2016-01-21 – 2016-01-22
  • [Presentation] Tree PCAによる任意形状の木構造を抽出するアルゴリズム2016

    • Author(s)
      山崎朋哉, 山本章博, 久保山哲二
    • Organizer
      人工知能学会 第99回人工知能基本問題研究会(SIG-FPAI)
    • Place of Presentation
      仙台市湯の原ホテル
    • Year and Date
      2016-01-21 – 2016-01-22
  • [Funded Workshop] CU-EE MSP/IEEE Signal Processing Society Thailand Section/ IEICE Bangkok Section Seminar - Big Data analytics2016

    • Place of Presentation
      Faculty of Engineering, Chulalongkorn University
    • Year and Date
      2016-03-08 – 2016-03-08
  • [Funded Workshop] Social Data Analysis Seminar2015

    • Place of Presentation
      Digital Humanities, UCLA
    • Year and Date
      2015-06-26 – 2015-06-26

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi