2018 Fiscal Year Annual Research Report
Construction of Machine Learning Computing Base and Creation of Remarkable Contributions in Multiple Research Fields
Project/Area Number |
17H00762
|
Research Institution | University of Hyogo |
Principal Investigator |
申 吉浩 兵庫県立大学, 応用情報科学研究科, 教授 (60523587)
|
Co-Investigator(Kenkyū-buntansha) |
宮尾 祐介 国立情報学研究所, コンテンツ科学研究系, 教授 (00343096)
平田 耕一 九州工業大学, 大学院情報工学研究院, 教授 (20274558)
西村 治彦 兵庫県立大学, 応用情報科学研究科, 教授 (40218201)
竹村 匡正 兵庫県立大学, 応用情報科学研究科, 教授 (40362496)
坂本 比呂志 九州工業大学, 大学院情報工学研究院, 教授 (50315123)
中本 幸一 兵庫県立大学, 応用情報科学研究科, 教授 (70382273)
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
橋本 隆子 千葉商科大学, 商経学部, 教授 (80551697)
山下 純司 学習院大学, 法学部, 教授 (90282532)
大島 裕明 兵庫県立大学, 応用情報科学研究科, 准教授 (90452317)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | 半構造化データ / 教師あり学習 / 分類 / クラスタリング / 距離 / カーネル / パターン抽出 / 木 |
Outline of Annual Research Achievements |
理論面と実装面に分けて報告する。 理論 (1)百種類以上ある木カーネルと比較して、部分パスカーネルが実行速度・正確性の両面において優れていることを、多数のデータセットを用いて実証した。順序木・無順序木を問わない点が定性的に重要な利点であり、加えて、正確性の評価において他の木カーネルに対して統計的に有意な差があることを示した。(2)部分パスカーネルを、入力となる木のサイズ(頂点の個数)に関して線形の計算量で計算するアルゴリズムを新規に開発した。他の木カーネルは、木のサイズの二乗ないし三乗のオーダーの計算量を必要とするので、部分パスカーネルの利点は顕著である。実際、iMac Pro 14Coreを用いた実験では、一つのカーネル値を計算するのに60マイクロ秒程度しか掛からない。(2)このアルゴリズムを理論的に記述するために、順序木の新たな定式化を考案した。(3)部分パスカーネルを用いたカーネルクラスタリング(k-平均、HACベース)を提案し、予備的実験により、良い性能が得られることを示した。(4)カーネルとガウス分布を用いた木構造データによる回帰の手法を提案した。 実装 (1)部分パスカーネルとSVMを用いて、木構造データの分類を行うライブラリの開発を完了した。このライブラリは、Excelをインターフェースとするラッパーを含み、研究者のみならず、非専門家でも使いやすいように設計・実装されている。(2)前記ライブラリを用いて、偽サイト判定システムを構築し、楽天株式会社、及び、兵庫県警本部において、検証実験を行なった。楽天での検証では正確性99.98%超、兵庫県警での検証でも90%を超える正確性を示し、部分パスカーネルを用いた分類器の優位性を示した。(3)犯罪予測の応用事例において、犯罪情報の情報量を目的関数として、ガウス分布回帰によって優れた予測精度が得られることを示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
計画より進捗が遅れている項目 計算基盤の実体であるライブラリについては、カーネルクラスタリングとカーネルパターン検出のアルゴリズムの実装は完了したが、ライブラリとしてのAPIの実装は未完となった。これは、楽天株式会社と兵庫県警に検証目的で提供するため、カーネル分類の非専門家向けのExcelをインターフェースとするラッパーの開発を優先したことによる。 計画より進捗が進んでいる項目 Excelインターフェースを持つカーネル分類のラッパーを楽天株式会社及び兵庫県警に提供したことにより、実データを用いた検証が進んだ。特に、楽天での実験では、正例と負例がバランスした実データによる実験で99.98%の正確性を示し、部分パスカーネルの有効性を確認することができた。ラッパーは、Excelのマクロ機能を用いて、正例・負例木構造データの登録、カーネルの計算、モデルの生成と更新、ラベルの付与と更新などが、Excelの通常の操作とボタンのみによってできるようになっており、必ずしも研究者とは限らない実務家にも簡便に木構造データの分析ができるように実装されているので、来年度の検証実験において有効なツールとして利用できるものと考えている。
|
Strategy for Future Research Activity |
2019年度は、分担者の専門領域も含めた多様な分野での検証を目標とする。そのために、当研究事業で開発したアルゴリズムをライブラリとして実装し、更に、専門家とは限らない実務家でも利用できるインターフェースを持つラッパーを開発する。実装対象のアルゴリズムは、すでに実装済みの部分カーネル分類アルゴリズムに加えて、(1)部分パスカーネルを用いたカーネルクラスタリング(カーネルk-平均、カーネルHACなど)、(2)部分パスカーネルを用いたカーネルパターン抽出(一般化センター・スターアルゴリズム)、(3)一貫性指標と情報エントロピーに基づく教師あり学習の特徴値選択、(4)カバリングと情報エントロピーに基づく教室なし学習の特徴値選択、(5)特徴値選択に基づくクラスタリング、(6)部分パスカーネルを用いたカーネル・ガウス分布による回帰、である。年度前半は、これらのアルゴリズムのライブラリ、及び、実務家が利用できるレベルのインターフェースを有するラッパーの実装を急ぐ。実装には、代表者・分担者によるコア部分の実装の後、専門のプログラマへ業務委託を行い、インターフェースの実装、及び、プログラムの完成度の向上を目指す。実装完了後、できるだけ早期に、分担者、及び、外部の研究者を対象として、ライブラリーの利用方法を紹介する研究会を開催し、年度後半から次年度にかけての複数分野での実証のための準備とする。
|
Research Products
(28 results)