2017 Fiscal Year Annual Research Report
Construction of Machine Learning Computing Base and Creation of Remarkable Contributions in Multiple Research Fields
Project/Area Number |
17H00762
|
Research Institution | University of Hyogo |
Principal Investigator |
申 吉浩 兵庫県立大学, 応用情報科学研究科, 教授 (60523587)
|
Co-Investigator(Kenkyū-buntansha) |
宮尾 祐介 国立情報学研究所, 大学共同利用機関等の部局等, 准教授 (00343096)
平田 耕一 九州工業大学, 大学院情報工学研究院, 教授 (20274558)
西村 治彦 兵庫県立大学, 応用情報科学研究科, 教授 (40218201)
竹村 匡正 兵庫県立大学, 応用情報科学研究科, 教授 (40362496)
坂本 比呂志 九州工業大学, 大学院情報工学研究院, 教授 (50315123)
中本 幸一 兵庫県立大学, 応用情報科学研究科, 教授 (70382273)
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
山下 純司 学習院大学, 法学部, 教授 (90282532)
橋本 隆子 千葉商科大学, 商経学部, 教授 (80551697)
|
Project Period (FY) |
2017-04-01 – 2021-03-31
|
Keywords | 半構造化データ / 教師あり学習 / 分類 / クラスタリング / 距離 / カーネル / パターン抽出 / 木 |
Outline of Annual Research Achievements |
30年度は、基礎的な研究の推進と、31年度以降に分担者で利用するユーティリティの開発・整備に注力した。 【基礎的研究の推進】構造を持つデータ、特に木構造データに関して、分類(教師付学習)・クラスタリング(教師無学習)・構造パターン抽出の各分野において、実用化のみえる技術の研究・開発を行った。分類に関しては、編集距離を発展させた概念としてマッピング距離を導入し、代表的なデータセットを用いた網羅的な実験によって、数十種類の距離関数を評価し、うち二種類の距離関数が有効であることを示した。今回有効性が示された距離関数は、従来編集距離として知られていたものではなく、マッピング距離として新たに定義されたもので、新規な研究成果である。実用性の可能性も示されたことも重要である。また、コストパラメータに関しても、顕著な傾向が存在することを示した。マッピングカーネルに関しては、モーメントカーネルの新概念を導入し、その評価に着手した。クラスタリングに関しては、マッピング距離をベースにした距離ベースのクラスタリングアルゴリズムと、マッピングカーネルを利用したカーネルクラスタリングの二つの手法の評価を行った。その結果として、多くのデータセットに共通に有効なマッピング距離・マッピングカーネルもまた、少数種類に限定されることを発見した。これも、実用化に向けて、重要な成果である。構造パターン抽出に関しては、マッピング距離を利用したパターン抽出手法の評価に着手した。マッピング距離・マッピングカーネルは、ともに、本研究課題の根幹となるアイデアであり、網羅的な評価によって、実用上の有効性が確認できたことの意義は大きい。このような手法の評価は、ユーティリティ開発においても、推奨手法を絞り込むために必須のステップである。これらの成果は、査読付き論文誌・国際学会で順次発表しており、31年度も引き続き発表していく。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
【基礎的研究の推進】構造パターン抽出に関しては、31年度中に手法の評価を完了させる予定であったが、手法の実装と部分的な評価に留まった。これは、マッピング距離と構造クラスタリングにおいて予期した以上の成果が出たことから、そちらの評価にエフォートを集中したためである。第一期の基礎的研究の枠組みは、1.マッピング距離と距離ベースの分類器の性能評価、2.マッピングカーネルとモーメントカーネルの組み合わせに対するSVMの性能評価、3.マッピング距離と距離ベースのクラスタリングの性能評価、4.マッピングカーネルによるカーネルクラスタリングの性能評価、5.マッピング距離に基礎をおいたパターン抽出手法の評価の5項目であるが、1.と4.については、実用上有効な少数の距離関数の絞込とコストパラメータの設定について具体的な進捗を得た点で評価はプラス、5.に関しては網羅的な評価を完了できなかった点でマイナスの評価であり、総合して概ね順調に進捗していると評価できる。 【ユーティリティの開発】基礎的研究において手法の評価に用いたプログラムを、順次整理し、コードの可読性の向上、APIの文書化を行った上で、Git-Hubにアップロードして、分担者へ公開する準備を進めた。作業は継続中であるが、30年8月には作業を一段落し、分担者に向けた説明会を開催するとともに、ソースコードの公開を行う計画であり、概ね順調に推移している。
|
Strategy for Future Research Activity |
【基礎的研究の推進】32年度前半において、構造パターン抽出手法の確立と評価の作業を完了し、第一期の枠組みを完成させ、ユーティリティ実装の理論的基盤を完了させたい。マッピング距離・マッピングカーネル・構造クラスタリングにおいては、本来第二期の目標のひとつである、実用上有効な少数種類の絞り込みまで到達したので、構造パターン抽出においても同等のレベルまでの到達を目指す。また、第二期の新規目的である、ニューラルネットを用いた構造解析についても、研究に着手する予定である。そのために必要なGPU計算環境の構築は既に完了しており、実験を併用しながら、現在のアイデアを膨らませていく。このテーマは33年度に成果を得る計画である。 【ユーティリティの開発】32年8月に分担者向けにユーティリティを公開する予定である。そのための説明会も併せて実施する。今回公開するユーティリティは、あえて手法の絞り込みを行わず、分担者が色々な組み合わせをテストできるような機能設計とし、多用な領域のデータに基づく性能評価のフィードバックを得ることが目的である。文書化も行う必要があり、また、実験結果を収集する仕組みの構築や、フィードバックの整理も必要であることから、ポストドクター雇用、外部委託などの手段を検討し、基礎的研究と並行して実施できるような工夫を行う。フィードバックを受け、手法を絞り込み、なかば自動的に一連の処理を行うユーティリティの構築を行うが、こちらは33年度に著手し、33年度末には分担者に向けてリリースする計画である。 【研究集会の実施】8月のユーティリティリリースを嚆矢として、分担者、及び、関心を持って下さる研究者を集めた研究集会を31年度に複数回開催する計画である。ユーティリティの利用に関する課題を解決し、また、ユーティリティを用いた評価作業の進捗を図ることも目的に含まれる。
|
Research Products
(24 results)