2018 Fiscal Year Research-status Report
深層学習技術を用いた頻出構造パターン発見の高性能化
Project/Area Number |
17K00315
|
Research Institution | Nihon University |
Principal Investigator |
尾崎 知伸 日本大学, 文理学部, 教授 (40365458)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | データマイニング / グラフマイニング / 表現学習 / 分散表現 |
Outline of Annual Research Achievements |
本研究課題は、深層学習と頻出パターン発見を橋渡しする基礎技術を開発することで、両者を深化させることを目的としている。具体的には、分散表現学習技術を用いて各頻出パターンを多様なベクトル空間へと展開することで、低品質かつ理解困難なパターンの大量生成という頻出パターン発見問題が本質的に抱える問題を解決することを目指す。これらのことを目的に、本年度は(1)分散表現に基づく頻出パターンに対する新たな評価関数の開発、(2)相関ルールに対する評価関数の開発、(3)深層学習・分散表現技術を用いたツイート分析技術の開発を行った。 分散表現に基づく評価関数の開発に関しては、昨年度までに開発したパターン間の大域的な関係性に基づく評価関数に加え、パターンの構成要素に着目し、頻出パターン問題における構成要素であるアイテム、トランザクション、パターンの各分散表現を利用することで、新たに8種の評価関数を開発した。 相関ルールに対する評価関数の開発に関しては、各ルールにおける前提と帰結の関係性を計量することを念頭に頻出パターンに対する評価関数を拡張し、新たに6種の関数を提案した。加えて、相関ルールの拡張であり、形式的には相関ルールの対として表現される間接相関ルールおよび相関行動ルールに関しても、それぞれ評価関数を提案している。 深層学習・分散表現技術を用いたツイート分析技術の開発に関しては、日本語ツイートに対する感情強度推定タスクに焦点を当て、ベスト・ワースト・スケーリングを用いて学習コーパスを構築すると共にと、感情種・感情強度を同時推定するマルチタスク学習機構を有する深層学習・分散表現モデルの構築を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
パターンのベクトル化手法に関しては、単語埋め込みを利用した基本的な手法を提案している。また、ベクトル表現から得られるパターン間の大域的な関係性に着目した評価関数に加え、パターン構成要素の局所的な関係性に着目した評価関数を複数提案している。加えて、ベクトル表現を利用した相関ルールや拡張相関ルールに対する新たな評価関数を開発している。 その一方で、パターンが持つ階層性の考慮および深層学習技術の前処理への応用に関しては、基礎的な検討は終了しているが、今後十分な実験と検証が必要とされる。
|
Strategy for Future Research Activity |
これまで進めてきた新規特徴的パターンの開発を継続し、複数のベクトル空間を同時に考慮することで初めて捉えることのできる特徴的なパターンの開発を目指す。また今後は、前処理の観点からパターン発見の弱点克服にアプローチする。すなわち、構造データを対象とする深層学習・表現学習技術を前処理として適用することで、不要なパターンの導出を回避する技術の開発を行う。さらにこれらの技術を実データへと適用し、その効果や精度を検証する。
|
Causes of Carryover |
参加した国際会議が国内開催となったため、それに係る経費(旅費)が大幅に削減されたこと、および既存の計算機リソースを有効利用することで、計算機実験に係る経費が抑制できたことによる。 今年度は、研究の更なる促進のため、大学院生による実験補助と実験環境強化のための計算機の購入を予定している。また、海外発表を中心に対外発表を行うと共に、それらを取りまとめ雑誌論文の執筆を行う。
|
Research Products
(6 results)