2020 Fiscal Year Research-status Report
テキストベースの深層学習における分類パターンの解釈支援
Project/Area Number |
19K12124
|
Research Institution | The University of Shiga Prefecture |
Principal Investigator |
砂山 渡 滋賀県立大学, 工学部, 教授 (40314398)
|
Co-Investigator(Kenkyū-buntansha) |
河原 吉伸 九州大学, マス・フォア・インダストリ研究所, 教授 (00514796)
西原 陽子 立命館大学, 情報理工学部, 准教授 (70512101)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 深層学習 / パターン抽出 / テキスト分類 / 解釈支援 / データサイエンス / テキストマイニング |
Outline of Annual Research Achievements |
本研究においては,テキストベースの深層学習において,学習された分類パターンの意味を,人間が解釈できる環境の構築を目指している. 2019年度においては,ベースラインとなる解釈対象として,学習ネットワークをDNN(Deep Neural Network)とし,単語入力モデルにBoW(Bag of Words)を用いて深層学習を行ったネットワークに対して,分類基準の表現を1単語で表すシステムを構築し,その解釈を人間に促すためのインタフェースを構築した.2020年度においては,2019年度に構築したモデルを拡張して,再帰構造をもつLSTMモデルによる深層学習ネットワークに対して,学習結果の解釈を促すインタフェースを構築した. 1)分類パターンの抽出について,学習ネットワークにおいて,分類先と強いつながりを持つパス(ただし再帰構造を持つため,同じノードを繰り返し利用することがある)を一定数抽出した. 2)分類パターンの意味解釈を促すインタフェースについて,1)で抽出されたパターンを視覚的に表すインタフェースを構築した.具体的には,分類先につながるパス(ノードとリンク)を表示し,各ノードに単語を付与して,どの単語がどの分類先につながるかを明示した.ただし,ノードの表示に際しては,再帰的に繰り返し利用されるノードは,時系列的にわかりやすくなるように展開して表示するとともに,ノードのラベルは,学習に利用したテキストに実際に出現する単語の時系列パターンを元に表示するようにした. 3)構築したインタフェースとその妥当性の検証について,構築したインタフェースを用いて実験評価を行った.実験の結果,深層学習に不慣れな被験者が,インタフェース上に表示されるパターンの意味解釈が可能となること,特に時系列を意識した解釈を行えるようになることを確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
ベースラインモデルにおける分類パターンの意味解釈を促すインタフェースを構築できたため,1)「分類基準の表現」を1単語から,単語の組み合わせ,および単語の出現順序に拡張,2)「学習ネットワーク」をDNNからRNN(Recurrent Neural Network)に拡張,3)「単語入力モデル」をBoWから,単語の分散表現に拡張,という3つの本テーマの目標に対しての土台を構築することができていた. 1)分類基準の表現について,単語の組み合わせについては,ベースラインモデルにおける各ノードの単語の組み合わせについて,その組み合わせを抽象的に表す単語のラベルづけを試みた.しかし,それらの単語が類義語同士でない限りは,抽象化は困難なことがわかり,品詞が異なる単語の組み合わせも出現することから,まずは,単語集合として表現することが望ましいことがわかった.より意味を理解しやすくする単語の組み合わせの表現方法として,最大3単語で,名詞+動詞の形式で表現する方法を検討し,インタフェースを試作した. 2)学習ネットワークについて,再帰構造を持つLSTM(Long Short Term Memory)の解釈を支援するネットワークを構築した.これにより,テキスト分類において,単語の出現順序を考慮した解釈が支援できるようになったことを確認した. 3)単語入力モデルについて,分散表現を扱う方法について検討を行った.分散表現を扱う利点は,意味が類似する単語同士を1つにまとめることで学習パターンを発見しやすくすることではあるが,学習結果の解釈に際しては,分類に寄与する特定の単語が判別できることが望ましい.関連して,深層学習においては,出力層に近いほど内容がより抽象化されることを踏まえ,その抽象度に合わせた解釈が行える支援を検討することの方が優先順位が高いとの考えに至った.
|
Strategy for Future Research Activity |
2021年度においては,DNNならびにLSTMの分類パターンの意味解釈を促すインタフェースを拡張する形で研究を進めていく. DNNのインタフェースの拡張としては,DNNの出力層に近い中間層ほど,抽象化された情報を有していると考えられる.現在のインタフェースでは,すべての中間層に同じ数の単語を割り当てて解釈支援を行っているが,実際の情報の抽象度に合わせて,入力層に近いノードほど少ない単語で,出力層に近いノードほど多くの単語,またはそれらを抽象化した単語で表現することを試みる.すなわち,単語集合の解釈を支援する機構の導入を試みる.単語ベースでの抽象化が困難な場合,一旦単語ごとの解釈をしてもらった後に,解釈同士を組み合わせて抽象的な解釈を促す方法も検討する. LSTMのインタフェースの拡張としては,単語の時系列を表現して解釈を促すと同時に,順序関係がない(時系列として双方向のどちらもあり得る)ノード同士を1つのグループとして,そのグループないの単語集合に解釈を与えることを促す. すなわち,DNNとLSTMのいずれにおいても,深層学習により学習されたネットワークは,抽象化された情報の集まりとなっていることを踏まえ,具体的な単語による解釈の組み合わせにより,単語集合にも解釈を与えられるように拡張し,抽象化した分類パターンの獲得を促すインタフェースを構築する. 最後に,比較分類に寄与する箇所を特定する注意機構の解釈への活用を検討し,文書分類における新しいモデルである,BERT(Bidirectional Encoder Representations from Transformers)との連携についても検討する.
|
Causes of Carryover |
新型コロナウイルスの影響により,研究発表のための海外出張や国内出張の旅費の使用がなくなったことが主な理由となっている.次年度は,研究遂行のためのシステム作成補助や実験補助,データ整理等に謝金を利用していく.
|
Research Products
(4 results)