研究課題/領域番号 |
19K12124
|
研究機関 | 滋賀県立大学 |
研究代表者 |
砂山 渡 滋賀県立大学, 工学部, 教授 (40314398)
|
研究分担者 |
河原 吉伸 九州大学, マス・フォア・インダストリ研究所, 教授 (00514796)
西原 陽子 立命館大学, 情報理工学部, 准教授 (70512101)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 深層学習 / パターン抽出 / テキスト分類 / 解釈支援 / データサイエンス / テキストマイニング |
研究実績の概要 |
本研究においては,テキストベースの深層学習において,学習された分類パターンの意味を,人間が解釈できる環境の構築を目指している. 2019年度においては,ベースラインとなる解釈対象として,学習ネットワークをDNN(Deep Neural Network)とし,単語入力モデルにBoW(Bag of Words)を用いて深層学習を行ったネットワークに対して,分類基準の表現を1単語で表すシステムを構築し,その解釈を人間に促すためのインタフェースを構築した. 1)分類パターンの抽出について,学習された分類パターンの全てを表示することはできないため,解釈に有効と考えられるパターンを選別する必要がある.人間が解釈できる,またパターンとして意味があるものとするために,学習ネットワークにおいて,分類先と強いつながりを持つ単語を特定するパスを一定数抽出した.また,パス上の中間ノードに単語を付与し,その単語についても学習データ内で一定回数以上出現する単語とすることで,解釈可能なパターンの抽出を行った. 2)分類パターンの意味解釈を促すインタフェースについて,1)で抽出されたパターンを視覚的に表すインタフェースを構築した.具体的には,分類先につながるパス(ノードとリンク)を表示し,各ノードに単語を付与して,どの単語がどの分類先につながるかを明示した.また各単語が学習データ内でどのように使われているかを確認できる,原文表示機能を追加し,人間によるパターンの解釈を促す仕組みを設けた. 3)構築したインタフェースとその妥当性の検証について,構築したインタフェースを用いて実験評価を行った.実験の結果,深層学習に不慣れな被験者が,インタフェース上に表示されるパターンの意味解釈が可能となることを確認した.また被験者の解釈結果が実際のデータに概ね適合していることを確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
ベースラインモデルにおける分類パターンの意味解釈を促すインタフェースを構築できたため,1)「分類基準の表現」を1単語から,単語の組み合わせ,および単語の出現順序に拡張,2)「学習ネットワーク」をDNNからRNN(Recurrent Neural Network)に拡張,3)「単語入力モデル」をBoWから,単語の分散表現に拡張,という3つの本テーマの目標に対しての土台を構築することができた. 1)分類基準の表現について,単語の組み合わせについては,現在のベースラインモデルをそのまま利用して,抽出パターンのパス上にある単語の組み合わせを,解釈対象として拡張する方法を検討している.また,単語の出現順序についても,抽出パターンをパスで表現する場合,そのパス上の単語の順序を,分類基準として表現することが検討できる. 2)学習ネットワークについて,現在RNNへの拡張を検討している.具体的には,RNNを展開することによって,DNNと同形式のネットワークとして表現し,現在の枠組みに収めることを検討している.また,単純なRNNだけでなくLSTM(Long Short Term Memory)においても,LSTMの機構の主要部分を取り出して,RNNの形に落とし込むことを検討している. 3)単語入力モデルについて,分散表現を扱う方法については,まだ検討できていない.インタフェースの構築については,人間による解釈を容易にするために,できるだけ多くのパターンを,複雑にならない形で抽象化して表現する方法を検討している. また,構築したインタフェースを用いて,深層学習を用いたテキストデータの分類タスクにおける学習モデルの解釈に実際に活用して,そのモデルの改善を試みながら,インタフェースの改善を図っている.
|
今後の研究の推進方策 |
2020年度においては,ベースラインとなる分類パターンの意味解釈を促すインタフェースを拡張する形で研究を進めていく. まずは現在取り組んでいる,DNNからRNNへの拡張,ならびに単語の組み合わせと単語の順序に基づく解釈を促すインタフェースの完成を目指す.この取り組みは,現在までの進捗で述べた通り,ベースラインシステムの枠組みに落とし込むことが可能と考えており,引き続き取り組みを続ける. 単語の分散表現の適用については,これまで学習ネットワークにおいて,入力部分で1つの単語が1つのノードに割り当てられていたのに対して,1つの単語が複数のノードの組み合わせとして割り当てられることになるため,単語を特定するための根本的な構成を変更する必要がある.そのため,解釈に向けた学習ネットワークの基本構造,あるいは考え方の見直しを行う. また別の考え方として,分散表現を用いるのは分類の精度を高めるためであり,学習のためのデータが存在し,分散表現による学習結果が一定の精度を有しているのであれば,解釈に際しては分散表現を用いない学習を施した上で解釈を試みるアプローチも考えられる.同じデータから,分散表現を用いた場合と,用いなかった場合とでの精度の差が大きくない場合,学習ネットワークから人間が解釈可能な,主要な分類パターンの相違は大きくないとも考えられる. 最後に,分類に寄与する箇所を特定する注意機構の解釈への活用を検討し,文書分類における新しいモデルである,BERT(Bidirectional Encoder Representations from Transformers)との連携についても検討する.
|
次年度使用額が生じた理由 |
2019年度中にディープラーニング用機器の購入を予定していたが,新型コロナウイルスの影響により,2019年度内に納品ができていないために計上できていないことによる.
|