2017 Fiscal Year Annual Research Report
Project/Area Number |
17J04768
|
Research Institution | The University of Tokyo |
Principal Investigator |
伊藤 友貴 東京大学, 工学系研究科, 特別研究員(DC1)
|
Project Period (FY) |
2017-04-26 – 2020-03-31
|
Keywords | 経済テキストマイニング / 解釈可能なニューラルネットワークモデル / 感情分析 / サポートシステム |
Outline of Annual Research Achievements |
今年度は以下のGINN という解釈可能なNeural Network Model の構築を行った。 GINN は 文書中の単語頻度を入力すると文書全体のセンチメントスコア、単語単位でのセンチメントスコア、そして概念単位でのセンチメントスコアを出力し、文書全体のセンチメントスコアの出力に至るまでのモデル過程を説明する解釈可能なニューラルネットワークモデルである。我々は本ニューラルネットワークモデルを各層の意味を解釈可能にするという観点から構築することで実現した。本モデルの鍵となるのは、モデルの予測性能を落とさずに各層を解釈可能にする最適化手法、II algorithmであり、II algorithm の考案が今年度の大きな成果の一つである。今年度は、II algorithm を理論的な側面から解析するだけでなく、実データに対して有用であるかどうかについてロイターニュース・ヤフーファイナンス掲示板を用いて検証した。II algorithm の考案は近年、そのブラックボックス性から予測性能が高いにも関わらず実ビジネスでは使えない場面が多いというニューラルネットワークモデルの問題点を解決するための大きな一歩であると考えられる。本研究成果についてはデータマイニングのトップカンファレンスである PAKDD (採択率 10 %) にて発表する予定である。 上記に加え、ヤフーファイナンス掲示板を用いて経済センチメント指数(ヤフー経済指数と以下する)の開発を行い、さらにヤフー経済指数が株価に相関があること、そしてヤフー経済指数の信頼度を抽出する手法を開発した。本研究成果についてはコンピューターサイエンスの経済への活用に関する国際会議、 IEEE CIFEr 2017 にて発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度は当初の予定通り、テキストのセンチメントの予測を高精度に行うだけでなく、その予測結果の説明をできるような解釈可能な Neural Network Model の理論の構築・及びその開発を行うことができた。特にNeural Network Modelは予測性能こそ高いものの、ブラックボックス性が問題となり、実務の上では使えない場面が多いと嘆かれる現状において、予測性能を損なわずに解釈可能なモデルにするパラメータ最適化手法のひとつを理論的な側面から構築できた意義は大きい。今年度構築した理論は多層パーセプトロンと呼ばれる比較的簡単な構造のニューラルネットワークにしか適用できないものの、RNN、CNNのような他の複雑なニューラルネットワークにおいても解釈可能な構造を持ち込むために重要となる理論であり、その成果の意義は大きい。 また、理論的な部分での進展だけでなく、「非専門家向けの文書の可視化」や「経済専門単語のセンチメント辞書構築」などの解釈可能なニューラルネットワークモデルの実社会における課題への適用方法についても研究することができた。さらに、さらなる社会的な課題である「ヤフーファイナンス掲示板からの経済指数抽出」に向けての基礎調査も行うことができ、期待通りに研究が進展したように思われる。 これらの研究成果については採択率約 10 % の国際会議, PAKDD 2018 を含むいくつかの国際会議・ワークショップに採択された。 さらに、証券アナリストジャーナルでの発表、共同研究先における社内報告会にて100人以上の実務家に対して自身の研究を発表など、産業界に対してのアウトリーチ活動も十分に行うことができたように思われる。
|
Strategy for Future Research Activity |
今年度は解釈可能なニューラルネットワークモデルに関する基本的な理論の構築を行うことに成功した。ただ、現状のモデルでは単語本来のセンチメント・単語センチメントが他の単語との共起を考慮した上でどの程度最終出力に影響を与えるかしか抽出できない。結果として単語のセンチメントの反転情報、文書以外の背景を考慮した上での各単語が最終出力に与える影響といったものを抽出できない。結果としてモデルの予測結果を可視化した際に人の肌感覚に合わず、実務の上では使いにくい出力をしてしまうという問題もある。以上の問題点を考慮して今後は今年度構築したモデルに対して、単語の並び情報の情報・単語のセンチメント以外の背景知識を解釈可能な枠組みで組み込む方法を構築することを目指す。より具体的にはLSTMのような複雑な情報を保持できる枠組みを解釈性・予測性能の両方が保たれる形で組み込むことが課題となる。その中で2017年度に行った研究の中で培ったニューラルネットワーク上での最適化技術をうまく利用できると考えられる。 さらに、今後は理論の構築だけでなくその応用・ひいては社会実装まで取り組む予定である。現在はヤフーファイナンス掲示板・ニュース記事の感情分析にしか取り組んでいないが、今後は他のテキスト記事への適用、そして複数のテキストを用いた世界初の独自の経済センチメント指数を構築する予定である。さらに、本研究の中で構築した解釈可能なニューラルネットワークモデルをテキストからの感情分析以外のタスクにも適用する予定・あるいは解釈可能なニューラルネットワークモデルを用いた経済文書可視化ツール・サービスなども構築する予定であり、本研究にて取り組んでいる解釈可能なニューラルネットワークモデルを産業会においても広く使われる技術へと昇華させていく予定である。
|
Research Products
(4 results)