本研究課題は,ニュース記事等の大量のテキスト情報(ビッグデータ)を活用し,金融・経済分野におけるテキストマイニングの研究を推進することを目的として実施してきた.そして本課題のサブテーマとして,速報性の高いニュースメディア等を基にしたビジネスセンチメント分析(景況感予測),および異なる言語で書かれた文書間の類似度の推定に取り組んできた.
前者の景況感予測については,近年の自然言語処理タスクで主流となっている自己注意機構を用いたモデルを採用し,頑健かつ精度の高い景況感予測を可能とした.また,このモデルによって得られた景況感を他の代表的な経済指標と定量的に比較し,本景況感指数の特徴を明らかにした.これらの成果は,情報システム分野で著名な国際論文誌(IF=6.22)に採録・掲載された.また,過去のデータを利用したレトロスペクティブな評価にとどまらず,より実用的なシステムとして,提案モデルをウェブニュース記事に適用することで前日までの景況感を予測するリアルタイム性の高い景況感予測システムを開発した.この成果についても,情報検索の著名な国際会議で発表を行った.
後者の異言語の文書間類似度については,回帰ニューラルネットワークに基づく翻訳モデル(seq2seq)の中間表現を利用することで,日本語ー英語間,英語ーヒンズー語間で適切に類似度を算出できることを示し,その成果を国際会議や国内外の論文誌で発表した.関連して,多言語の言語表現モデルの活用を試みた.より具体的には,上述の景況感予測モデルの学習に用いた日本語データから多言語モデルを学習し,英文ニュース記事から米国の景況感指数の予測が可能か検証した.その結果,銘柄情報などでフィルタリングした記事から得られた景況感指数は,アメリカのISM非製造業景況感指数と正の相関(r=0.68)を持つことが確認できた.
|