研究課題/領域番号 |
19F19800
|
研究機関 | 早稲田大学 |
研究代表者 |
古月 敬之 早稲田大学, 理工学術院(情報生産システム研究科・センター), 教授 (50294905)
|
研究分担者 |
LUO JIA 早稲田大学, 理工学術院, 外国人特別研究員
|
研究期間 (年度) |
2019-11-08 – 2022-03-31
|
キーワード | 深層学習 / 言語モデル / 重要文抽出 / 関連解析 / サンリ―生成 |
研究実績の概要 |
本研究では、ディープラーニング技術に基づいた高度な関係性を抽出することができる高性能な合成関係ネットワークの構築と、GPUを用いた並列計算技術によるCNN、LSTM、GANの効率的なディープラーニングアルゴリズムの開発を行い、さらにこれらの技術をベースにしてテキスト文書の特徴抽出・関係分析の手法の開発を行う。これにより金融等のニュースを解析し、Bullet Pointsに基づいた金融等のニュース自動サマリーシステムを構築することを目標する。 この研究目標を実現するために、二つのテーマを分けて行う。テーマ①高度な関係性を抽出するための高性能な合成関係ネットワークを構築するディープラーニング技術、テーマ②GPUを用いた並列計算技術によるCNN、LSTM、GANの効率的なディープラーニングアルゴリズムの開発を行う。これを通して、金融等のニュース自動サマリーシステムを高性能化する。 本年では、主として金融等のニュース自動サマリーシステムの構築と性能向上を行った。例えば、柔軟な高性能関係ネットワークの構築や言語モデルBERTとBARTの利用を行った。従来のR(a,b)表現ではなく、aRb表現で類似関係モジュールと高度関係モジュールからなる合成関係ネットワークを構築し高度な関係情報を抽出する。また、BERTを金融等のニュースに適用して、トピックとコンテキストに焦点を当てた重要な文を抽出する。これらの重要な文に基づいてBART PretrainedモデルよりBullet Pointsサマリーを自動的生成する。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
計画通り、ディープラーニング技術により金融等のニュース自動サマリーシステムの構築を行った。 1) 言語モデルBERTによる重要な文の抽出、 Attention技術によるテキスト解析技術、 2) キーワードで高性能関係ナットワークを構築しトッピングに関連ニュースの文書抽出技術、 3) Pretrained言語モデルBARTによる金融等ニュースのBullet Pointsサマリーの自動生成技術の開発を行った。
|
今後の研究の推進方策 |
次年度では、構築した金融ニュース等自動サマリーシステムの検証を中心に研究を進める。まず、二つの既存の簡単なコーパスDUC-2003とDUC-2004 (P.Over et.al., 2007)を用いて構築した金融ニュース等自動サマリーシステムの検証を行う。次に、金融等ニュースWebサイトから最近の金融ニュースと人間が作ったBullet Pointsに基づいて新しいコーパスの構築を行い、これを用いて提案システムの検証を行う。
|