2022 Fiscal Year Research-status Report
異なるコミュニティにおいて誤解されやすい表現の感性的言語変換に関する研究
Project/Area Number |
20K12027
|
Research Institution | The University of Tokushima |
Principal Investigator |
松本 和幸 徳島大学, 大学院社会産業理工学研究部(理工学域), 准教授 (90509754)
|
Co-Investigator(Kenkyū-buntansha) |
北 研二 徳島大学, 大学院社会産業理工学研究部(理工学域), 教授 (10243734)
任 福継 徳島大学, 大学院社会産業理工学研究部(理工学域), 教授 (20264947) [Withdrawn]
吉田 稔 徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (40361688)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 感性言語モデル / 感性的言語変換 |
Outline of Annual Research Achievements |
本年度は,提案した感性言語モデルの実装および評価,また,実際の応用を行った。まず,Twitterから感性キーワード(感情を表す語彙集合)に基づき収集したツイートテキストに対して,不要な語を取り除いたコーパス(Tweetコーパス)を作成し,このコーパスに対して単語分散表現を学習させた。この単語分散表現に対して,感情の表現に高く寄与していると思われる次元を,分散表現の重みベースおよび感情分類ニューラルネットワーク(予測モデル)ベースの2通りの手法を用いて抽出し,感情ベクトルを作成した。このベクトルを用いた類似語抽出による主観的な評価を行った。評価の際には,感情ベクトル間のコサイン類似度の上位単語を類義語として,その類似語と入力語との感性(感情)の差異及び類似性をもとに評価し,感性的意味の検討を行った。結果として,提案手法において抽出した感情ベクトルは,元の単語分散表現ベクトルよりも感情を表現する性能が高いことが分かった。さらに,感性言語モデルの作成と並行して,感情語や感情イディオムをBERTを蒸留してパラメータ数を少なくしたDistilBERTという言語モデルを用いて分散表現に変換し,200次元の意味ベクトル(Wikipediaベースの単語分散表現)と感情ベクトル(感情ラベル25次元(Neutral除く))を出力するDNN(深層ニューラルネットワーク)のモデルを構築し,中間層から抽出した特徴ベクトルを特徴量として用い,意味と感性を組み合わせた感情推定モデルを構築した。このモデルにより,感情ラベルをあらかじめ付与した日本語コーパス(Webコーパスと,対訳例文の和文を主に収集したコーパス)に対する感情推定実験を行い,意味特徴量と感性特徴量の組合せの有効性を確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
前年度から進めていた感情分析について,HaggingFaceなどで公開されている大規模学習済みモデルを複数比較することができた。これによって,提案手法における客観的な性能評価がしやすくなることが望まれた。本年度において,定量的な比較実験を行う段階にはなかったため,主観的な評価のみを行い,一定の性能向上の確認ができた。しかしながら,ジャーナルに投稿するためには,客観的な評価を行う必要があるため,提案手法に基づく類義語抽出によって得られた語に置き換えを行う処理と,GPTやその他の大規模言語モデルに基づく類義感性語置換処理との性能や特性の違いを比較する必要がある。
|
Strategy for Future Research Activity |
本年度において,主観的な評価のみを行ったが,ジャーナルに投稿するためには,客観的な評価を行う必要があるため,提案モデルを用いた情報検索や情報推薦システムへの応用,また,大規模汎用言語モデルを用いた同様の類義語置換との比較,人間による感性一致度の評価などを行っていく。次年度(期間延長のため,次年度が最終年度),国際的に知名度の高い国際会議に出席,発表を推進することによって,本研究の現在の立ち位置と意義,今後の研究の進め方についても模索する予定である。なお,本研究で提案した感性言語モデルや感性言語変換モデルは,ソーシャルメディア上のテキストや画像データに基づいてコロナ禍における人々の感性の動きや,流行分析に活かすことや,炎上分析,対話処理における破綻分析などにも応用可能性がある。現在,これらの手法への応用に関しても研究しているが,ある程度の成果が得られれば国際ジャーナルに投稿することを検討している。さらに,提案技術の社会実装を目指し,現在,複数の企業と共同研究の可能性について話し合っているところであり,介護福祉サービスや教育・学習関連における感性言語モデルの応用も期待できる。
|
Causes of Carryover |
本研究は,予定通り進めていたが,コロナ禍中の対面での実験指導の制限があったため,評価実験の実施に多少の計画変更が必要となった。具体的な計画変更は,謝金の支出と学会発表,雑誌論文投稿の延期である。追加実験と,ジャーナル投稿を含む研究成果発表を次年度に延期することで,より詳細かつ信頼性の高いデータを得られ,充実した発表成果が得られると考えている。残額の使用計画として,国際会議1~2件(約30~35万円),ジャーナル投稿1件(20~25万円),謝金約10万円を予定している。
|
Research Products
(14 results)