2020 Fiscal Year Research-status Report
語彙と音韻,及び発音に基づく語感の計算モデル構築と複数文書要約への適用
Project/Area Number |
18K11429
|
Research Institution | University of Yamanashi |
Principal Investigator |
鈴木 良弥 山梨大学, 大学院総合研究部, 教授 (20206551)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 語感 / データベース / 意図分類 / 要約 |
Outline of Annual Research Achievements |
研究課題「語彙と音韻,及び発音に基づく語感の計算モデル構築と複数文書要約への適用」に関して,令和2年度は前年度までに構築した語感データベースの拡張を行った.また,新聞記事データから社説を抜き出し,書き手の意図の分類を行った.また,電子掲示板の投稿データを用いて書き手の意図の分類を行っている. 具体的には語感データベースへ収録単語の追加,オノマトペ(擬音語・擬態語)データの追加構築とそのデータベースへの発音記号,声道特徴情報を追加することにより語感データベースの拡張を行った.また,前もって社説内の各文の意図として分類できると判断した「批判的」,「同調的」,「条件付賛成」,「条件付反対」,「独自の提案・提言」の5種類の分類を用い,書き手の意図の分類を毎日新聞の社説を用いて行った.音韻情報と発音の仕方に関する情報(語感)を含むデータを用いたときの意図判定と語感情報を利用しなかった場合の意図判定結果を比較し,意図判定には語感情報が寄与していることを確認した.語感の情報の中でどの情報が一番寄与しているかを確認する実験を行った.また,ネット版井戸端会議といわれる「発言小町投稿データ集2020年版」を用いて社説では使われない感情的な表現の抽出とその意図の分類を行っている.また社説と掲示板では語感の情報の中で寄与する情報に違いがあるのかについて実験の準備を進めている.これらの研究に関連して,国際会議CyberWorlds2020に論文"Sentiment analysis using semi-supervised learning with few labeled data"を投稿し,採択された.この論文は効果的な半教師付き学習を行うことにより,正解付きデータが少ない場合でも感情分析の精度向上を実現する手法の提案であり.提案した手法を本研究の意図分類と要約にも利用するつもりである.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
令和2年度の当初研究予定は,それまでに作成した語感データベースを利用することにより要約対象となる文書における書き手の意図を判定し,その結果を要約に利用することであった.具体的には書き手の意図の分類を「批判的」,「同調的」,「条件付賛成」,「条件付反対」,「独自の提案・提言」の5種類に分けられると仮定して,分類を行う.これらの分類結果を利用して,書き手の多面的な見方を考慮した要約生成を行う. ある出来事に対してYasunaga らが提案したグラフベースの深層学習(Yasunaga'17) を拡張することにより, 報道機関の重要視の度合い, 及び意図のタイプごとにそのタイプに属する記事集合から書き手の主張を抽出する. 各タイプ間の関係を考慮した上で, 最終的に事実とそれに対する主張を要約として生成することであった. それに対し,現在までの進捗状況は,書き手の意図の判定と書き手の主張を中心とした要約をより高精度に行うために,まず,今まで作成してきた語感データベースをさらに拡張した.具体的には今まで使用していた新聞の社説以外に「発言小町投稿データ集2020年版」を購入し,その中に含まれる感情豊かな語句を抽出し,それらの語句を語感データベースに登録した.また,新聞の社説では余り出現しなかったオノマトペについても発言小町投稿データ集を用いて語感データベースに登録した.多くの語を語感データベースに登録したことにより,書き手の意図判定の精度が向上したことを確認した.
|
Strategy for Future Research Activity |
令和3年度は「発言小町投稿データ集2020年版」のデータも組み入れた語感データベースを拡張し,社説と電子掲示板の記事中の意図分類と分類した意図情報を利用した文書要約に関する実験を行う.「発言小町投稿データ集2020年版」は52万件以上500MB以上の投稿データを収録しており,しかも各投稿記事には感情豊かな表現が多く出現する.語感データベースの充実と意図分類,要約実験に使用する文書データ(新聞社説,発言小町投稿データ)が膨大になったため,最新の計算機を購入し,実験効率を高め,要約実験を行う. 具体的には新聞の社説と電子掲示板「発言小町投稿データ集2020年版」の一部をテストデータとし,人手により正解要約データを作成する. 関連研究として, DUC2002 データを用いた手法の中で最も精度が高いと報告されているCheng ら(Cheng'16) とSee らのRecursive Neural Networkを用いた手法(See'17) を実装し比較を行う. これらを最終成果報告として論文(KEOD2021, 言語処理学会年次大会, 電子情報通信学会論文誌) にまとめる.
|
Causes of Carryover |
令和2年度まで,本研究で用いるコーパスとして新聞記事を使っていたが,新聞記事だけでは語感データベースに載せられる語句が少なく,意図分類や要約の実験で良い結果が得られなかった.そこで新聞記事よりも感情豊かな表現が多い電子掲示板のデータ「発言小町投稿データ集2020年版」を購入し,語感データベースの充実を図った.データベースの充実により,意図分類と要約実験の結果が向上しているため,今年度は最新の計算機を購入し,きめ細かい実験を行い,国際会議と論文誌に投稿し,研究成果を報告するつもりである.
|
Research Products
(1 results)