研究課題/領域番号 |
18K11429
|
研究機関 | 山梨大学 |
研究代表者 |
鈴木 良弥 山梨大学, 大学院総合研究部, 教授 (20206551)
|
研究期間 (年度) |
2018-04-01 – 2023-03-31
|
キーワード | 語感 / 意図判定 |
研究実績の概要 |
研究課題「語彙と音韻,及び発音に基づく語感の計算モデル構築と複数文書要約への適用」に関して,令和3年度はすでに構築した語感データベースの拡張を行った.また,新聞記事データから社説を抜き出し,書き手の意図の分類を行った.また,新聞社の電子掲示板の投稿データを用いて書き手の意図の分類を行った. 具体的には語感データベースへ収録単語の追加,オノマトペ(擬音語・擬態語)データの追加構築とそのデータベースへの発音記号,声道特徴情報を追加することにより語感データベースの拡張を行った.また,前もって社説内の各文の意図として分類できると判断した「批判的」,「同調的」,「条件付賛成」,「条件付反対」,「独自の提案・提言」の5種類の分類を用い,書き手の意図の分類を毎日新聞の社説を用いて行った.音韻情報と発音の仕方に関する情報(語感)を含むデータを用いたときの意図判定と語感情報を利用しなかった場合の意図判定結果を比較し,意図判定には語感情報が寄与していることを確認した.語感の情報の中でどの情報が一番寄与しているかを確認する実験を行った.また,「発言小町投稿データ集2020年版」を用いて社説では使われない感情的な表現の抽出とその意図の分類を行っている.また社説と掲示板では語感の情報の中で寄与する情報に違いがあるのかについて調査している.これらの研究に関連して,国際会議CyberWorlds2021に論文"Semi-Supervised Learning for Aspect-Based Sentiment Analysis"を投稿し,採択された.この論文は論文レビュー,レストランレビュー,製品レビューといった異なった文章を効果的な半教師付き学習を行うことにより,正解付きデータが少ない場合でも感情分析の精度向上を実現する手法の提案であり.提案した手法を本研究の意図分類と要約にも利用するつもりである.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
令和3年度の当初研究予定は,それまでに作成した語感データベースを利用することにより要約対象となる文書における書き手の意図を判定し,その結果を要約に利用することであった.具体的には書き手の意図の分類を「批判的」,「同調的」,「条件付賛成」,「条件付反対」,「独自の提案・提言」の5種類に分けられると仮定して,分類を行う.これらの分類結果を利用して,書き手の多面的な見方を考慮した要約生成を行う. ある出来事に対してYasunaga らが提案したグラフベースの深層学習(Yasunaga'17) を拡張することにより, 報道機関の重要視の度合い, 及び意図のタイプごとにそのタイプに属する記事集合から書き手の主張を抽出する. 各タイプ間の関係を考慮した上で, 最終的に事実とそれに対する主張を要約として生成することであった. それに対し,現在までの進捗状況は,書き手の意図の判定と書き手の主張を中心とした要約をより高精度に行うために,まず,今まで作成してきた語感データベースをさらに拡張した.具体的には今まで使用していた新聞の社説以外に購入した「発言小町投稿データ集2020年版」の中に含まれる感情豊かな語句を抽出し,それらの語句を語感データベースに登録した.また,新聞の社説では余り出現しなかったオノマトペについても発言小町投稿データ集を用いて語感データベースに登録した.多くの語を語感データベースに登録したことにより,書き手の意図判定の精度が向上したことを確認した.また,意図判定の精度が向上したことにより文書要約の精度が向上することを確認した.
|
今後の研究の推進方策 |
「発言小町投稿データ集2020年版」のデータも組み入れた語感データベースを拡張し,社説と電子掲示板の記事中の意図分類と分類した意図情報を利用した文書要約に関する実験を行う.「発言小町投稿データ集2020年版」は52万件以上500MB以上の投稿データを収録しており,しかも各投稿記事には感情豊かな表現が多く出現する.語感データベースの充実と意図分類,要約実験に使用する文書データ(新聞社説,発言小町投稿データ)が増えたが,電子掲示板(発言小町投稿データ)のデータ量を増やすことにより語感データベースの拡張,意図を意識した文書要約の高精度化を実現する. 具体的には新聞の社説と電子掲示板「発言小町投稿データ集2020年版」と今年度購入する「発言小町投稿データ集2021年版」の一部をテストデータとし,人手により正解要約データを作成する. 関連研究として, DUC2002 データを用いた手法の中で最も精度が高いと報告されているCheng ら(Cheng'16) とSee らのRecursive Neural Networkを用いた手法(See'17) と比較を行う. これらを最終成果報告として論文(KEOD2022, 言語処理学会年次大会, 電子情報通信学会論文誌) にまとめる.
|
次年度使用額が生じた理由 |
新型コロナ感染拡大の影響で,国際会議がオンライン会議になってしまったため,旅費として使う予定であった予算を使用できなかった.また,登校自粛の影響で学生の協力が得られにくかったため研究の進捗が遅くなってしまい,想定していた国際会議への投稿ができなかった.令和4年度は電子掲示板のデータ「発言小町投稿データ集2021年版」を購入し,現在使用しているコーパスに追加することで語感データベースの拡張,意図を意識した文書要約の高精度化を実現する.学生の協力を得て,きめ細かい実験を行い,国際会議と論文誌に投稿し,研究成果を報告するつもりである.
|