研究課題/領域番号 |
20K19933
|
研究機関 | 京都府立大学 |
研究代表者 |
横山 友也 京都府立大学, 生命環境科学研究科, 特任助教 (20791130)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
キーワード | 質問回答サイト / 因子 / 重回帰分析 / N-gram / word2vec / 意味解析 |
研究実績の概要 |
(1) N-gramに基づいた構文情報の特徴量を用いた因子得点の推定の拡張 これまでの研究手法は、形態素解析に基づいた手法で抽出してきた構文情報の特徴量に依存度が大きかった。そこで、構文解析の代替手法であるN-gramに基づく特徴量17種を形態素解析に基づく特徴量36種の代わりに新規特徴量として使用し、計58種の特徴量を説明変数、9因子の因子得点を目的変数として重回帰分析を実施し、本手法の有効性を検証した。これまで、5-gramの範囲まで分析を行った結果、いずれの場合においても、9因子とも従来の形態素解析とほぼ同等もしくは良好な結果が得られ、その中でも2-gramの場合が最も有効的な手法である可能性を検証した。因子に応じて、形態素解析またはN-gramの中で最も有効な手法で因子得点を推定することが可能といえる結果となった。また、N-gramの場合は単項のみで済むため、因子得点を算出するモデルの軽量化が期待される結果となっており、Nの数が長くなるほどこの傾向は担保されていることを示した。 (2) 文章間の意味を考慮した因子得点の推定 これまでの研究において、文章間の意味や内容を考慮するという課題があった。そこで、word2vecを用いて文章間の意味を考慮した特徴量を追加することで、文章の因子得点の推定を行った。同時に、これまで使用してきた文章の特徴量の内容を精査した上で、構文解析(20種)または2-gram(17種)、文末表現を13種、word2vecを3種、の特徴量を分析に使用することとした。60件のデータに対して3組のクロス・バリデーションも適用して、前述の文章の特徴量を使用して重回帰分析を施したところ、9因子とも良好な推定結果が得られた。また、各因子の標準偏回帰係数の絶対値の大きな変数を調べたところ、特定の因子においてword2vecの加味が効果的であるといえる結果となった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究実績に示した「(1)N-gramに基づいた構文情報の特徴量を用いた因子得点の推定の拡張」においては、これまでの研究の主な手法とは別の分析手法を試みた場合の分析結果と傾向をさらに担保するための知見が得られている。また、分析手法の他言語への汎用にも取り組んでおり、英語で3-gramに基づいた構文情報の特徴量を用いた因子得点の推定手法の英語の質問回答文への適用も試みている段階である。構文解析を用いた分析手法に関しては、研究目的をある程度は果たした状況となっている。 一方で、構文解析の分析手法は限界を迎えつつあるため、「(2)文章間の意味を考慮した因子得点の推定」においては、word2vecを講じて単語間ならびに文章間の意味を考慮した手法に取り組み始めた。比較的順調な成果が得られているため、今後の進展に期待できる結果が得られている。 但し、過去のCOVID-19の影響で、今後思うように分析が進展しない可能性のある研究テーマもある。「英文での手法の一般性の検証」において、「適切な回答者の選出」として、英語の質問文1件に対する回答文100件を5組・5段階で評価する印象評価実験の実施を予定していたが、COVID-19の世界的な蔓延もあって、研究に協力してくれそうな人材の確保に困難になっている。この件に関して、恩師であり投稿論文の共著でもある京都工芸繊維大学の寶珍輝尚教授のご意見を賜り、相談したいと考えている。現実的に実験を施行できるかどうかは別としても、実験に使用する英文の決定等、可能な範囲でできることは進めてきている。また、「印象評価実験の一般性」を確認する研究としても、印象評価実験を国内で実施する方向で考えていたが、COVID-19の蔓延に伴い頓挫していた。しかし、COVID-19も現在では収束に向かいつつあるので、今後はどちらの実験テーマも遂行できるように進めていきたい。
|
今後の研究の推進方策 |
(1)質問回答文の意味を考慮した手法の拡張 これまでの研究では、word2vecを用いて単語ならびに文章間の意味を考慮する手法を用いることで、特定の因子にはword2vecの考慮が因子得点の推定精度に良好な推定結果が得られることを示してきた。今年度は、意味解析を考慮した手法を更に展開していき、3-gram以上のN-gramを適用した場合の分析を行い、これまでとの分析結果の比較を行っていく。また、この手法を英語の質問回答サイトにも適用していき、本研究の目的の一つである「他言語への汎用化」も進めていく。 (2)客観的評価値の推定精度の向上 これまでの申請者が行ってきた研究では、主に因子得点を説明変数として、重回帰分析を用いて、国立情報学研究所が提供している客観的評価値の推定を試みたが、推定精度の向上と推定誤差の改善という課題が残っている。これらの問題を解消すべく、(1)で行った意味解析で得られる特徴量を説明変数に追加して、客観的評価値の推定を再度行う。これまでの研究では、word2vecを用いて、各単語の意味のベクトルを平均化した値を既に特徴量として使用している。ここでは、ベクトルの値の最大値または最小値などを新規特徴量として使用することを考えている。新たに分析を行った結果をこれまでの結果と比較し、推定結果の良好性を評価する。評価の結果、推定精度の向上と推定誤差の改良が見込まれると期待される。 (3)印象評価実験の一般性の検証 これまでの研究の一般性が担保されているかどうかを検証するため、印象語50語を用いて日本語の質問回答文60件に対する印象評価実験の再実施を予定している。その分析結果について、元の因子分析の結果と比較して印象評価実験が一般性を保持されているかどうかを検証する。また、他言語への汎用を目的としても、英語の質問回答文を用いて同様な実験を実施していく。
|
次年度使用額が生じた理由 |
2020年度以降のCOVID-19の世界的な蔓延のため、当初参加を計画・予定していた国内外の学会が相次いで中止ないしはオンライン開催に切り替えられてしまい、旅費を充当することがほとんど不可能に近く、旅費として使用できるようになったのは2022年になってからであった。このような事情のため、当初計画予定より大幅に資金が余る状況となってしまった。しかし、現時点ではCOVID-19が大幅に収束しつつあるため、2023年度は、参加を計画・予定している学会が従来の現地開催の形態が可能となるため、旅費として積極的に充当できる状態になっている。したがって、国際学会やシンポジウムでの研究発表を積極的に行っていきたい意向である。また、Linux専用の新規のデスクトップパソコンや、R, Python, MatLabなど自身の研究に関連する統計分野の参考書籍を適宜購入するなど、研究をより迅速かつ効率的に進めることができるように、前年度までの分の次年度使用額も含めて、使用していくことを検討している。
|