研究課題/領域番号 |
20K11950
|
研究機関 | 北陸先端科学技術大学院大学 |
研究代表者 |
白井 清昭 北陸先端科学技術大学院大学, 先端科学技術研究科, 准教授 (30302970)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | オピニオンマイニング / 属性抽出 / 暗黙的属性 / 自然言語処理 |
研究実績の概要 |
本研究課題は、製品の属性を対象としたオピニオンマイニングのために、単語や句などでは明示されずに暗黙的に示される属性(暗黙的属性)をレビュー文から抽出することを目的とする。本年度は、前年度に引き続き、暗黙的属性が付与されたレビュー文のデータセットを自動構築する手法を洗練した。 まず、大量のレビュー文から明示的属性の抽出を試み、明示的属性が付与されたレビュー文とそうでない文(暗黙的属性を含むレビュー文)が混在したデータを得た。これらのレビュー文を Sparse Composite Document Vectors (SCDV) を用いてベクトル表現に変換し、クラスタリングを行った。さらに、得られたクラスタ内のレビュー文に出現する明示的属性からクラスタラベル(属性)を決定した。最後に、クラスタ内において明示的属性が付与されてないレビュー文を、クラスタラベルが表す暗黙的属性を含む文として抽出した。 本年度は上記の手続きを以下の通りに改良した。製品属性の同義語辞書を用意し、同義語で表される複数の属性は全て同じ属性とみなす処理を追加した。これにより、より多くの暗黙的属性を含む文を抽出することができるようになった。また、クラスタラベルを決定する際、クラスタ内における同一の明示的属性を持つ文の割合を求め、これが閾値以下のクラスタを破棄することで、暗黙的属性を含む文の抽出の正解率を向上させた。 評価実験として、スマートホンに対するレビュー文書に対して暗黙的属性を含む文を抽出した。その結果、抽出の正解率は前年度の手法と比べて74-82%まで改善し、また抽出された暗黙的属性がラベル付けされた文の数も増加したことを確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
暗黙的属性を含む文の獲得については、明示的属性抽出モデルの学習、レビュー文のクラスタリング、クラスタラベルの決定の手続きによって実現することを計画していた。これまでの研究では概ねその計画通りに実施し、十分な成果が得られたことを確認した。したがって、本研究課題は当初の計画通りに進んでいると言える。
|
今後の研究の推進方策 |
これまでの研究成果によって得られた暗黙的属性が付与されたレビュー文のデータセットを訓練データとして、暗黙的属性を抽出するモデルを深層学習により獲得する。深層学習のモデルとして、Convolutional Neural Network (CNN)、Long Short-Term Memory (LSTM)、Bidirectional Encoder Representations from Transformers (BERT) などを適用する。また、明示的属性が付与された文と暗黙的属性が付与された文の両方を訓練データとして用いる手法や、両者の効果的な組み合わせ方法を探究する。これらのモデルの性能を評価する実験を行い、モデルの優劣を比較するとともに、提案手法の有効性を確認する。
|
次年度使用額が生じた理由 |
新型コロナウイルスの影響でほとんどの学会がオンライン開催となり、成果発表や研究動向調査のための学会参加にかかる旅費を支出しなかったことが主な理由である。次年度以降は成果発表のための学会参加を増やすと同時に、学会がオンライン開催される状況が続く場合には、予算の使途を研究に必要な備品の購入に変更することを検討する。
|