2020 Fiscal Year Research-status Report
オピニオンマイニングのための製品レビューからの暗黙的属性の抽出
Project/Area Number |
20K11950
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
白井 清昭 北陸先端科学技術大学院大学, 先端科学技術研究科, 准教授 (30302970)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | オピニオンマイニング / 属性抽出 / 暗黙的属性 / 自然言語処理 |
Outline of Annual Research Achievements |
本研究課題は、製品の属性を対象としたオピニオンマイニングのために、単語や句などでは明示されずに暗黙的に示される属性(暗黙的属性)をレビュー文から抽出することを目的とする。本年度は、暗黙的属性が付与されたレビュー文のデータセットの自動構築に取り組んだ。 まず、既存の明示的属性が付与されたデータセットから、Conditinal Random Fields(CRF)によって属性抽出モデルを機械学習した。次に、大量のレビュー文に対して学習したCRFを適用し、明示的属性を抽出した。これにより、明示的属性が付与されたレビュー文とそうでない文(暗黙的属性を含むレビュー文)が混在したデータが得られた。 これらのレビュー文に対してクラスタリングを実行した。Sparse Composite Document Vectors (SCDV)によってレビュー文をベクトル表現に変換し、これを基に k-means 法によってレビュー文のクラスタを作成した。ここで同一クラスタのレビュー文は同じ製品属性に対する意見を述べていると仮定する。さらに、クラスタ内のレビュー文に出現する明示的属性からクラスタラベルを決定した。ここでのクラスタラベルとは、クラスタ内のレビュー文が言及している製品の属性である。最後に、クラスタ内において明示的属性が付与されてないレビュー文を、クラスタラベルが表す暗黙的属性を含む文として抽出した。 評価実験として、スマートホンに対するレビュー文書に対し、先に述べた手法で獲得された暗黙的属性を含む文の正解率を人手で測った。その結果、暗黙的属性の種類によって正解率は異なるが、およそ70~80%程度の正解率が得られた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
暗黙的属性を含む文の獲得については、明示的属性抽出モデルの学習、レビュー文のクラスタリング、クラスタラベルの決定の手続きによって実現することを計画していた。今年度の研究では概ねその計画通りに実施し、十分な成果が得られたことを確認した。したがって、本研究課題は当初の計画通りに進んでいると言える。
|
Strategy for Future Research Activity |
評価実験では、自動獲得した暗黙的属性付きのレビュー文の正解率は70~80%程度であったが、属性の種類によっては正解率が50%を下回るものもあった。したがって、レビュー文のクラスタリング手法やクラスタラベルの決定方法などを見直し、暗黙的属性付きのレビュー文を獲得する手法を洗練する。 次に、得られた暗黙的属性が付与されたレビュー文のデータセットを訓練データとして、暗黙的属性を抽出するモデルを深層学習により獲得する。深層学習のモデルとして、Convolutional Neural Network (CNN)、Long Short-Term Memory (LSTM)、Bidirectional Encoder Representations from Transformers (BERT) などを適用する。得られたモデルの性能を評価する実験を行い、これらのモデルの優劣を比較するとともに、提案手法の有効性を確認する。
|
Causes of Carryover |
新型コロナウイルスの影響でほとんどの学会がオンライン開催となり、成果発表や研究動向調査のための学会参加にかかる旅費を支出しなかったことが主な理由である。次年度以降は成果発表のための学会参加を増やすと同時に、学会がオンライン開催される状況が続く場合には、予算の使途を研究に必要な備品の購入に変更することを検討する。
|
Research Products
(1 results)