本研究課題は、製品の属性を対象としたオピニオンマイニングのために、単語や句などでは明示されずに暗黙的に示される属性(暗黙的属性)をレビュー文から抽出することを目的とする。前年度までに、暗黙的属性が付与されたレビュー文のデータセットを自動構築する手法について研究した。 本年度は、まずこの手法の汎用性を確認した。これまでに検証したモバイルフォンに関するレビューに加え、パソコンに関するレビューを対象に、明示的属性の抽出、明示的属性を含む文と暗黙的属性を含む文のクラスタリング、クラスタラベル(属性)の決定、暗黙的属性がラベル付けされた文の抽出、という一連の手続きによって、暗黙的属性が付与されたデータセットを構築した。評価実験の結果、抽出の正解率は70%程度となり、十分に高いことを確認した。この結果、どのようなジャンルの製品に対しても、提案手法によって暗黙的属性が付与されたデータセットを構築できるとの見通しを得た。 さらに、構築したデータセットを用いて、レビュー文に対してその暗黙的属性を分類するモデルを学習した。具体的には、分類モデルとして Pre-training of Deep Bidirectional Transformers for Language Understanding (BERT) を採用し、本研究で構築したデータセットなどを用いて事前学習済み BERT モデルをファインチューニングした。実験では、明示的属性が付与された文を学習データとして用いるモデル(ベースライン)、本研究で構築した暗黙的属性が付与された文を学習データとして用いるモデル、両者を用いるモデルを比較した。その結果、暗黙的属性が付与されたデータセットを用いることで分類の正解率が大きく改善することを確認した。
|