2017 Fiscal Year Research-status Report
Project/Area Number |
17K00298
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
白井 清昭 北陸先端科学技術大学院大学, 先端科学技術研究科, 准教授 (30302970)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | オピニオンマイニング / テキストの極性判定 / 自然言語処理 |
Outline of Annual Research Achievements |
本研究課題では、時事問題が与えられたとき、それに対する人々の意見を集約・分析し、わかりやすい形式でユーザに提示する手法を探究する。本年度は、提案手法を構成する要素技術のうち、ブログ記事における他のテキストの引用箇所を同定する技術を研究した。まず、10個程度の時事問題に対し、それに対して意見を述べているブログ記事を収集した。記事を収集するブログサイトはYahoo!ブログとした。その際、キーワード検索で得られたブログ記事のうち、明らかに個人の意見が述べられていないものは除外した。次に、収集したブログ記事における他のテキストの引用箇所を人手で分析した。その結果、他のテキストの引用としては、他者のブログ記事よりも新聞などメディアの記事を引用することが多いことがわかった。また、引用したテキストに述べられている意見と反対の意見をブロガーが述べている事例も確認した。このような事例は、ブロガーの意見と反対の極性を示唆する単語が引用記事内に出現するため、ブログ記事の極性判定を誤りやすい事例であり、本研究課題で解決に取り組むべき主たる問題である。引用箇所の特徴として、「転載」「掲載」などの特定のキーワードが出現することや、フォントなどのスタイルが変更されていることなどが明らかになった。ブロク記事のHTMLファイルを構造解析した上で、上記の手がかりを特徴量として抽出するシステムを作成し、これをもとに引用箇所を自動検出するモデルを機械学習した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
引用箇所を自動検出するモデルは、特徴量の変更や機械学習アルゴリズムの変更など、いくつか改良・改善の余地は残されているが、その基本的な設計は既に完了している。したがって、概ね当初の計画通りに進んでいるといえる。
|
Strategy for Future Research Activity |
引用箇所の自動検出については、昨年度までに作成したモデルを微調整し、検出精度を更に向上させる。 その後、テキストの極性判定を行う手法を探究する。評価語辞書に掲載されている評価語、時事問題を表すキーワードの近傍もしくは係り受け関係にある単語、否定表現、意見の強さを表す副詞や強調表現などを手がかりとして、テキストの極性を判定する。さらに、ブログ記事が他のテキストを引用しているときは、引用箇所以外のテキストの極性、引用箇所の極性、引用の種類の3つも考慮して極性判定を行う。 次に、与えられた時事問題に対し、複数のテキスト間の引用・被引用関係を可視化した意見グラフを構築する。被引用テキストを中心に、それを引用した記事をその極性(賛成か反対か)とともに二次元空間上に配置し、時事問題に対する意見を俯瞰的に見ることができるグラフを作成する。 最後に、要素技術(引用箇所同定や極性判定)の評価や、意見グラフの有効性の主観的な評価を行い、提案手法の有効性を確認する。
|
Causes of Carryover |
物品については、現状の設備で研究を遂行することが十分可能であることがわかり、サーバなどの購入を行わなかったため、次年度使用額が発生した。旅費・その他については、研究発表・資料収集にかかる費用が当初の予定よりも低かったため、次年度使用額が発生した。 今年度以降の使用計画としては、研究の遂行に必要なサーバやPCの購入や、今年度に引き続き研究発表・資料収集のための学会参加の旅費として予算を執行する予定である。
|
Research Products
(1 results)