2018 Fiscal Year Annual Research Report
テキストからわかる価値観を対象にした内容分析とその半自動化手法に関する総合的研究
Project/Area Number |
18H03495
|
Research Institution | Kyushu University |
Principal Investigator |
石田 栄美 九州大学, 附属図書館, 准教授 (50364815)
|
Co-Investigator(Kenkyū-buntansha) |
冨浦 洋一 九州大学, システム情報科学研究院, 教授 (10217523)
大賀 哲 九州大学, 法学研究院, 准教授 (90445718)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 内容分析 / 人の価値観 / 自動分類 |
Outline of Annual Research Achievements |
原子力発電等の議論に関する新聞社の社説を対象に、人の価値観に対する内容分析をすることが大きな目的であるが、本年度は、これを行うためにまず3ステージによる人の価値観の内容分析手法のアプローチを提案し、そのうち、分析対象記事の自動的な判定に関して判定コストを考慮した実験と価値観文の判定に関して初期的な実験結果を得た。 提案した内容分析手法のアプローチは、①社説が分析対象であるかどうかを判定し(on/off topic identification)、次に②分析対象記事の中の各文が価値観が含まれるか文(価値観文)が事実文であるかどうかの判定を行い、最後に③価値観文に対して具体的な価値観を付与する、という3ステージから成る。それぞれのステージにおいて分類器を導入することにより、半自動化を試みる。 ①分析対象記事の判定は、原発や原子力の語が含まれている社説を検索し収集した上で原子力発電やエネルギー政策が中心的な話題である社説を判定する。検索で収集した社説に対し、2名のコーダーがそれぞれコーディングを行い、その結果を持ち寄り判定結果が異なる場合は合議し最終的な判定結果(adjudicated)を決めることで2種の分類器のための学習用データを構築した(448社説)。SVMと深層学習を用いたfastTextの2分類器を用いて、A.それぞれのコーダーが判定した結果を混ぜた学習用データとB.adjudicatedの学習用データ(判定コストはAの2倍、判定の質はAより良い)を用いた場合の分類器の判定性能を比べたところ、判定コストに制限がある場合(小さい場合)にはAを学習用データに用いたほうが性能が高くなることがわかった。 また、価値観文の判定については、量が少ない学習用データを用いても、SVMにおいてある程度の判定性能を得られることがわかった。今後、さらに性能を高くできるか検討する予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
内容分析の半自動化に向けた基礎的なアプローチを提案できたこと、また価値観文の判定に関してもある程度の判定性能が見込めるとの見通しが立ったため、おおむね順調に進展しているといえる。来年度は、人の価値観に関するコーディングフレームを確定させ、価値観文、価値観が付与された文の量を増やすことが必要である。
|
Strategy for Future Research Activity |
既に構築した価値観フレームを用いて価値観文に対してコーディングを行ったが、2名のコーダーの一致率がそれほど高くない。そのため、価値観フレームの見直しをする予定である。内容分析の基本となる部分のため、テストコーディングを繰り返し、十分な一致率が得られる価値観カテゴリを選択する。 また、提案した3ステージのうち、分析対象記事の判定において判定コストを考慮した分類器の学習に関する実験は今年度に実施したが、来年度は、価値観文の判定実験、価値観文と判定された文への価値観のコーディングに対しても、同様のことが成り立つか、検証を行う予定である。
|
Research Products
(4 results)