2023 年度実績報告書

誤分類に基づいたクラスタ間の関連性を分析するための枠組み構築に関する研究

研究課題

研究課題/領域番号	19K12110
研究機関	東京都立産業技術高等専門学校
研究代表者	横井健東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (40469573)
研究期間 (年度)	2019-04-01 – 2024-03-31
キーワード	自然言語処理 / テキストマイニング / 関連性分析
研究実績の概要	2023年度は、2022年度に引き続き、主に研究課題2の「クラスタリング結果において誤分類された対象が示す関連性の度合いをどのように測るか」という問いに対する研究を進めてきた。特に、今年度は、統計的な関連性の尺度を構築することを目標に研究を進めてきた。昨年度の結果から、トピックなどを限定せずに本枠組みを適用した際に、関連性が表現できないということが判明していたため、今年度は、その地域と関連性が深いと考えられる固有表現に着目し、その固有表現を用いて関連性を測ることを検討した。具体的には、人物名、地名、組織名、企業名の4つのカテゴリの固有表現に着目した。これらの固有表現を用いて、統計的な国家間の関連性を取得する方法として、各固有表現に割り当てる重要度と各記事に出現するその固有表現の出現頻度を用いて算出することを検討した。各固有表現に対する重要度は、クラスタリングにおいて正しく分類される記事中の出現頻度が高く、一方で、誤分類記事中における出現頻度が低い固有表現に高い重要度が割り当てられるような設計を行った。関連性を表す度合いとして、ある国から、ある国への興味スコアという値を導入した。その興味スコアは、各国の記事における、別の国の固有表現の出現頻度と先に計算した重要度を用いて算出した。実験は、アメリカ、イギリス、カナダの3カ国の新聞記事を用いて実施し、その結果、国際影響力の高いアメリカとイギリスの2カ国の興味スコアの順位が高いという結果が得られた。この成果は、第86回情報処理学会全国大会にて発表を行った。

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] ニュース記事に含まれる固有表現を用いた国家間の関連性分析の検討2024
- 著者名/発表者名
  葛野航希，横井　健
- 学会等名
  情報処理学会第86回全国大会