2023年度は、2022年度に引き続き、主に研究課題2の「クラスタリング結果において誤分類された対象が示す関連性の度合いをどのように測るか」という問いに対する研究を進めてきた。特に、今年度は、統計的な関連性の尺度を構築することを目標に研究を進めてきた。 昨年度の結果から、トピックなどを限定せずに本枠組みを適用した際に、関連性が表現できないということが判明していたため、今年度は、その地域と関連性が深いと考えられる固有表現に着目し、その固有表現を用いて関連性を測ることを検討した。具体的には、人物名、地名、組織名、企業名の4つのカテゴリの固有表現に着目した。これらの固有表現を用いて、統計的な国家間の関連性を取得する方法として、各固有表現に割り当てる重要度と各記事に出現するその固有表現の出現頻度を用いて算出することを検討した。 各固有表現に対する重要度は、クラスタリングにおいて正しく分類される記事中の出現頻度が高く、一方で、誤分類記事中における出現頻度が低い固有表現に高い重要度が割り当てられるような設計を行った。関連性を表す度合いとして、ある国から、ある国への興味スコアという値を導入した。その興味スコアは、各国の記事における、別の国の固有表現の出現頻度と先に計算した重要度を用いて算出した。実験は、アメリカ、イギリス、カナダの3カ国の新聞記事を用いて実施し、その結果、国際影響力の高いアメリカとイギリスの2カ国の興味スコアの順位が高いという結果が得られた。 この成果は、第86回情報処理学会全国大会にて発表を行った。
|