研究課題/領域番号 |
19K12110
|
研究機関 | 東京都立産業技術高等専門学校 |
研究代表者 |
横井 健 東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (40469573)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | 関係性抽出 / トピック分析 |
研究実績の概要 |
2021年度は、2020年度に引き続き、主に研究課題2の「クラスタリング結果において誤分類された対象が示す関連性の度合いをどのように測るか」という問いに対する研究を進めてきた。昨年度提案した、各クラスタリング結果において、誤分類された記事数の平均値や誤分類される確率を用いた2つの尺度について、まずは再度検討を行い問題点の洗い出しを行った。誤分類された記事数の平均値については、各国のニュース記事数の差異によって、大きく結果が異なってしまうため、なんらかの正規化を行う必要があることが改めて分かった。その正規化の手段としては、確率として取り扱うことが有効であると考えられる。また、誤分類される確率を用いた尺度については、2020年度は、JSD(Jensen-Shannon Divergence)やKLD(Kullback-Leiblar Divergence)を用いて尺度の構築を試みたが、これらは確率分布間の擬距離であり、2020年度に算出した誤分類された対象の確率(誤分類された記事の数/各国の記事数)では正確に擬距離が算出できていたかどうか検討の余地があった。今回の再検討の結果、誤分類されたニュース記事が表現するトピックの分布を検討する必要があることが分かった。 昨年度の課題であった、これまで検討してきた枠組みで抽出できるのは、国家というような抽象的な概念の関連性ではなく、ある事象やトピックの関連性に留まっているという点についても、関連性の尺度の再検討を通して引き続き検討を行った。 また、データの拡充についても引き続き検討をおこなった。Media Cloud というニュース記事を集めたサイトを利用して、ニュース記事の収集を引き続き行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
2020年度の成果として、これまで検討してきた枠組みで抽出できるのは、国家というような抽象的な概念の関連性ではなく、分析の結果、ある事象やトピックの関連性に留まっているということが分かった。2021年度の進捗は、2020年度に提案した「誤分類された対象の数に基づいた尺度」と、「誤分類される確率に基づいた尺度」の2つの尺度について再度検討を行い、問題の洗い出しを行うことに留まっている。この理由は、これまで得られたある事象やトピックの関連性を用いて、より抽象度の高い対象、例えば、本研究のようにニュース記事を対象とした場合、そのニュース記事の発行国などの関連性を表現する手法が必要であると考え、検討を進めてきたが、その手法の実現に至っていないことが挙げられる。また、これまで提案してきた手法や枠組み、特に、これまで検討してきた2種類のシンプルな関連性の度合いの尺度を単純に利用するだけでは、個々の文書やトピックに着目する域を出ておらず、本研究が目指す、文書集合から抽出されるトピックなどよりさらに抽象度の高い対象の関連性を表現するのは、困難であると考えられる。 ニュース記事の拡充においても、Media Cloud を利用することで確かにニュース記事の分量を増やすことには成功したが、ニュース記事の内容や質のばらつき、またサイトによって、取得できるニュース記事が異なっているといった、データの拡充作業においても時間がかかっている。 また、2021年度においても、2020年度に実施した研究成果の内容の国際会議等における成果発表を検討していたが、査読でリジェクトになってしまい、成果発表を行うに至っていない。この原因として、関連研究との比較やこれまでの進捗との比較が行えていないことにより、提案手法の有用性の主張が明確でないことが考えられる。
|
今後の研究の推進方策 |
今年度の研究で、2020年度に提案した「誤分類された対象の数」や「誤分類される確率の差」などの直感的な定量化尺度について再度検討を行い、問題の洗い出しを行った。その過程の中で、誤分類したニュース記事集合に含まれるトピック分布集合に着目することで、より抽象的な国家間の関連性を抽出できるのではと考えている。今現在の枠組みでは、関連する各トピックに着目した分析になっているため、トピックの関連性を抽出しているにすぎなかった。しかしながら、誤分類された対象に含まれる複数のトピックを内包したトピック集合を関連性として捉えることで、各トピックの関連性に比べて、より抽象的な対象の関連性を抽出できるのではと考えている。したがって、今後は、トピック分布集合の擬距離を定義することを目指す。また、引き続き、現在用いているクラスタリング手法のk-means法のクラスタ数の決め方が、ニュース記事の発行元の国家数となっている点の見直しなどを検討する。これらと、現在未だ実施できていない、これまでの進捗との比較についても実施する予定である。その他の推進事項は以下の通りである。 1.) ニュース記事のさらなる拡充とトピックの検討:Media Cloud の性質として、アメリカのニュース記事が多いことが分かったため、他国の記事をバランスよく取得する手段を考える必要がある。 2.) ニュース記事以外の文書への本枠組みの適用:申請書に示したように、本枠組みで関連性を抽出する対象は、ニュース記事に限定されない。そこで、他の文書集合へ本枠組みを適用することで、本枠組みの有用性を検討する。
|
次年度使用額が生じた理由 |
まず、昨年度も投稿した論文がリジェクトとなってしまったため、今年度は、関連性の尺度に関して成果発表をすることを目指す。なお、今年度も引き続き、コロナウィルスの影響下は続くと考えられるため、旅費で使用できない分については、早期に物品費に振り替えることなども検討する。
|