研究課題/領域番号 |
19K12110
|
研究機関 | 東京都立産業技術高等専門学校 |
研究代表者 |
横井 健 東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (40469573)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | テキストマイニング / 関連性分析 |
研究実績の概要 |
2020年度は主に、研究課題2の「クラスタリング結果において誤分類された対象が示す関連性の度合いをどのように測るか」という問いに対する研究を進めてきた。これまでに収集した日本、イギリス、カナダ、アメリカ、ドイツ、イタリアの6カ国の経済に関するニュース記事を対象とし、関連性の度合いを測る尺度を大きく2つ提案し、それぞれ検討を行った。 1つ目の尺度は、誤分類された記事の数に基づくものである。クラスタリングとして用いたk-meansでは、初期値によってクラスタリング結果が変わるため、何回かクラスタリングを実行し、各クラスタリングにおいて誤分類された記事数の平均値を関連性の尺度として定義した。2つめの尺度は、各国の収集した記事数が異なることに着目し、誤分類される確率を用いたものである。ここでは、確率間の擬距離をJSD(Jensen-Shannon Divergence) を用いて測ることで、関連性の度合いを定義した。また、単純な確率の差による尺度についても検討を行った。今回検討した関連性の尺度は、申請書において提案した、3.誤分類された対象の密度、5.コンセンサス・クラスタリングを用いた関連度合いの尺度の一例であるといえる。 また、研究課題1「クラスタリング結果において誤分類された対象が表現するクラスタ間の関連性とはいかなるものか」という研究課題に対しても、申請書で示した、関連性の時間的な変化の考察を行った。特に、前年度はデータ数が少なく実行できなかった、誤分類結果に焦点をあて、その誤分類結果に含まれる関連性の時間的な変化の考察を行った。誤分類された対象を1ヶ月程度の期間ごとでまとめ、そのデータを、DTM(Dynamic Topic Model)を用いて分析することにより行った。その結果、関連性の内容の時系列的な変化を把握することが可能となった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
2020年度は特に、関連性の度合いを測る尺度について検討を行ってきた。誤分類された対象の数に基づいた尺度と、誤分類される確率に基づいた尺度の2つの尺度を提案した。その結果、クラスタに含まれるトピックの重なり度合いによる、関連性の尺度を構築することができた。しかし、前者の距離や後者の擬距離において、当初の仮定では、そのクラスタが表す対象の関連性が強ければ、距離は短くなるものと仮定をしていたが、本提案手法の性質上、そのクラスタに含まれるトピックによる結びつきを表現するにとどまってしまった。これは、本研究の大前提である、クラスタが表現するトピックではなく、より抽象的なもの(例えばニュース記事であれば、国家など)の関連性を表現できなかったという点に問題があると考えられる。 また、昨年度の課題であった、ニュース記事数が少ないという問題に対して、クラスタリングに用いるニュース記事の収集について見直しを行った。Media Cloud と呼ばれるニュース記事収集サイトを利用し、各国20,000件近いニュース記事を収集した。そのため、これまでは、すべての記事を対象に行っていた、トピック分析も、誤分類された対象にのみ絞って、分析を行うことが可能となった。今年度は、昨年度の全体的な関連性の要因に加えて、DTMを用いて、誤分類対象の記事に含まれる1ヶ月程度の期間ごとでのトピックの推移を観察することができた。その結果、アメリカ大統領選挙など複数国が興味を示すと考えられるトピックに加えて、国家独自のトピックである、ブンデスリーガなどのトピックを分類することができた。COVID-19についても分析を行ったが、これは、全世界が関心を示していたため、国家間の関連性を示す指標としては不適切なことが分かった。
|
今後の研究の推進方策 |
今年度の研究で、研究課題2「誤分類された対象が示す関連性の度合いをどのように測るか?」という点について、その尺度として「誤分類された対象の数」や「誤分類される確率の差」などの直感的な定量化を検討した。しかしながら、現在のニュース記事を表現する特徴量の性質上、クラスタリング結果が国家によるクラスタリングではなく、トピックのクラスタリングになっており、その結果、関連性も、トピック間の関連性を表現する尺度となっており、国家のような、より抽象的な対象の関連性の尺度としては、解釈が困難なものも少なくなかった。そこで、次年度は、この点について、申請書で提案した関連性の尺度を引き続き検討するとともに、現在用いているクラスタリング手法のk-means法のクラスタ数の決め方が、ニュース記事の発行元の国家数となっている点の見直しなどを検討する。これらと、現在未だ実施できていない、これまでの進捗との比較についても実施する予定である。その他の推進事項は以下の通りである。 1.) ニュース記事のさらなる拡充とトピックの検討:Media Cloud を利用することによって、一昨年度に比べて、格段に使用するニュース記事の量が増えた。一方で、集めてくる際に指定するトピックについては、現在話題のトピックという程度でしか指定を行ってこなかった。その結果、COVID-19のように、全世界共通のトピックを集めてきてしまうと、国家間の関連性を抽出するのは困難になった。そこで、使用するニュース記事のトピックによる関連性のふるまいについても検討を進める。 2.) 偏相関にある対象間の関係性の検討:一昨年度の研究成果において、偏相関の関係にあるような関連性が、本枠組みでは分析が難しいことが判明した。そこで、このような関連性について、分析できるような枠組みの拡張についても検討を進める。
|
次年度使用額が生じた理由 |
まず、世界的な半導体の部材不足のため、当初予定していた計算機の部品を購入することができなかった。また、COVID-19の影響で、研究発表を行った国際会議がヴァーチャル開催になってしまい、旅費やその他で使用する予定だった補助金の一部を使用することができなかった。 早い段階で半導体関連の計算機の部材の調達を行うとともに、今後しばらく、COVID-19による国際会議等への渡航制限が続くことが予想されることから、一部の旅費を物品費に振り替えることなどを検討する。
|