研究課題/領域番号 |
19K12110
|
研究機関 | 東京都立産業技術高等専門学校 |
研究代表者 |
横井 健 東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (40469573)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 関連性分析 / クラスタリング |
研究実績の概要 |
2019年度は主に、研究課題1の「クラスタリング結果において誤分類された対象が表現するクラスタ間の関連性とはいかなるものか」という問いに対する研究を進めてきた。これまでに収集した日本、イギリス、アメリカ、カナダの4カ国の経済に関するニュース記事を対象とし、経済というキーワードにおける国家間の関連性に着目をして分析を行った。特に、これまで、クラスタリング結果の誤分類の対象を人手で確認し、関連性の内容を分析していた部分について、より客観的かつ数値的に関連性を分析する枠組みについて検討を行った。 提案したとおり、まずトピック分析を行うことで、関連性の内容についての分析を行った。さらに、誤分類によって得られる関連性とそれらのトピックとの相関を正準相関分析を用いて分析する手法を検討し、関連性がどのような要因から構成されているか客観的な指標で分析することができた。この検討では、クラスタリング結果の正しいクラスタリング結果と間違ったクラスタリング結果を正準相関分析で分析を行える表現にする手法を提案した。その結果、研究課題1の問いに対して、関連性を構築している要因に関する分析手法を提案することができた。 一方で、対象Aと対象Bの間の関連性があった際に、そのAとBの直接の関連性について詳細な分析ができるようになった一方で、対象Cを介した、AとC、BとCといった偏相関のような関連性については、今の枠組みでは分析が難しいことが判明した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
まず、これまで、クラスタリングを実施する際のニュース記事の計量空間への写像は、名詞の出現の有無で行っていたところに、Doc2Vecを採用した。また、それにともない、従来手法同様k-meansでクラスタリングを行う際に使う距離についても、ユークリッド距離を用いた。これは、ある一定以上の規模の文書データに対応する際に、従来使用していた多次元尺度構成法では、対応が難しいと考えた事による。しかしながら、従来手法と本手法とのクラスタリング結果や関連性の変化についての比較は今後の課題である。 2019年度は特に、関連性の中身について、より客観的かつ数値的に把握する枠組みの検討を進めてきた。そのため、まず、ニュース記事にトピック分析を適用し、トピックを抽出した。さらに、そのトピックと、クラスタリング結果との間で正準相関分析を行い、国家間の関連性とトピックの内容との関連性を分析する枠組みを構築した。正準相関分析の正準スコアに基づいて、国家間の関連性とトピックを紐付け、それぞれの関連性がどのような要因から構成されているのか分析した。この結果、関連性を構成している要因を客観的な枠組みで評価することができるようになった。 なお、当初予定では、2019年度中に研究成果の発表を行う予定であったが、査読でリジェクトになってしまったため、これらの内容については、現在、別の国際会議での発表に向けて準備中である。
|
今後の研究の推進方策 |
これまでの研究で、関連性というものに対して、「何による関連性なのか?」という意味づけを行うことができたと考えている。一方で、もうひとつの研究課題である「誤分類された対象が示す関連性の度合いをどのように測るか?」という点については、方向性が定まっていない。まずは、提案したとおりの手法で、誤分類された対象が示す関連性の度合いを定量化することを考えている。特に、「誤分類された対象の密度」や「クラスタ内の対象の分布に正規分布を仮定した場合のその重なり度合い」などは直感的にも関連性の度合いとして適していると考えられるので、まずは、その周辺での定量化を検討する。その他の推進事項については、以下の通りである。 1.) ニュース記事の拡充:今現在、ニュース記事の数が少ないという問題点も解決されていない。これは、これまで、ニュース記事発信源のオフィシャルなサイトからニュースを収集していたため、収集できる数に限りがあったことが原因と考えている。今後は、ニュースのまとめサイトののようなサイトも利用することで、より多くのニュース記事を収集することを検討する。また、それらを対象に本枠組みを適用し、得られる関連性に関して検討を行っていく。 2.) ニュース記事を表現する特徴量の検討:クラスタリングを行う際の特徴量選択に関しても引き続き、昨今、高い評価を得ているSentence Piece などの特徴量も取り入れて、検討を進めていく。この点については、現在検討ができていない、その他の特徴量によって得られる関連性との比較も実施する。 3.) 偏相関にある対象間の関係性の検討:今年度の研究成果において、偏相関の関係にあるような関連性が、本枠組みでは分析が難しいことが判明した。そこで、このような関連性について、分析できるような枠組みの拡張についても検討を進める。
|
次年度使用額が生じた理由 |
まず、想定よりもニュース記事の収集が困難であったため、当初予定していた計算機の購入に至らなかった。また、研究成果の発表において査読でリジェクトとなってしまい、予定していた研究成果発表に至らなかったため、旅費やその他で使用する予定だった補助金を使用することができなかった。
|