誤分類に基づいたクラスタ間の関連性を分析するための枠組み構築に関する研究
Project/Area Number |
19K12110
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Tokyo Metropolitan College of Industrial Technology |
Principal Investigator |
横井 健 東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (40469573)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2021: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2020: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2019: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
|
Keywords | テキストマイニング / 関連性抽出 / 関係性抽出 / トピック分析 / 関連性分析 / クラスタリング |
Outline of Research at the Start |
本研究課題では、クラスタ間の関連性を表現する対象の集合を抽出し、その関連性を分析するための新たな枠組みを構築することを目的とする。本研究課題では、クラスタリング結果において「誤分類された対象」が、クラスタ間の関連性を表現していると考え、その誤分類された対象に基づいて、クラスタ間の関連性を分析するための枠組みの構築を目指す。
|
Outline of Annual Research Achievements |
2022年度は、2021年度に引き続き、主に研究課題2の「クラスタリング結果において誤分類された対象が示す関連性の度合いをどのように測るか」という問いに対する研究を進めてきた。特に、これまで検討してきた枠組みで抽出できるのは、国家というような抽象的な概念の関連性ではなく、ある事象やトピックの関連性に留まっているという点について、関連性の尺度の再検討を通して引き続き検討を行った。この点については、これまで、各国の代表的な出版元によるニュース記事をトピックや事象などの制限を設けず収集し、その分析を進めてきたが、ニュース記事を収集する際に、トピックや、取り扱っている事象に制限を設けることで、トピックやある事象の関連性という観点ではなく、別の観点で分析ができるのではないかという着想に至った。 その予備実験として、ある特定の著者によるTwitter のツイートを用いて事前学習済みのBERTのモデルをファインチューニングし、その学習させたBERTを用いて、他のユーザのツイートとその学習させた著者のツイートの混合集合から、ツイートの内容によったトピックとは別次元の著者という軸による分類を試みた。なお、分類に使用したツイート集合は、ある特定のキーワード集合で検索して集めたものであり、類似したトピックを持ったツイートであると考えられる。この成果は、第85回情報処理学会全国大会にて発表を行った。 また、データの拡充についても引き続き検討をおこなった。この点においては、様々なニュース媒体やウェブサイトから、より効率的にニュース記事やテキスト情報を収集できるようなツールの作成を検討した。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
2022年度の成果として、以下の2点、1.) 国家というような抽象的な概念の関連性の獲得方法の検討、2.) 様々なニュース媒体やウェブサイトから、より効率的にニュース記事やテキスト情報を収集できるツール作成の検討、がある。1.) については、例えばテキスト情報の著者分類などの枠組みを取り入れることを検討している。これまでの研究では、分類を行った際に、トピックの関連性によって分類が行われ、誤分類対象は、国家間の関連性のみならず、トピックの関連性で誤分類が発生する現象が散見された。著者分類においても、ただ、テキストを分類しただけでは、そのテキストのコンテンツの関連性よりも抽象度の高い著者の関連性を捉えることは難しい。そこで、分析対象の文書にトピックの制限を加えることで、著者という属性が捉えられるのではないかと考えた。実際にTwitter の文書を用いて、その著者の分類を行ったところ、0.90以上の精度で分類を行うことに成功した。今後はこの枠組みを、本研究の国家間の関連性など、より一般性のある抽象的な概念の関連性を抽出する枠組みに取り入れることを検討している。 2.) については、ニュース記事やウェブ上のテキスト情報を収集する際に、サイトごとに構造が異なっているという点で、分析のための情報収集に時間がかかってしまっていた。そのため、より汎用的なウェブクローラを開発できないか検討を行った。 また、2022年度においても、これまでに実施した研究成果の内容の国際会議等における成果発表を検討していたが、査読でリジェクトになってしまい、成果発表を行うに至っていない。この原因として、関連研究との比較やこれまでの進捗との比較が行えていないことにより、提案手法の有用性の主張が明確でないことが考えられる。
|
Strategy for Future Research Activity |
2022年度の研究で、著者のようなテキストのコンテンツの関連度より、より抽象度の高い概念での分類に関する枠組みの構築を検討した。今後は、この枠組みを、本研究で扱っている、ニュース記事などへ適用を行い、国家間の関連性というような、より抽象度の高い概念を抽出できるかどうか検討を行う。2022年度の著者分類の研究では、BERTを用いてTwitter の分類を行った。これまでの本研究では、k-means法を用いているが、その手法についても検討を行う。また、k-means 法のクラスタ数の決め方が、ニュース記事の発行元の国家数となっている点の見直しなどを検討する。これらと、現在未だ実施できていない、これまでの進捗との比較についても実施する予定である。その他の推進事項は以下の通りである。 1.) トピックに着目した分析データの収集:分類において、トピックによる関連性の影響を極力低くするために、トピックを制限した分析データをバランスよく取得する手段を考える必要がある。 2.) ニュース記事以外の文書への本枠組みの適用:申請書に示したように、本枠組みで関連性を抽出する対象は、ニュース記事に限定されない。そこで、他の文書集合へ本枠組みを適用することで、本枠組みの有用性を検討する。
|
Report
(4 results)
Research Products
(5 results)