研究課題/領域番号 |
20K20492
|
研究種目 |
挑戦的研究(開拓)
|
配分区分 | 基金 |
審査区分 |
高度科学技術社会の新局面
|
研究機関 | 早稲田大学 (2023) 東京大学 (2020-2022) |
研究代表者 |
石井 久美子 (田中久美子) 早稲田大学, 理工学術院, 教授 (10323528)
|
研究分担者 |
チン ユ 東京大学, 大学院新領域創成科学研究科, 教授 (00272394)
|
研究期間 (年度) |
2020-07-30 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
25,870千円 (直接経費: 19,900千円、間接経費: 5,970千円)
2024年度: 4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2023年度: 4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2022年度: 7,410千円 (直接経費: 5,700千円、間接経費: 1,710千円)
2021年度: 4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2020年度: 4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
|
キーワード | 冪乗則 / 複雑系 / 系列データ / 言語データ / 経済データ / 画像データ / ビッグデータ / 深層学習モデル / 評価指標 / 数理モデル / 機械学習 |
研究開始時の研究の概要 |
科学技術による人間および社会の変容を考察するには、その変容を評価することが必須である。本提案では、高度科学技術による複雑な対象の処理が、人間のそれにどこまで近付いているかを「冪乗則」の観点から評価する方法を提案する。人の主要なデータ・コンテンツとして、言語、株価、画像を対象とする。まず、そこに内在する冪的特性の実態を、既存研究をふまえて探究する。その上で、これらのデータを扱う数理モデルの冪的特性を吟味する。数理モデルには、高度科学技術の基礎となっている深層学習技術が含まれる。最後に、人のデータと、数理モデルの二者を冪乗則の観点から比較検討し、差異を具体的に評価する新しい方法を生み出す。
|
研究実績の概要 |
研究期間後半は、三つの方針の下で進めている。 第一は、データの複雑さを捉えるための、これまでとは異なる解析方法を見出すことである。まず、自然言語の大規模モデルを通して、言語の相関次元を計測し、本成果は物理学の難関英文論文として採録となった。また、河川の分岐などを対象に、冪乗則の観点から考察されているストラー数を自然言語の文構造に対して計測し、認知科学で知られる既存の重要成果との接点を理論的に。統計物理分野論文に採録となりHighlightsとして選ばれた。さまざまな数理モデルの冪的特性の再現度合いが論じられ、機械の人間からの差を評価する方法が論じられた。 第二は、系の冪乗則をより良く捉える研究で、冪分布を捉えやすい形に変換して扱いやすくしたり、シミュレーションにより、系を捉える研究を行った。まず、経済データの分布は冪的として知られるが、それをガウス分布にニューラルネットワークを用いて変換し、ボラティリティ予測を行い、変換が予測に有効であることを示した。本研究は経済系の国際会議論文として採録となった。また、エージェントベースモデルを用いて、経済予測の根幹となる、人間の特性と富の分布の相互関係を調べた。両者の共進化関係が示唆され、人間の経済活動におけるダイナミクスの理解に貢献する内容を、国際会議にて発表した。 第三は、冪分布に従うデータは、予測の難しい対象であるが、データを複合的に扱うことで、困難を緩和する方法の研究である。経済事象の中でも、特に予測が難しい長期予測に対して、言語データを組み合わせると、有意に良い予測が実現できることが示され、国際会議において2件採録・発表した。これら成果は、言語を利用した、新たな応用の可能性を示している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
期間4年目は、その最初に、代表者が所属機関を移籍し、新しい機関での活動立ち上げを行う必要があった。前任者の退官前の機関所属(「先取り人事」)であったため、代表者のオフィスが実質無く、研究室のスペースも仮であり、研究を実施する上でス困難な1年を過ごした。オフィスの状況は、2024年度初頭に改善され、最終年度当初は研究スペースの立ち上げを要しオーバーヘッドが大きい。 本研究プロジェクトは、期間を通して、コロナ禍、代表者の在外研究、代表者の所属機関の異動、先取り人事でスペースが仮の状態、など研究を安定して遂行することが困難な状況が続き、この困難は、最終年度にまで上に説明したように、持ち越されている。とはいえ、本プロジェクトの進捗は、極めて順調であるとの自己判断である。 期間初頭には、研究書籍の大賞受賞など、事前研究がまとめられ研究の前線が整理された。その上で、後半には新しい研究の方向性に着手できている。機関全体を通して、人のデータに内在する冪的特性が探求され、それに基づき大規模言語モデルを含む数理モデルの再現度合いが論じられた。冪的特性が、機械と人間の差を質・量の両方の観点から評価することが探求された。3,4年目の取り組みで、言語については、新しい冪乗則の解析手法が見出された。経済データについては、冪乗則を捉えて予測に生かすための新しい方法論が、応用の可能性をふまえて得られた。さらに言語と経済の両方を捉えた融合研究が行われた。画像についても、冪乗則を生かし、肝ガンを画像から検出する応用研究に結びついている。最終年度は、研究のまとめを行う。
|
今後の研究の推進方策 |
最終年度は、これまでの成果をふまえ、未発表内容の論文化を進め、研究プロジェクト全体をまとめる。その方針として、3,4年目同様に三つの方向に沿って行う。 第一は、データの複雑さを捉えるための、これまでとは異なる別の解析方法を見出すことである。第二は、系の冪乗則を捉える研究である。冪乗則に従っている分布を捉えやすい形に変換して扱いやすくしたり、またシミュレーションを行うことで、系を捉える研究を行うことである。第三は、冪分布に従うデータは、予測の難しい対象であるが、データを複合的に扱うことで、この困難を補完する方法の研究を行うことである。人のデータに内在する冪的特性が探求され、数理モデルの再現度合いをふまえ、機械と人間の差を冪指数などとして評価する方法をまとめる。 データ別では以下の通りである。言語データについては、特に第一の方針で基礎的な研究が進んでいる。4年目に見出した相関次元の研究の関連研究を進め、最終年度中に論文発表を目指す。 経済データについては、株価について、分布を変換する方法を2年目に着想し、4年目に発表した。本件に関して、まだ未発表部分があるため、その論文発表を目指す。エージェントモデルを用いて、4年目に続き、人間の経済活動を模したエージェントベースモデルに基づき、最終年度は理論的な考察を行う。 最後に画像データについては、第一の方針で研究を行ってきたが、その数理モデルが3年目に実現した。画像データの冪乗則は、既存研究でも知られ、言語データによる「タグ」のふるまいは、言語データのそれを敷衍して考えることができる。画像については最終年度は、これまでの成果を全体の中で考察しまとめるにとどめられる。
|