研究課題/領域番号 |
20K20492
|
研究種目 |
挑戦的研究(開拓)
|
配分区分 | 基金 |
審査区分 |
高度科学技術社会の新局面
|
研究機関 | 東京大学 |
研究代表者 |
石井 久美子 (田中久美子) 東京大学, 先端科学技術研究センター, 教授 (10323528)
|
研究分担者 |
チン ユ 東京大学, 大学院新領域創成科学研究科, 教授 (00272394)
|
研究期間 (年度) |
2020-07-30 – 2025-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
25,870千円 (直接経費: 19,900千円、間接経費: 5,970千円)
2024年度: 4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2023年度: 4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2022年度: 7,410千円 (直接経費: 5,700千円、間接経費: 1,710千円)
2021年度: 4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2020年度: 4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
|
キーワード | 冪乗則 / 複雑系 / 系列データ / 言語データ / 経済データ / 画像データ / ビッグデータ / 深層学習モデル / 評価指標 / 数理モデル / 機械学習 |
研究開始時の研究の概要 |
科学技術による人間および社会の変容を考察するには、その変容を評価することが必須である。本提案では、高度科学技術による複雑な対象の処理が、人間のそれにどこまで近付いているかを「冪乗則」の観点から評価する方法を提案する。人の主要なデータ・コンテンツとして、言語、株価、画像を対象とする。まず、そこに内在する冪的特性の実態を、既存研究をふまえて探究する。その上で、これらのデータを扱う数理モデルの冪的特性を吟味する。数理モデルには、高度科学技術の基礎となっている深層学習技術が含まれる。最後に、人のデータと、数理モデルの二者を冪乗則の観点から比較検討し、差異を具体的に評価する新しい方法を生み出す。
|
研究実績の概要 |
三年目は、研究代表者がイギリスにおいて在外研究を行った。言語データと経済データに関して、以下の研究を行っている。 まず、自然言語の複雑系特性を大域則の観点から調べる新しい方法として、自然言語の相関次元の研究を新しく行った。自然言語の系列が近傍に戻る度合いが冪乗則として表現され、その冪指数が相関次元である。機械学習を利用した計測となるが、機械学習の性能が低いと、相関次元が不在になることがわかっている。本研究は、最終段階にあり、四年目に研究発表を行う。また、言語の複雑系的特性を生かした、新しいベクトル表現手法を考案し、機械学習分野のトップ会議で発表した。通常の表現は、線形ベクトル空間における表現となっているが、本研究では、関数として対象を表現する。 経済データについては、経済データの冪乗側を、正規分布に変換して捉え、それを用いた数理モデルを提案した。提案手法は、冪乗則をより正確に捉えるため、既存の数理モデルよりも高い性能で予測が可能であることを実証した。また、金融市場の動的特性に関するシミュレーション研究を行った。価格のハースト指数が、取引の遅延の影響によって説明できることが明らかにされ、市場の安定性や流動性の理解が深められた。 また、言語と経済の冪乗則の関係を調べた。冪乗則のfat tailに該当する経済事象は、投資リスクが大きい状況下にあり、テキスト情報がリスクを抑え予測性能向上に寄与するとの予想が本年の成果により明らかとなった。 生体画像については、超音波検査の画像における冪則モデルを生かして肝がんの検出感度を向上させる研究を行った。冪乗則が具体的な医療応用に結びつく可能性を示した成果である。現在、腫瘍の質的診断への利用にも適用を行っている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究自体の進捗としては順調であるが、コロナ禍を原因とする変更・遅延があった。また、代表者が所属機関を移籍することに伴う、機器類の整備の計画の後ろ倒し実行がある。 コロナ禍については、未だ多くの会合がzoom化され、旅費は三年目も全額使用には至らなかった。また、世界的に半導体が不足しており、機器類の入手に時間がかかる実態がある。これに加え、代表者が所属機関を移籍することとなった。研究計画上、まったく予想されていなかった事態である。移籍に際してオーバーヘッドが生じた上、機器類の整備を後ろ倒しし、新しい機関で行わざるをえなくなった。以上から、三年目は研究を加速することはできなかった。 とはいえ、研究の進捗は順調に進んでいる。言語については、新しい冪乗則の解析手法が見出された。経済データについては、冪乗則を捉えて予測に生かすための数理モデルが得られ、さらに、言語と経済の両方を捉えた融合研究が行われた。生体画像についても、冪乗則を生かし、肝ガンを検出する応用研究に結びついている。四年目以降は新しい研究組織において、機器類の整備を進め、研究の最終的な加速が可能であると思われる。
|
今後の研究の推進方策 |
四年目以降は、三年目までの成果をふまえ、三年目と同じ以下の三つの方針で研究を引き続き行い、論文発表を行い、応用を見出していく。方針には、三つの方向が含まれる。 第一は、データの複雑さを捉えるための、これまでとは異なる別の解析方法を見出すことである。第二は、系の冪乗則を捉える研究である。冪乗則に従っている分布を捉えやすい形に変換して扱いやすくしたり、またシミュレーションを行うことで、系を捉える研究を行うことである。第三は、冪分布に従うデータは、予測の難しい対象であるが、データを複合的に扱うことで、この困難を補完する方法の研究を行うことである。 言語データについては、第一の方針で基礎的な研究が進んでいる。特に、画像の既存解析手法を参考に新手法を見出しつつあり、三年目に相関次元の解析を行い、冪乗則として複雑さを捉える可能性を見出し途中にあるため、本研究の成果発表を四年目以降に行う。 経済データについては、第二、第三の方針で研究が進んでいる。株価については、分布を変換する方法を二年目に着想し、三年目に深めている。また、所得についてはパレート則が知られるが、人間の経済活動を模したエージェントベースモデルを構築し、冪乗則の指数に各要因がどのように影響するかを解明してきた。四年目以降は具体的な成果に繋げる。 また、経済データに言語データを組み合わせることで、冪乗則に由来する稀少な経済事象の予測性能を向上させたり、リスクを抑える効果が得られることが事前研究から得られている。残研究期間で具体的に明らかにする。 最後に画像データについては、第一の方針で研究を行ってきたが、その数理モデルを今後実現し、応用へとつなげる。現状の計算コストを削減してリアルタイム応用を目指し、提案手法をニューラルネットワークにより実現する。
|