2021 Fiscal Year Research-status Report
Project/Area Number |
20K20492
|
Research Institution | The University of Tokyo |
Principal Investigator |
石井 久美子 (田中久美子) 東京大学, 先端科学技術研究センター, 教授 (10323528)
|
Co-Investigator(Kenkyū-buntansha) |
チン ユ 東京大学, 大学院新領域創成科学研究科, 教授 (00272394)
|
Project Period (FY) |
2020-07-30 – 2025-03-31
|
Keywords | 冪乗則 / ビッグデータ / 深層学習モデル |
Outline of Annual Research Achievements |
本提案では、高度科学技術が、複雑な対象に関する活動において、人間にどこまで近付いているかを客観的に評価する手法を、「冪乗則」の観点から評価する方法を提案することを目的とする。本研究では、言語、経済データ、画像など、人が生み出すデータコンテンツに対して、そこに内在する冪的特性を調査する。それを扱う機械学習モデルがどの程度その特性を再現するかを調べ、その差異を元に、機械が人間にどの程度近づいたかを評価する方法を考える。 期間二年目は、初年度に積み残した環境整備を行った。コロナ禍で購入をすることができなかった深層学習用機械を設置した。また、データの入手についても、引き続き進めた。 研究実績は以下となる。言語データについては、初年度にまとめた書籍を完成させ出版した。英文版をSpringerから、和文版を東大出版会より5月に出版した。和文版に対して2021年12月に、毎日出版文化賞を受賞し、本開拓研究の大きな実績となった。さらに、書籍では扱わなかった冪乗則の実態を調査した。特に、言語の構文の中にあるMenzerathAltmann則に関して、また、ゆらぎ解析の異なる手法を比較し、雑誌論文を発表した。 経済データについては、エージェントベースモデルを用いて国民性格の分布の差異から資産分布のPower-Lawに与える影響を調べ、国内雑誌論文として発表した。また、系列についてはボラティリティに基づく研究を進め、雑誌論文の条件付き採録を得た。冪乗則に従うデータのモデルとして、新しい方式を考案し、現在論文を投稿中である。 画像データについては、Power-Law Shot Noise Modelを用いて肝臓の超音波検査画像内に存在する組織の中で腫瘍の分類感度を向上させた。学生が博士号を取得し、現在その論文は雑誌論文として投稿中である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2年目は、初年度に引き続きコロナ禍を原因として、予定通りにはいかないことが多かった。特に初年度よりDeepLearning用機械を一機購入することが予定されていたが、世界的な半導体の不足により、機械を確保することが難しく、1年がかりで努力を重ね、やっと年度末ギリギリに導入された。本機の導入により、3年目以降は研究が加速される。 一方のデータの収集であるが、研究の提案当初は、画像としては美術データなどを用いることを考えていた。しかし、世界的に美術館の人員がテレワークとなり、画像データの公開が遅れて見通しがたたず、絵画データの入手は困難な状況が続いている。また、美術データについては、冪乗則に関して既存論文が知られることも明らかとなった。この点、共同研究者が、画像としては医療データを用いることに活路を見出した。産業応用の観点からも、医療画像データの方が実り多いことは確実であることから、本プロジェクトでは、今後は画像データでは主に医療データを中心に据える。 対外的な関係が必須となる、研究の下支え部分のマネージメントは、コロナ禍では困難が続くが、研究自体は、実績はむしろ順調に積むことができた。第一に、言語の研究ついては、これまでの知見を一書とする書籍が出版され、毎日出版文化賞を得た。また、冪乗則に関わる新しい研究のアプローチを見出した。経済データの冪乗則についても、初年度の知見を踏まえ、今年度は順調に成果が挙がっている。画像については、分担者が肝臓の超音波画像データの中に冪乗則を計測する手法を確立させ、それを元に肝臓癌検出の論文として発表した。いずれのデータについても、論文発表は順調に行うことができた。 以上から、2年目の進捗としては計画どおりであるとの自己判断である。
|
Strategy for Future Research Activity |
3年目以降は、これまでの研究を踏まえ、以下の三つの方針で研究を行い、論文発表を行い、応用を見出していく。方針には、三つの方向が含まれる。第一は、データの複雑さを捉えるための、これまでとは異なる別の解析方法を見出すことである。特に、異種のデータを扱うことが本プロジェクトの特徴であるが、解析方法をデータに横断的に調べることで、新しい解析手法に到達することができる見込みである。第二は、冪乗則に従っている分布を、捉えやすい形に変換することにより、扱いやすくする研究である。これは予測など工学応用に直結するものである。第三は、冪分布に従うデータは、予測の難しい対象であるが、言語と経済データなど、データを複合的に扱うことで、この困難を補完する方法の研究を行うことである。 言語データについては、第一の方針で基礎的な研究を進める。特に、次元解析という、画像や経済データにおいて適用されてきた既存解析手法を新手法を見出しつつあり、3年目に基礎的な論文発表を行う。 経済データについては、2年目のアイデアを受け、第二、第三の方針で研究を進める。経済データの変換方式を実現させ、また言語データを利用することで冪分布に従う価格・ボラティリティの予測性能を向上させる。また、共同研究者が、マルチシナリオシミュレーションを通して、国民性格分布による資産分布のPower-Lawの変化における機構解明を行う。 画像データについては、第一の方針で研究を行う。特に、言語や経済データで行われてきた解析手法の研究を推し進め、病変検出などの応用の可能性を明らかにする。特に、肝臓の超音波検査画像に対して、腫瘍以外の組織に関しても分類性能の向上を目指し、Power-Law Shot Noise Modelを使用した組織特性指標の抽出方法の改良を行う。
|
Causes of Carryover |
コロナ禍により、予定していた学会等がオンライン開催になったため。次年度以降に利用予定である。
|
Research Products
(16 results)