研究課題/領域番号 |
16K14379
|
研究機関 | 東京大学 |
研究代表者 |
岡本 ゆかり (桂ゆかり) 東京大学, 大学院新領域創成科学研究科, 助教 (00553760)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | データ科学 / 物性データベース / 熱電変換材料 |
研究実績の概要 |
物性科学の世界では、「自分のデータと文献上のデータを直接同じグラフで比較する」という単純な解析は、十分に行われているとは言い難い。実験と理論の相互比較をしにくいことによる弊害や、類似データ、トップデータを検索できる共通の場所がないことによるトラブルもある。さらに、近年急速に発展しているマテリアルズインフォマティクスでは、第一原理計算データの機械学習から得られる情報量が多くないという欠点もあり、大量の実験データが求められている。 そこで本研究では、毎年出版される膨大な論文に掲載された実験データを網羅的に集積して、容易に相互比較し、機械学習にも活用できるデータベース化することを目指した。熱電変換材料をモデルとして、論文の大量収集から、グラフ画像からの実験データの抽出、試料単位でのデータベース化までの一連のプロセスの効率化に取り組んだ。”thermoelectric”をキーワードとして、文献検索システムから取得した47,936本分の論文リストから、材料特性を含む可能性の高い論文18,471本を絞り込み、このうち14,835本の論文フルテキストをPDFとしてダウンロードした。これらのファイルからのデータ抽出を効率化するため、グラフトレース前後のデータ管理を自動化することで、専門家がその知識を生かして効率的にグラフトレース作業に取り組める論文データ収集Webシステム”Starry data”を開発した。ローカル環境でのPDFからの画像抽出を効率化するWindowsソフトウェア"Starry data Station"を開発した。これらを用いて、手作業でありながら、流れ作業の概念で効率的にデータ収集ができる環境を整え、熱電特性の温度依存性データの収集を開始した。収集したデータの閲覧システムをStarry dataに搭載し、物性データベースのプロトタイプを作成した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
当初目標としていた課題は、簡易型文献データ収集システムの製作、研究補助員による文献データ収集、物性データベースのプロトタイプの製作である。今年度は、簡易型文献データ収集システムの製作に続き、独自のWebシステムの製作まで完了した。論文PDFの収集は約14,835本も完了し、そこからのデータ収集も順調に進行している。物性データベースのプロトタイプWebシステムも、3種類のインターフェイスを並行しながら進めており、当初の計画以上に順調に進展していると言える。
|
今後の研究の推進方策 |
次年度も引き続き文献データの収集を行い、物性データを大規模な試料単位データベースとして公開するための準備を進める。このため、ここまでに開発したグラフ型データブラウザや論文PDFへのリンク機能の使い勝手の改良を進めるとともに、2次元マップ型データブラウザ、文献データ検索システム、微細組織ブラウザの開発を進める。また、機械学習のために、実験データを行列の形に集約したデータマップの記述法の開発を進める。また、文献値データベースのWebインターフェイスの改良を続ける。第一原理計算シミュレーションによって作成したモデル実験データに対して、スパースモデリングおよびディープラーニングによる機械学習を施すことにより、これらの機械学習の有効性の検証を行う。この上で、収集した実験データの機械学習を行い、実験データがなくてはわからない熱電特性傾向の発見を目指す。
|