2016 Fiscal Year Research-status Report
進化的アルゴリズムとシミュレーションを活用した新規分子ワイヤ物質探索
Project/Area Number |
16K13739
|
Research Institution | Kanazawa Institute of Technology |
Principal Investigator |
林 亮子 金沢工業大学, 工学部, 講師 (30303332)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | データマイニング / データ処理 / 決定木 / ランダムフォレスト / 分子 |
Outline of Annual Research Achievements |
本年度はデータマイニングを用いたデータ分類に力点を置いて研究を行った.例題として発火点を使用し,化学分野で「基」と呼ばれる分子の部分構造の頻出パターンと,発火点の間に何らかの関係があるかどうか,知られた関係を実際に抽出できるかどうかを調べた.これまでに240件のデータを用いて試験的な数値実験を行っていたが,結果が良くなかったため,新たな手法の利用とデータ件数および記述子の増加を本年度行った.また,その作業に際してデータ内容を確認したところ,誤りが多数あったため,それらを修正した. これまでは「決定木」と呼ばれるデータマイニング手法を用いていたが,これまでの結果では過学習が起こっていたため,過学習に強い手法として知られているランダムフォレストを使用し,学習データとは異なるテストデータ10件に対して発火点予測を行い,これまで知られている発火点と比較した結果,決定木よりも予測精度が改善した.ランダムフォレストでは,記述子の重要度が得られるので,それも調査した結果,これまで知られていたように,ベンゼン環の有無が最も重要な記述子であることが確認できた.次に重要な記述子として,分子量や炭素原子個数などの,分子サイズに関連の深い記述子がこれまで知られており,決定木でも同様の結果が得られていたが,ランダムフォレストでも同様に分子サイズに関連の深い記述子が発火点決定に重要な記述子である結果が得られた. また,データの訂正とともに記述子をより詳細に見直して,特に基に関する記述子を追加した結果,決定木を使用した場合でも予測結果の改善が見られた.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
現在使用している分子に関するデータは,複数のデータベースを使用しており,手作業でデータ管理を行っているため,データ作成作業に時間がかかる.また,基に関するデータは現在あまり整備されておらず,構造式を目視して作成する必要がある.今年度はデータの試験作成の側面もあるため研究代表者自身でデータ作成を行ったが,次年度は今年度のデータ作成手法を踏まえて研究補助者にデータ作成支援を委託し,データの一層の正確さと作成における迅速さ,また扱うデータ範囲の拡大を行う予定である.
|
Strategy for Future Research Activity |
本年度の研究内容をとりまとめて対外発表を行い,また適切な記述子を選択するために必要な,内容の理解を深めるとともに,進化型計算手法の実装を行う. 現在使用している記述子は互いに中程度以上の相関を持つと予想されるものが複数存在するため,最近注目される手法の一つであるスパースモデリングなどの利用を試み,適切な記述子の選択を試みる. 分子ワイヤに近く,よく調べられている物質が導電性高分子であるため,導電性高分子に関するデータを集積するとともに構造に関するシミュレーションを行い,分子ワイヤを扱うための知見を得る.
|
Causes of Carryover |
計算化学ソフトウェアGaussianの保守費用として,もともと平成29年度に支出を予定していたが,平成28年度中にバージョンアップがあり,その費用が当初の想定よりも高額であったため,1式を先行して購入して既設計算機上で試験的な使用を行うこととした.同ソフトウェアを利用してマルチコア計算機の要求仕様を見直したのちに,試験開発用マルチコア計算機を購入することとした.また,本年度は化学データの内容を確認するため,研究代表者自身でデータ作成を行ったが,その作業に時間を要したため,研究補助を依頼するには至らなかった.
|
Expenditure Plan for Carryover Budget |
計算化学ソフトウェアGaussianを既設計算機上で試験的に使用して新規購入する計算機の要求仕様を見直したのちに,次年度に試験開発用マルチコア計算機を購入する.あわせて,計算化学ソフトウェアGaussianをもう1式,既存ライセンスからバージョンアップを行う必要がある.また,本研究で使用するデータ作成作業内容の見積もりができたので,次年度にデータ作成の研究補助を依頼する.
|
Research Products
(3 results)