研究課題/領域番号 |
18K11192
|
研究機関 | 大阪大学 |
研究代表者 |
鈴木 譲 大阪大学, 基礎工学研究科, 教授 (50216397)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 相互情報量 / 独立性検定 / 因果推論 |
研究実績の概要 |
本研究では、多変量のデータから、変数間の依存関係の強さを評価し、事後確率を最大とするグラフィカルモデルを構築する問題を検討している。そのために、連続値を含む、離散でも無限個の値を取るといった一般の2変数に関する相互情報量の推定方法を検討している。そして、その推定量が、サンプル数とともに真の相互情報量に収束することを示す。次に、ゲノム解析のRNA シーケンスから得られたデータから、複数の遺伝子の発現量の間の因果関係を表現する森を構築することを検討している。さらに、その理論を条件付き相互情報量の推定の場合に一般化し、与えられたデータに対して事後確率を最大にするベイジアンネットワークを構築する方法を検討している。 2019.4-2020.3に関しては、アルゴリズムの構築、および数理的な側面からの検討を主に行った。その結果、以下の研究成果が得られた(特に、既存研究との差異が主張できた)。 1. 連続変数を含むなど一般的な2 変数に適用できる相互情報量の推定量J(n) が、サンプル数nとともに相互情報量の真の値に収束することを数学的に証明した。 2. . 独立性および相互情報量の概念を拡張し、条件付独立性および条件付相互情報量についても、推定量J(n)が真の値に収束し、確率1 でJ(n)=0と2変量が独立であること同値であることを数学的に証明した。 このうち、前者に関しては、2019年8月にParisで開催されたIEEE International Sympojium on Information Theoryで結果を発表した。後者に関しては、投稿準備中であるる(結果を拡張できる可能性がある)。HISCと比較してのメリットが見えるようになってきている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
おおむね順調だが、期間の半分が経過したので、成果をジャーナルに投稿して、成果を国際的にアピールしたい。
|
今後の研究の推進方策 |
ノンパラメトリック的方法の汎用性のメリット、およびゲノム解析での有用性を主張するために、RNA シーケンスのカウントデータ(無限個数の値) もしくはFPKM(連続値) から森の構造を学習する方法を確立する。特にサンプル数n が小さい場合の挙動を確認する。
相互情報量I(X; Y ) を推定する際に、XY 平面をメッシュに区切り、量子化された相互情報量の推定量を求めたが、これをさらにZ 軸についても区切り、I(X; Y jZ) の量子化された条件付相互情報量の最大値を計算するということになる。また、n が大きい場合に、その推定量が真の値I(X; Y jZ) に確率1 で収束することは、課題1 が解決すれば、証明できるものと思われる。そして、条件付き相互情報量の推定ができれば、その値から、事後確率を最大にするベイジアンネットワークを構築することが可能となる。
当初の予定では、そこまでであったが、深層学習を用いて相互情報量を推定することも視野に入れている。
|
次年度使用額が生じた理由 |
新型コロナウイルスの影響で、2-3月に予定していたドイツでの国際共同研究が中止になった。本年度に繰り越すことになったが、時期に関しての目処がたっていない。
|