研究課題/領域番号 |
25730142
|
研究機関 | 国立遺伝学研究所 |
研究代表者 |
鈴木 郁美 国立遺伝学研究所, 生命情報研究センター, 特任研究員 (20637730)
|
研究期間 (年度) |
2013-04-01 – 2017-03-31
|
キーワード | ハブネス / ローカライズドセンタリング / データ中心化 / 近傍法 |
研究実績の概要 |
近年,観測技術やインターネットの発達に伴い,データが大量に蓄積されるようになってきた.蓄積されたデータの解析は重要な課題である.本研究では,高次元データに現れるハブネスの問題と蓄積されたテキストデータの再利用性を上げる研究を行った. データが高次元であるとき「次元の呪い」と言われる現象が起こる.ごく最近,データ中心に近い事例が,次元が高くなると非常に多くの事例と距離が近くなる現象が報告された.この事例はハブと呼ばれ,ハブは他の事例の近傍に頻出する.このようなハブに対し,これまで我々は,グローバルなデータ中心との類似度を各事例について等しくすること(センタリング)で,ハブを軽減する方法を試みてきた. 一方,これまでデータが高次元になるとハブが出現すると言われてきたが,データセットに含まれる事例が多いと,性質のことなるハブが出現することを発見した.このようなハブは,グローバルなセントロイドとの相関は弱く,ローカルなセントロイドとの相関が強いをことを見つけた.そして,ローカライズドセンタリング法を提案し,事例数が大きい場合に出現するハブの軽減に成功した.また,ローカライズドセンタリングは,高次元データに出現するハブを軽減するのにも有効であることを示した. 知識は,大量のテキストとして蓄積されている.しかし,個々の知識はそれぞれの本などにとどまり,同じことや似たことを書かれたテキストをまとめる,マージする作業は機械には困難である.本研究では,テキストに書かれた知識の再利用性を上げるために,単文化の作業を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
大規模高次元データについて以下の取り組みを行った. 1.ハブネスの問題は,高次元データにおける問題として知られていたが,まず,データ数が大きくなるとハブが出現する,そしてそのハブは従来知られていたセントロイドとの相関は弱い,新たなハブであることを発見した. 2.1で述べた新たなハブについて,その性質を調べた結果,ローカルなセントロイドとの相関が強く,そのハブを軽減する方法として,ローカライズドセンタリングを提案した. 3.大量のテキストの再利用性を上げるために,テキストの単文化を行い,知識のマージや集約を行うための基盤作りを行った.
|
今後の研究の推進方策 |
今後の課題は, 1.これまで,ハブの軽減法(センタリング,ローカライズドセンタリング)は教師なし学習法である.一方で,ハブは常に良くないものでもないので,ハブを活かすための半教師あり,教師なし学習に取り組む. 2.近傍法は,機械学習や人工知能の技術に組み込まれている基本的な方法である.これまで通り,基礎的な解析を行うと共に,実世界で用いられるアプリケーションへの有効性を示してく.
|
次年度使用額が生じた理由 |
ハブを軽減する理論解析,手法の開発を重点的に行ったが,その応用については,更なる実験の補強を行う必要があるため,次年度に延期することにした.
|
次年度使用額の使用計画 |
これまでは,ハブの軽減の理論的解析,手法開発を行ってきた.次年度使用計画として,その応用に効果を示し,論文投稿のための校正などにあてる予定である.
|