2012 Fiscal Year Research-status Report
複雑かつ大規模なデータ処理のためのデータマイニング及び機械学習法
Project/Area Number |
24700140
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
田部井 靖生 東京工業大学, 情報理工学(系)研究科, 東工大特別研究員 (20589824)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 国際情報交換 |
Research Abstract |
2012年度は大規模データ処理のための手法に関する基礎理論と応用の両方に関する成果を上げることができた。 基礎理論に関しては文法圧縮に関する成果成果がある。文法圧縮は反復文字列を多く含むテキストデータに強い圧縮法であるが、従来法はメモリー効率という点で問題があり大規模データに応用することはできなかった。そこで、我々は文法圧縮のための可変長コードを提案した。これは文法圧縮されたデータをさらにメモリー効率よく圧縮する手法で、従来法とくらべて少ないメモリーでアルゴリズムを動作することができる。 研究成果を文字列と情報検索に関する国際会議 19th International Symposium on String Processing and Information Retrieval (SPIRE2012)で発表し、今後の実応用を計画している。 応用に関しては大規模フィンガープリントの検索法に関する成果がある。近年化合物データは急速に増加していて大規模になりつつある。例えば、米国国立生物情報学研究所の化合物データベース(NCBI)には三百万化合物が登録されていて、今後も増加すると言われている。そこで、化合物フィンガープリントをメモリー効率よく検索するための手法を提案し、3百万化合物フィンガープリントを用いた実験では、検索速度を保ったまま約4GBのメモリーで検索できることを示し、研究成果をバイオインフォマティクスに関する国際会議12th Workshop on Algorithms in Bioinformatics (WABI2012) で発表した。その他、応用方面ではスパース分類器による化合物-タンパク質予測に関する手法を開発し、バイオインフォマティクス分野のトップ会議ECCB2012で成果を発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度は大規模データ処理に関する基礎理論と応用の両方で成果を上げることができ、研究の成果を各分野でのトップカンファレンスで発表することができた。
|
Strategy for Future Research Activity |
今年度行なってきた文法圧縮の基礎理論に関する研究は今年度も継続しさらに発展させる予定である。さらに文法圧縮の応用も行なっていく。具体的には文法圧縮をdocument listingに応用して行く予定である。document listingとはある単語を含む文章を文書集合から発見する問題で実世界でも重要な問題である。文法圧縮をこの問題に対して応用することにより反復部分列を多く含む文書集合に対して有効な手法を作ることができると考えている。その他の応用方面の研究では、簡潔データ構造の化合物タンパク質ペアーへの応用などを行なっていく予定である。
|
Expenditure Plans for the Next FY Research Funding |
文法圧縮の応用に関する研究はchile大学のGonzalo Navarro教授との共同研究である。研究ディスカッションのために出張をする予定である。今年度は実応用に力をいれるために高性能計算機を購入予定。
|