昨今の測定技術の向上に伴い、生物学の分野などではデータドリブンな研究手法が注目されている。一方でコンピュータの高速化などに伴い、統計解析・データ解析手法は高度化し有用な解析手法が多数開発されている。これら2つの技術革新の融合はこれからの生物学研究に大きな影響を与えることが期待されるが、一方、大量データの測定・解析を行う実験研究者のような統計学の非専門家が先端的な解析手法にアクセスし正しく駆使することは容易ではない。 上記の状況を改善する目的で、私は統計解析手法のデータベース(R Graphical Manual)を2006年から公開してきた。交付申請書の「研究の目的」に示した通り、このデータベースの6万近い関数に関して分類を与えることにより、必要な関数を探し出すことを容易にするための研究開発を行った。 研究計画(2)集合知の利用については、前年度からの続きでデータ更新機構の改善とwebインタフェイスの改善、web APIの開発を行った結果、アクセスが漸増して現在月間5万unique IP上のアクセス数になっている。これは国内の著名なDBと比肩するアクセス数であり、今後さらなる増加が期待される。また、(1)関数の分類については、今年度は分類の前提となる統計学の専門用語のNamed Entity Recognitionの精度を上げるための新しい計算手法の開発を行った。またそれとは独立に、文献をもとにした統計学のオントロジーの開発を行った。本データベースは利用者が多いので、興味を持った利用者の方々のコミュニティーで改良されていくことを期待している。
|