研究概要 |
昨今の測定技術の向上に伴い、生物学の分野などではデータドリブンな研究手法が注目されている。一方でコンピュータの高速化などに伴い、統計解析・データ解析手法は高度化し有用な解析手法が多数開発されている。これら2つの技術革新の融合はこれからの生物学研究に大きな影響を与えることが期待されるが、一方、大量データの測定・解析を行う実験研究者のような統計学の非専門家が先端的な解析手法にアクセスし正しく駆使することは容易ではない。 この状況を改善する目的で、私は遺伝解析手法のデータベース(R Graphical Manual)を2006年より公開してきた。関数の実行結果の画像を使って関数の機能を一望できるという特徴を持っており、2008年の時点で月10~50万page view,月8千~1万unique IPほどのアクセス数を持っており、世界中の研究者から利用され一定の評価を得ていた。しかしデータ更新に大きな計算量が必要であるにもかかわらず、サーバ環境やソフトウェアが十分整備されていなかった。 本研究において、このデータベースのサーバ環境、ソフトウェア環境を整えたことにより、2011年5月の時点で月20 万page view,月5万unique IPとなり、unique IPが顕著に増加した。月間unique IPはDDBJが1万7千、京都大学のKEGGが20万であるから、アクセス数については当初予想よりも大幅に増加し国内の著名なデータベースと比肩するサイトに成長した。 各種の統計学辞典や教科書およびR Graphical Manualの関数マニュアルなどをもとに分類軸を作成した。この分類軸にR Graphical Manual中の関数をマッピングする必要があるが、そのためにR Graphical Manualの全文書に対してNamed Entity Recognition(NER)を行い、統計学の専門用語を抽出し、それをもとにマッピングを行った。この目的でNERの精度を上げるために新しい方法を開発した。
|