昨今の測定技術の向上に伴い、生物学の分野などではデータドリブンな研究法が注目されている。一方でデジタルコンピュータの高速化などに伴い、統計解析・データ解析手法は高度化し有用な解析手法が多数開発されている。これら2つの技術革新の融合はこれからの生物学研究に大きな影響を与えることが期待されるが、一方、大量データの測定・解析を行う実験研究者のような統計学の非専門家が最近の解析手法にアクセスし正しく駆使することは容易ではない。 上記の状況を改善する目的で、我々は統計解析手法のデータベース(R Graphical Manual)内2006年から公開してきた。今年度は交付申請書の「研究の目的」に記したとおり、このデータベースの4万個を超える関数に対して分類を与えることにより、必要な関数を探しだすことを容易にするための研究開発を行った。 今年度の研究で、まずこのDB中の全文書に対してNamed Entigy Recognitionを行い統計学の専門用語を抽出するプログラムを開発し、専門用語辞書を作成した。これは交付申請書の「研究実施計画」(1)関数の分類および(3)類似文書検索のための基本的なステップとであるる。しかしこのようにして自然言語処理によりとりだされた専門用語は粒度が一様でなく、特定の解析手法を表す用語と解析手法の集合を表す用語が混在していた.そこで統計学の専門用語に関して粒度(用語の一般性)に関してスコア付けを行う手法を開発した。研究実施計画(2)集合知の利用に関しては、データ更新の仕組みを作り直す作業を行った。現在インタフェイスの開発中である。
|