研究概要 |
本研究は、過去10年間、文解析研究で成功してきた手法、すなわち、巨大な文書集合からの機械学習技術と記号処理アルゴリズムを融合する手法を、意味・文脈・知識処理に適用することで、言語処理技術にブレークスルーをもたらすことを目標とする。このため、テキストへの意味アノテーション付与、分野オントロジーの自動構築、意味・知識に基づく文解析手法、資源共有型の分散計算機環境の構築、の研究を行う。 平成18年度は、プロジェクトの初年度として、分散計算機環境の基盤となるクラスターの構築を行うとともに、以下の研究成果を上げた。 1.事象アノテーション:生命科学での標準オントロジーであるGO(Geneontology)に基づき37の事象カテゴリを設定し、これを使ってMEDLINE論文抄録(1,000)に事象アノテーションを行った。9,000文に対して、34,000の事象をアノテートしたものであり、質・量の両面で同種の試みをリードする成果になっている。 2. GENIAコーパスと分野オントロジーのリンク: GO、UMLS、Mesh、BioPAXなど、標準となるオントロジーと文書アノテーションのために我々が開発したGENIAオントロジーとの相互リンクを確立した。これは、次年度以降の知識処理研究の基礎となる。 3.文解析システムの高度化、高効率化:英文解析器(Enju)の高速化を行い、従来比50倍の速度向上を得た。また、意味・知識処理に不可欠な分野適応技術の枠組みを設定し、生命科学文献における解析精度を86.39%から90.15%に向上させることに成功した。この2つの技術は、次年度以降、意味・知識を導入した言語処理を行う基盤となる。 4.分野適応と文書アノテーション:能動型の機械学習(Active Learning)をPOSタガーに適用することで、10分の一のアノテーション文書でほぼ同じ性能(精度98.5% vs 98.4%)が達成できることを確認した。この成果をより複雑度の高いタスク(Shallow/Deep Parsing, NER、ERなど)に適用していくことが、来年度以降の課題となる。
|