研究概要 |
本研究は、文解析研究で有効であった機械学習技術と記号処理アルゴリズムとを融合する手法を、意味・文脈・知識処理に適用することで、高度な言語処理技術の構築を目指している。このために、テキストヘの意味・文脈アノテーション付与、分野オントロジーの自動構築、意味・知識に基づく文解析手法、資源共有型の分散計算機環境の構築の研究を行う。 平成19年度は、初年度に構築した分散計算機環境の基盤を本格的な言語処理研究に活用することで、以下の研究成果を上げた。 1.意味・文脈情報のアノテーション : 初年度に第一版を構築した生命科学の事象アノテーション結果をGO、UMLS、Meshなどの標準オントロジーとリンクし、世界に公開した。また、文脈処理研究の基盤データとして、論文抄録からフルペーパに対象を拡張し、文を超えた共参照関係のアノテーションを付与した。 2.テキストからの知識抽出 : 生命科学論文からの知識抽出タスクとしてタンパク質相互作用の抽出を行い,開発中の英文解析器の結果と機械学習手法(ME)の結合で世界最高水準の抽出結果(59%)を得た。このことは,テキストから知識へ写像において深い文構造解析が有効であることを示すものとなった。 3.大域的構造の解析 : 1の結果を活用して共参照関係認識プログラムを構築し,用語意味クラスと深い構造解析の結果を活用するモデルを構築した。このモデルは,平成20年度以降の研究でさらに詳細化される文脈処理モデルの基礎となる。 4.大規模テキスト処理の計算環境 : MEDLINE抄録データベース(16百万抄録)に対して,用語意味認定,構文解析,関係抽出のすべての処理を数時間で完了できるシステムを構築した。一週間の時間と人手によるジョブ管理が数時間の自動処理に置き換えられたことは,本プロジェクトの大きな成果である。 5.機械翻訳の予備実験 : 意味・知識処理の研究成果を統合する日中機械翻訳システムのプロトタイプを構築.特に専門用語の意味辞書を自動構築する実験を行い,すぐれた結果を得た。
|