専門用語の識別と分類の為のマキシマムエントロピーモデルの利用

Research Project

Project/Area Number	03F02952
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Single-year Grants
Section	外国
Research Field	知能情報学
Research Institution	National Institute of Informatics
Principal Investigator	COLLIER Nigel 国立情報学研究所, 情報学基礎研究系, 助教授
Co-Investigator(Kenkyū-buntansha)	MULLEN Anthony 国立情報学研究所, 情報学基礎研究系, 外国人特別研究員
Project Period (FY)	2003 – 2004
Project Status	Completed (Fiscal Year 2004)
Budget Amount *help	¥1,200,000 (Direct Cost: ¥1,200,000) Fiscal Year 2004: ¥1,200,000 (Direct Cost: ¥1,200,000)
Keywords	情報抽出 / テキストマイニング / セマンティクウェブ / 自然言語処理 / アノテーション
Research Abstract	トニー・マレン氏は下記に説明したPLAプロジエグトの技術用語の自動アノテーション方法の研究に深く関わっている。遺伝子、遺伝子産物、人物、場所、組織名などの言語表現の名前の自動識別やアノテーションを含む重要でかつ興味深い研究の一つである。そのような表現の識別はしばしば、専門的なテキストを高度なレベルで理解するのに大きな役割を果たす。 PIAプロジェクトには2つの重要な特徴がある。(1)専門家が構築したオントロジーを使い、人手によってアノテートされたウェブページからの機械学習に基づいてウェブを自動的にアノテートできる高性能アノテーションサーバーの構築と、(2)機械学習をサポートするためのオントロジープリミティブの集合に基づいたオントロジーサーバーのデザインである。マレン氏は最大エントロピーモデルを使用した機械学習の整備や、オープンオントロジーフォージと呼ばれるPLAソフトウェアの開発、専門的なテキストの修辞的分析のような関連分野での議論に積極的に参加するなど、幾つかの分野に貢献している。その結果、われわれのソフトウェアの解説をした,"Knowledge-based Intelligent Information and Engineering Systems (KES'2003)"での会議録を収集したSpringer-Verlag社刊行の"Lecture Notes in Computer Science"に発表された。また、彼なオックスフォード大学や、タイのカセサート大学で行われた共同研究発表会でも発表を行った。来年度は彼の実験を高度な言語学知識を利用した形で拡張し、修辞的分析や述語文法項構造分析のような意味内容の自動アノテーションといったような興味深い分野へのマキシマムエントロピーモデルの一般性をテストするつもりである。

Report

(1 results)

2004 Annual Research Report

Research Products
(1 results)

All Journal Article (1 results)

[Journal Article] A Framework for Integrating Deep and Shallow Semantic Structures in Text Mining2003
- Author(s)
  Nigel Collier, Koichi Takeuchi, Ai Kawazoe, Tony Mullen, Tuan
- Journal Title
  
  Proc. 7th Int. Conf. on Knowledge-based Intelligent Information and Engineering Systems (KES'2003), Oxford, UK, September
  
  Pages: 824-824
- Related Report
  2004 Annual Research Report