研究概要 |
2004年度科研費利用成果 論文として発表した成果は、固有名詞を切り出すための基本アルゴリズムを定式化したもの(武田、山本、梅村)、関連する単語の分析において、ある文書に意味的に近い集合で分析することによって、効率よく分析できることを明らかにしたもの(Xu,梅村)、分析を行うために名前を表示するために使用できる自己組織化マップについて、大規模な分析のために階層的な表示をできるようにしたもの(Chakma、梅村)である。これれは、本テーマをスタートする時点で論文投稿し、いずれもが査読つきの論文誌で採録された。本年度はこれらの技術をうけて、以下の研究が進行している。(1)大規模なデータで分析を行うプログラムとシステムの開発:研究費の多くは、このシステムのための環境整備とプログラムの開発のために使用した。その結果、統計値を分散環境で収集するシステムが稼動している。これは、現在、論文発表にむけて性能の評価を行っている。(2)医療システムにおける病名の関連度の判定:分析技術ができても、役に立つものであることを示すためには、具体的な応用が必要と考え、医療システムの作成者と連携し、電子カルテ情報を入手して分析を開始した。(3)固有名詞を取り出すモジュールをより頑強にするためにサポートベクトルマシンの手法を利用して、未知のコーパスにおいても、人手によるチューニングを省いて固有名詞を取り出すモジュールの作成を行っている。(2)、(3)については、2004年3月の情報処理学会の全国大会において発表し、研究のプライオリティを確保する。
|