2003 Fiscal Year Annual Research Report
大規模かつ未知語を含むコーパスを対象にした固有名詞関係抽出に関する研究
Project/Area Number |
15500090
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
梅村 恭司 豊橋技術科学大学, 工学部, 教授 (80273324)
|
Keywords | 固有名詞 / 関連語 / シソーラス / 統計的言語処理 |
Research Abstract |
2004年度科研費利用成果 論文として発表した成果は、固有名詞を切り出すための基本アルゴリズムを定式化したもの(武田、山本、梅村)、関連する単語の分析において、ある文書に意味的に近い集合で分析することによって、効率よく分析できることを明らかにしたもの(Xu,梅村)、分析を行うために名前を表示するために使用できる自己組織化マップについて、大規模な分析のために階層的な表示をできるようにしたもの(Chakma、梅村)である。これれは、本テーマをスタートする時点で論文投稿し、いずれもが査読つきの論文誌で採録された。本年度はこれらの技術をうけて、以下の研究が進行している。(1)大規模なデータで分析を行うプログラムとシステムの開発:研究費の多くは、このシステムのための環境整備とプログラムの開発のために使用した。その結果、統計値を分散環境で収集するシステムが稼動している。これは、現在、論文発表にむけて性能の評価を行っている。(2)医療システムにおける病名の関連度の判定:分析技術ができても、役に立つものであることを示すためには、具体的な応用が必要と考え、医療システムの作成者と連携し、電子カルテ情報を入手して分析を開始した。(3)固有名詞を取り出すモジュールをより頑強にするためにサポートベクトルマシンの手法を利用して、未知のコーパスにおいても、人手によるチューニングを省いて固有名詞を取り出すモジュールの作成を行っている。(2)、(3)については、2004年3月の情報処理学会の全国大会において発表し、研究のプライオリティを確保する。
|
Research Products
(4 results)
-
[Publications] Yinghuo XU, Kyoji Umemura: "Optimal Local Dimension Analysis of Latent Semantic Indexing Query NeighborSpace"IEICE TRANSACTIONS On Information and Systems. 第135号. 1762-1772 (2003)
-
[Publications] Yoshiyuki Takeda, Kyoji Umemura, Eiko Yamamoto: "Determining Indexing Strings with Statistical Analysis"IEICE TRANSACTIONS On Information and Systems. 第135号. 1781-1787 (2003)
-
[Publications] Junan Chakma, Kyoji Umemura: "Factor Controlled Hierarchical SOM Visualization for Large Set of Data"IEICE TRANSACTIONS On Information and Systems. 第135号. 1796-1803 (2003)
-
[Publications] 武田善行, 梅村恭司, 藤井 敦: "Webマイニング"共立出版. 197 (2004)