研究課題
特定領域研究
初年度は、自然言語処理ツールを基にしたテキストマイニングシステムをバックエンドに持つ、BioCaster Webポータルのプロトタイプを完成した。概要を以下に記す。1)人手による生物医学用語アノテーションスキーマの開発疫学者は主に、疾病の発生する環境や、疾病の蔓延、社会の認識、抑制活動に影響する諸要因に関心を持っている。研究の初期段階で、国立感染症研究所の専門家との意見交換により、Web上のニュースからの情報収集におけるいくつかの共通シナリオの存在が明らかになった。薬品、疾病、ウイルス等の概念カテゴリのリストからオントロジーを構築し、これらのカテゴリを基にニュース記事の用語をアノテーションするためのガイドラインを開発した。博士課程の学生を2人雇用し、500のニュース記事をアノテーションした。このコーパスをもとに、SVMを用いて専門用語の認識学習を行い、SVMおよびCRFによる10分割交差検定による実験を行った。2)英語、日本語、タイ語、ベトナム語による専門用語認識システムの開発日本語、タイ語、ベトナム語のテキストマイニングモジュールの開発においては、専門用語認識やコーパス構築に焦点をあてた。岡山大学(竹内講師)、カセサート大学(カートラクル教授)、ベトナム国立大学ホーチミン校(ディエン教授)のグループと共同で、ニュース記事の4ヶ国語並列コーパスに対する評価を行った。この研究のためにディエン教授をNIIに招聘し、共同開発を行った。SVMとCRFでの10分割交差検定の後、言語内および言語間でのタグ付け結果の比較を行った。この結果は主要な生物情報学術誌に投稿中である。3)記事検索のためのプロトタイプWebポータルの開発Apache、PHP、MySQLを使用してWebポータルを実装し、国立感染症研究所の疫学の専門家がタグ付け・分類済みのニュース記事にアクセスできるようにした。
すべて 2007 2006
すべて 雑誌論文 (4件)
日刊工業新聞 (2月8日版)
ページ: 29-29
Proc. SIG-SWO-A601-02
130008089479
Proc. KR-MED
ページ: 77-85
Proc. 21st ACL
ページ: 345-352