• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2004 年度 実績報告書

インターネットから収集される感染症情報に基づく疫学情報解析支援システムの開発

研究課題

研究課題/領域番号 16500059
研究機関神戸大学

研究代表者

森下 淳也  神戸大学, 国際文化学部, 教授 (20182230)

研究分担者 嶋田 雅曉  長崎大学, 熱帯医学研究所, 教授 (70124831)
西山 利正  関西医科大学, 医学部, 教授 (10192254)
清光 英成  神戸大学, 国際文化学部, 助教授 (20304082)
キーワードインターネット / 感染症情報 / 疫学分析 / テキストマイニング / 自動分類
研究概要

本年度は、ProMEDメーリングリストを題材として、システムの基本部分の構築を行った。ProMEDの監修者による分類を以下に述べるテキストマイニングに基づくシステムで同様に再現できるかどうかが今回の拡張の大きな要点であった。特に内容の特定と自動分類のために、
1.テキスト情報の構造化
電子メールには電子メールの構造があり、その構造をシステムが認識して解析できるように格納する必要がある。また、メーリングリスト固有の構造(見出しの配置、リンク情報やコメントの出現など)もまた、計算機が内容を分析する際の手がかりになるので、これらの構造を反映した情報の格納や引用を実現できるように設計した。この部分については、既に他の分野の内容と合わせて研究発表を行っている。
2.テキストマイニング
テキストから情報を抽出するために、文に対する形態素解析を行い、その結果の文節情報に対して、正規表現などのパターン認識に基づくキーワードの抽出システムを考案した。特にひとつの内容に対して多くの記述形式が存在するため、この類義語辞書とパターン認識を複合して、分類木を作成した。
3.自動分類
単なるキーワード分類ではなく、類義語辞書に基づく分類木に従って、自動分類、検索を行うシステムへと拡張した。
を行った。現在、1994年から現在までの2万件以上のProMEDデータをXML形式で構造化の上、格納している。システムはインデックスのためのRDBMSと自由構造を格納するXMLDBから構成されている。ProMEDの監修者による分類と本文テキストからの自動分類を比較検討しているが、若干の例外を除いて、一致する結果が得られている。これによって、システムをProMED以外の感染症情報システムへの適用するように拡張できる可能性が見えてきた。

  • 研究成果

    (2件)

すべて 2004

すべて 雑誌論文 (2件)

  • [雑誌論文] 小学校教科書の電子的再構造化-外部情報参照のための構造化テキストの拡張-2004

    • 著者名/発表者名
      中尾 桂子
    • 雑誌名

      情報処理学会人文科学とコンピュータシンポジウム論文集 2004・21

      ページ: 167-174

  • [雑誌論文] 人類学研究支援環境のためのデータモデル構築2004

    • 著者名/発表者名
      本村 康哲
    • 雑誌名

      情報処理学会人文科学とコンピュータシンポジウム論文集 2004・21

      ページ: 175-182

URL: 

公開日: 2006-07-12   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi