2004 Fiscal Year Annual Research Report
インターネットから収集される感染症情報に基づく疫学情報解析支援システムの開発
Project/Area Number |
16500059
|
Research Institution | Kobe University |
Principal Investigator |
森下 淳也 神戸大学, 国際文化学部, 教授 (20182230)
|
Co-Investigator(Kenkyū-buntansha) |
嶋田 雅曉 長崎大学, 熱帯医学研究所, 教授 (70124831)
西山 利正 関西医科大学, 医学部, 教授 (10192254)
清光 英成 神戸大学, 国際文化学部, 助教授 (20304082)
|
Keywords | インターネット / 感染症情報 / 疫学分析 / テキストマイニング / 自動分類 |
Research Abstract |
本年度は、ProMEDメーリングリストを題材として、システムの基本部分の構築を行った。ProMEDの監修者による分類を以下に述べるテキストマイニングに基づくシステムで同様に再現できるかどうかが今回の拡張の大きな要点であった。特に内容の特定と自動分類のために、 1.テキスト情報の構造化 電子メールには電子メールの構造があり、その構造をシステムが認識して解析できるように格納する必要がある。また、メーリングリスト固有の構造(見出しの配置、リンク情報やコメントの出現など)もまた、計算機が内容を分析する際の手がかりになるので、これらの構造を反映した情報の格納や引用を実現できるように設計した。この部分については、既に他の分野の内容と合わせて研究発表を行っている。 2.テキストマイニング テキストから情報を抽出するために、文に対する形態素解析を行い、その結果の文節情報に対して、正規表現などのパターン認識に基づくキーワードの抽出システムを考案した。特にひとつの内容に対して多くの記述形式が存在するため、この類義語辞書とパターン認識を複合して、分類木を作成した。 3.自動分類 単なるキーワード分類ではなく、類義語辞書に基づく分類木に従って、自動分類、検索を行うシステムへと拡張した。 を行った。現在、1994年から現在までの2万件以上のProMEDデータをXML形式で構造化の上、格納している。システムはインデックスのためのRDBMSと自由構造を格納するXMLDBから構成されている。ProMEDの監修者による分類と本文テキストからの自動分類を比較検討しているが、若干の例外を除いて、一致する結果が得られている。これによって、システムをProMED以外の感染症情報システムへの適用するように拡張できる可能性が見えてきた。
|
Research Products
(2 results)