2010 年度実績報告書

非文法的かつ断片化したテキストからの情報抽出に関する研究

研究課題

研究課題/領域番号	20680006
研究機関	東京大学
研究代表者	荒牧英治東京大学, 知の構造化センター, 特任講師 (70401073)
キーワード	言語処理 / 医療情報 / テキストマイニング / 知識処理
研究概要	本提案の最終目的は,従来とは異なる性質(非文法的・断片化)をもつカルテ文章から「いつ何が起こったのか」という情報を抽出することであり,このための基礎データとして,カルテデータ中のあらゆる事象表現(サ変名詞,動詞)と時間表現のアノテーションを行った.アノテーション指針を決めるのは時間・コストのかかる作業であるが,これには,時間・事象表現のアノテーション枠組みであるTIMEML[Sauri2006]のサブセットを用い,議論の時間を軽減するとともに,既存のリソースとの交換性を高めた.また,疾患名のアノテーションは医学知識(診療情報技師相当)が必要であるため,医師,看護師を含む医療者に一部の作業を依頼し,専門的に妥当なデータを構築した.約2年に渡るデータ構築の結果,本データは精神科,産婦人科を除外したほぼ全診療科をカバーした約680文書となった.これは国内の医療文章のアノテーションとしては最大規模のものである.また,一部のデータは,仮想の患者を想定しているため,倫理的問題に配慮することなく公開可能なデータとなっている.このデータを用いれば,医療文章からの用語抽出をはじめとした多くのアプリケーションが将来的に可能となる.最終年度では,構築したデータの公開を行い,また,実用例として本データを用いた検索システムを構築し,2つの学会(日本内科学会,日本循環器学会)に提供を行った.また,国際会議での発表を含む多数の会議/学会にて発表を行い成果普及に務めた.

研究成果
(7件)

すべて 2011 2010 その他

すべて雑誌論文 (5件) (うち査読あり 5件) 学会発表 (1件) 備考 (1件)

[雑誌論文] WikipediaとWebの情報を組み合わせたオントロジ構築の試み2011
- 著者名/発表者名
  白川真澄, 中山浩太郎, 荒牧英治, 原隆浩, 西尾章治郎
- 雑誌名
  
  電子情報通信学会和文論文誌
  
  巻: No.3 ページ: 525-539
- 査読あり
[雑誌論文] Exacting content holes by comparing community-type content with Wikipedia2010
- 著者名/発表者名
  Akiyo Nadamoto, Eiji Aramaki, Takeshi Abekawa, Yohei Murakami
- 雑誌名
  
  nternational Journal of Web Information Systems
  
  巻: Vol6(3) ページ: 248-260
- 査読あり
[雑誌論文] 格助詞付きWeb検索クエリを用いた関連のある概念間の関係抽出2010
- 著者名/発表者名
  白川真澄, 中山浩太郎, 荒牧英治, 原隆浩, 西尾章治郎
- 雑誌名
  
  日本データベース学会論文誌(DBSJ)
  
  巻: Vol.9, No.1 ページ: 35-40
- 査読あり
[雑誌論文] The Internal Structure of a Disease Name and its Application for ICD Coding2010
- 著者名/発表者名
  Emiko Yamada, Eiji Aramaki, Takeshi Imai, Kazuhiko Ohe
- 雑誌名
  
  tud Health Technol Inform.2010
  
  ページ: 1010-1014
- 査読あり
[雑誌論文] Extraction of Adverse Drug Effects from Clinical Records2010
- 著者名/発表者名
  Eiji Aramaki, Yasuhide Miura, Masatsugu Tonoike, Tomoko Ohkuma, Hiroshi Mashuichi, Kayo Waki, Kazuhiko Ohe
- 雑誌名
  
  Stud Health Technol Inform.2010
  
  ページ: 739-743
- 査読あり
[学会発表] Adverse-Effect Relations Extraction from Massive Clinical Records2010
- 著者名/発表者名
  Yasuhide Miura, Eiji Aramaki, Tomoko Ohkuma, Masatsugu Tonoike, Daigo Sugihara, Hiroshi Masuichi, Kazuhiko Ohe
- 学会等名
  COLING 2010 Workshop (In cooperation with Info-plosion) The Second International Workshop on NLP Challenges in the Information Explosion Era (NLPIX2010)
- 発表場所
  Beijing, China
- 年月日
  2010-06-21
[備考]
- URL
  http://mednlp.jp

2010 年度 実績報告書

非文法的かつ断片化したテキストからの情報抽出に関する研究

研究代表者

荒牧 英治 東京大学, 知の構造化センター, 特任講師 (70401073)

研究成果

[雑誌論文] WikipediaとWebの情報を組み合わせたオントロジ構築の試み2011

著者名/発表者名

雑誌名

[雑誌論文] Exacting content holes by comparing community-type content with Wikipedia2010

著者名/発表者名

雑誌名

[雑誌論文] 格助詞付きWeb検索クエリを用いた関連のある概念間の関係抽出2010

著者名/発表者名

雑誌名

[雑誌論文] The Internal Structure of a Disease Name and its Application for ICD Coding2010

著者名/発表者名

雑誌名

[雑誌論文] Extraction of Adverse Drug Effects from Clinical Records2010

著者名/発表者名

雑誌名

[学会発表] Adverse-Effect Relations Extraction from Massive Clinical Records2010

著者名/発表者名

学会等名

発表場所

年月日

[備考]

URL

2010 年度実績報告書

荒牧英治東京大学, 知の構造化センター, 特任講師 (70401073)