2006 年度実績報告書

臨床医療コーパスの構築に関する研究

研究課題

研究課題/領域番号	18700133
研究機関	東京大学
研究代表者	荒牧英治東京大学, 医学部附属病院, 特任助手 (70401073)
キーワード	自然言語処理 / 情報システム / 機械学習 / 医療・福祉 / 人工知能
研究概要	申請者等は,臨床医学分野の知識ベースの自動構築を目指している.ここでいう知識ベースとは,主要な医療用語間の関係を記述したデータベースであり,主要な疾患に対して,その発生部位,治療や薬剤などの情報を保持するものである.本研究の目的は,このような知識ベースを自動構築するために必須となる日本語コーパスを構築することである. このため,本年度は,これまで海外の医療分野で,どのような言語コーパスが構築されてきたかを調査し,また,実際に利用することで,どの程度の精度が得られ,どのような限界があるのかを明らかにする研究を行った. 1.匿名化コーパス電子カルテテキストには多くの個人情報が含まれており,研究に利用する際には,これらを取り除く必要がある.匿名化されるべき情報がタグ付けされたコーパスがあれば,これはラベリング問題となる. 我々は,i2b2コーパスを用い,機械学習(条件付確率場)を用いて自動匿名化を行った.その結果,適合率98%,再現率97%という高い精度で匿名化が可能であることが分かった. 2.患者情報推定コーパス電子カルテに記述されたテキストから,患者の喫煙状態(喫煙者,非喫煙者,不明)を推定するタスクに挑戦した. 情報検索尺度Okapi-BM25とk近傍法を用い,構文解析を用いる/用いないの2つの手法を検証した. その結果,構文解析を用いない場合の精度がもっともよく,86%という精度で患者の喫煙状態を推定できた. 以上のことから,カルテ文章など専門用語を多く含む文章においては,用語の特定においては一般文章より容易であるものの,構文解析など深い処理は,現状では,困難である可能性が示唆された.この知見をいかして,次年度は構文情報を強化するためのコーパスの構築を予定している.

研究成果
(7件)

すべて 2007 2006

すべて雑誌論文 (7件)

[雑誌論文] 自然言語処理によるオントロジー構築支援の試みとその問題点2007
- 著者名/発表者名
  荒牧英治, 今井健, 梶野正幸, 美代賢吾, 大江和彦
- 雑誌名
  
  言語的オントロジーの構築・連携・利用(言語処理学会第13回年次大会併設ワークショップ)
  
  ページ: 51-54
[雑誌論文] 非文法的かつ断片化されたテキストからの頑健な情報抽出2007
- 著者名/発表者名
  荒牧英治, 今井健, 美代賢吾, 大江和彦
- 雑誌名
  
  言語処理学会第13回年次大会
  
  ページ: 570-573
[雑誌論文] Automatic Deidentification by using Sentence Features and Label Consistency2006
- 著者名/発表者名
  Eiji Aramaki, Takeshi Imai, Kengo Miyo, Kazuhiko Ohe
- 雑誌名
  
  Workshop on Challenges in Natural Language Processing for Clinical Data
[雑誌論文] Patient Status Classification by using Rule based Sentence Extraction and BM25-kNN based Classifier2006
- 著者名/発表者名
  Eiji Aramaki, Takeshi Imai, Kengo Miyo, Kazuhiko Ohe
- 雑誌名
  
  Workshop on Challenges in Natural Language Processing for Clinical Data
[雑誌論文] 医学辞書を用いた用語間関係の自動抽出手法と用語の自動分類手法に関する研究2006
- 著者名/発表者名
  荒牧英治, 今井健, 梶野正幸, 美代賢吾, 大江和彦
- 雑誌名
  
  医療情報学 25・6
  
  ページ: 463-474
[雑誌論文] メタ関係を利用したテキストからの人体部位関係の抽出2006
- 著者名/発表者名
  荒牧英治, 今井健, 梶野正幸, 美代賢吾, 大江和彦
- 雑誌名
  
  言語処理学会第12回年次大会
  
  ページ: 508-511
[雑誌論文] i2b2-NLPシェアードタスク・ワークショップに参加して2006
- 著者名/発表者名
  荒牧英治
- 雑誌名
  
  医療情報学 26・6
  
  ページ: 395-399

2006 年度 実績報告書

臨床医療コーパスの構築に関する研究

研究代表者

荒牧 英治 東京大学, 医学部附属病院, 特任助手 (70401073)

研究成果

[雑誌論文] 自然言語処理によるオントロジー構築支援の試みとその問題点2007

著者名/発表者名

雑誌名

[雑誌論文] 非文法的かつ断片化されたテキストからの頑健な情報抽出2007

著者名/発表者名

雑誌名

[雑誌論文] Automatic Deidentification by using Sentence Features and Label Consistency2006

著者名/発表者名

雑誌名

[雑誌論文] Patient Status Classification by using Rule based Sentence Extraction and BM25-kNN based Classifier2006

著者名/発表者名

雑誌名

[雑誌論文] 医学辞書を用いた用語間関係の自動抽出手法と用語の自動分類手法に関する研究2006

著者名/発表者名

雑誌名

[雑誌論文] メタ関係を利用したテキストからの人体部位関係の抽出2006

著者名/発表者名

雑誌名

[雑誌論文] i2b2-NLPシェアードタスク・ワークショップに参加して2006

著者名/発表者名

雑誌名

2006 年度実績報告書

荒牧英治東京大学, 医学部附属病院, 特任助手 (70401073)