臨床医療コーパスの構築に関する研究

研究課題

研究課題/領域番号	18700133
研究種目	若手研究(B)
配分区分	補助金
研究分野	知能情報学
研究機関	東京大学
研究代表者	荒牧英治東京大学, 医学部・附属病院, 特任助教 (70401073)
研究期間 (年度)	2006 – 2008
研究課題ステータス	完了 (2007年度)
配分額 *注記	2,000千円 (直接経費: 2,000千円) 2007年度: 900千円 (直接経費: 900千円) 2006年度: 1,100千円 (直接経費: 1,100千円)
キーワード	情報工学 / 自然言語処理 / 情報システム / 機械学習 / 医療・福祉 / 人工知能
研究概要	申請者等は,臨床医学分野の知識ベースの構築を目指している.ここでいう知識ベースとは,主要な医療用語とそれらの関係を記述したデータベースであり,主要な疾患に対して,その発生部位,治療や薬剤などの情報を保持するものである.このような知識ベースが利用可能となれば,不適切な治療や投薬に対して警告を発する次世代の電子カルテや,綿密な医療統計データの集計が可能となり,医療ミスの軽減や,正確かつ大規模なデータ分析が実現可能となる.このため,医療情報処理分野では,知識ベースの構築が急がれている.このような背景のもと,本研究では,大量に存在する電子テキストを利用して,知識ベースを自動構築する研究を行った.申請者等は,まず,(1)教師なし学習アプローチを行い,用語の上位/下位関係や用語の分類について,有望な精度で,これらを抽出した.しかし,疾患とその治療法など,より詳細な情報に関しては,十分な精度を得ることはできなかった.次に,(2)医療テキスト(医学辞書200文,電子カルテ300文章)に対して疾患とその治療法など臨床医療知識をアノテートし,そこから機械学習を行った.この結果,日付表現や薬品などいくつかのカテゴリについては90%を超える高い精度で推定が可能となったが,症状や検査値解釈など,語よりも長い句や文の表現される知識については,不十分な精度しか得られなかった.現在は,アノテーション有りのデータと大量に存在するアノテーション無しのデータの両者を組み合わせ,現実的な精度を得るための研究を継続中である.

報告書

(2件)

2007 実績報告書
2006 実績報告書

研究成果
(13件)

すべて 2008 2007 2006

すべて雑誌論文 (9件) (うち査読あり 2件) 学会発表 (4件)

[雑誌論文] 情報検索尺度Okapi-BM25と交換可能語ペアを用いた自動ICDコーディングに関する研究2007
- 著者名/発表者名
  荒牧英治, 今井健, 梶野正幸, 美代賢吾, 大江和彦
- 雑誌名
  
  医療情報学 27-1
  
  ページ: 101-107
- NAID
  10022604900
- 関連する報告書
  2007 実績報告書
- 査読あり
[雑誌論文] 自然言語処理によるオントロジー構築支援の試みとその問題点2007
- 著者名/発表者名
  荒牧英治, 今井健, 梶野正幸, 美代賢吾, 大江和彦
- 雑誌名
  
  言語的オントロジーの構築・連携・利用(言語処理学会第13回年次大会併設ワークショップ)
  
  ページ: 51-54
- 関連する報告書
  2006 実績報告書
[雑誌論文] 非文法的かつ断片化されたテキストからの頑健な情報抽出2007
- 著者名/発表者名
  荒牧英治, 今井健, 美代賢吾, 大江和彦
- 雑誌名
  
  言語処理学会第13回年次大会
  
  ページ: 570-573
- 関連する報告書
  2006 実績報告書
[雑誌論文] 医学辞書を用いた用語間関係の自動抽出手法と用語の自動分類手法に関する研究2006
- 著者名/発表者名
  荒牧英治, 今井健, 梶野正幸, 美代賢吾, 大江和彦
- 雑誌名
  
  医療情報学 25-6
  
  ページ: 463-474
- NAID
  10022604285
- 関連する報告書
  2007 実績報告書
- 査読あり
[雑誌論文] Automatic Deidentification by using Sentence Features and Label Consistency2006
- 著者名/発表者名
  Eiji Aramaki, Takeshi Imai, Kengo Miyo, Kazuhiko Ohe
- 雑誌名
  
  Workshop on Challenges in Natural Language Processing for Clinical Data
- 関連する報告書
  2006 実績報告書
[雑誌論文] Patient Status Classification by using Rule based Sentence Extraction and BM25-kNN based Classifier2006
- 著者名/発表者名
  Eiji Aramaki, Takeshi Imai, Kengo Miyo, Kazuhiko Ohe
- 雑誌名
  
  Workshop on Challenges in Natural Language Processing for Clinical Data
- 関連する報告書
  2006 実績報告書
[雑誌論文] 医学辞書を用いた用語間関係の自動抽出手法と用語の自動分類手法に関する研究2006
- 著者名/発表者名
  荒牧英治, 今井健, 梶野正幸, 美代賢吾, 大江和彦
- 雑誌名
  
  医療情報学 25・6
  
  ページ: 463-474
- NAID
  10022604285
- 関連する報告書
  2006 実績報告書
[雑誌論文] メタ関係を利用したテキストからの人体部位関係の抽出2006
- 著者名/発表者名
  荒牧英治, 今井健, 梶野正幸, 美代賢吾, 大江和彦
- 雑誌名
  
  言語処理学会第12回年次大会
  
  ページ: 508-511
- 関連する報告書
  2006 実績報告書
[雑誌論文] i2b2-NLPシェアードタスク・ワークショップに参加して2006
- 著者名/発表者名
  荒牧英治
- 雑誌名
  
  医療情報学 26・6
  
  ページ: 395-399
- NAID
  10022604774
- 関連する報告書
  2006 実績報告書
[学会発表] Orthographic Disambiguation Incorporating Transliterated Probability2008
- 著者名/発表者名
  Eiji Aramaki, Takeshi Imai, Kengo Miyo, Kazuhiko Ohe
- 学会等名
  International Joint Conference on Natural Language Processing (I JCNLP2008)
- 発表場所
  India
- 関連する報告書
  2007 実績報告書
[学会発表] Support Vector Machine Based Orthographic Disambiguation2007
- 著者名/発表者名
  Eiji Aramaki, Takeshi Imai, Kengo Miyo, Kazuhiko Ohe
- 学会等名
  The Conference on Theoretical and Method ological Issues in Machine Translation (TMI2007)
- 発表場所
  Sweden
- 関連する報告書
  2007 実績報告書
[学会発表] UTH: Semantic Relation Classification using Physical Sizes2007
- 著者名/発表者名
  Eiji Aramaki, Takeshi Imai, Kengo Miyo, Kazuhiko Ohe
- 学会等名
  the Association for Computational Lingu istics (ACL2007) Workshop on Semantic Evaluations (SemEval 2007)
- 発表場所
  Czech
- 関連する報告書
  2007 実績報告書
[学会発表] A Statistical Selector of the Best among Multiple ICD-coding Methods2007
- 著者名/発表者名
  Eiji Aramaki, Takeshi Imai, Masayuki Kajino, Kengo Miyo, Kazuhiko Ohe
- 学会等名
  Medinfo
- 発表場所
  Australia
- 関連する報告書
  2007 実績報告書

臨床医療コーパスの構築に関する研究

研究代表者

荒牧 英治 東京大学, 医学部・附属病院, 特任助教 (70401073)

2,000千円 (直接経費: 2,000千円)

報告書

研究成果

[雑誌論文] 情報検索尺度Okapi-BM25と交換可能語ペアを用いた自動ICDコーディングに関する研究2007

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 自然言語処理によるオントロジー構築支援の試みとその問題点2007

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 非文法的かつ断片化されたテキストからの頑健な情報抽出2007

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 医学辞書を用いた用語間関係の自動抽出手法と用語の自動分類手法に関する研究2006

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Automatic Deidentification by using Sentence Features and Label Consistency2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Patient Status Classification by using Rule based Sentence Extraction and BM25-kNN based Classifier2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 医学辞書を用いた用語間関係の自動抽出手法と用語の自動分類手法に関する研究2006

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] メタ関係を利用したテキストからの人体部位関係の抽出2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] i2b2-NLPシェアードタスク・ワークショップに参加して2006

著者名/発表者名

雑誌名

NAID

関連する報告書

[学会発表] Orthographic Disambiguation Incorporating Transliterated Probability2008

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Support Vector Machine Based Orthographic Disambiguation2007

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] UTH: Semantic Relation Classification using Physical Sizes2007

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] A Statistical Selector of the Best among Multiple ICD-coding Methods2007

著者名/発表者名

学会等名

発表場所

関連する報告書

荒牧英治東京大学, 医学部・附属病院, 特任助教 (70401073)