2008 Fiscal Year Annual Research Report

非文法的かつ断片化したテキストからの情報抽出に関する研究

Research Project

Project/Area Number	20680006
Research Institution	The University of Tokyo
Principal Investigator	荒牧英治 The University of Tokyo, 知の構造化センター, 特任講師 (70401073)
Keywords	画像・言語・音声等認識
Research Abstract	申請者は, 医療分野にて機械学習をベースとした統計的な自然言語処理研究を行っており, 本年度は次の3つの要素技術を研究/開発した. 【技術1 : 医療表現の特定技術】文章中の医療表現(疾患名, 症状, 薬品名etc)を特定するため, 学習用のコーパスを構築し, 機械学習による手法で表現の特定を行った. 用いた手法は, Conditional Random Filedsを複数カスケードした方式であり, 平均85%というて高い精度で示した. 【技術2 : 表現の正規化】「brugada症候群」や「ブルガダ症候群」など同一の概念を指す表現であっても表記ゆれが存在し, 単なる文字列上の処理ではこれらが別々の疾患として処理されてしまう. また, 「翌日」「〜歳から」といった相対的な時間表現をyyddmm形式など一定の形式の統一することもデータの結合のために必要である. そこで, 医療表現の表記のゆれを吸収する技術を開発した. この表記ゆれ技術は, 日本内科学会, および日本循環器学会の症例検索システムにも使用される予定である. 【技術3 : モダリティ/事実性の解析】「再発が認められた」と「再発が疑われた」は前者が事実であり後者は単なる疑いであり事実とは異なる, 緻密にデータを扱うため, これらを区別する技術を研究開発した. また, 上記の3つの要素技術を用いてカルテ文章を年表のように表示するシステム(システム名 : TEXT2TABLE)を構築した.本システムのon the flyデモはweb上で公開されている(http://130.69.114.41/discharge_summaries/new/)

Research Products
(4 results)

All 2008

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (3 results)

[Journal Article] コンテンツホール検索のためのコミュニティ型コンテンツの対話解析2008
- Author(s)
  荒牧英治, 阿辺川武, 村上陽平, 灘本明代
- Journal Title
  
  日本データベース学会論文誌(DBSJ) No7
  
  Pages: 109-114
- Peer Reviewed
[Presentation] Searchig for Important but Neglected Content from Community-type-content2008
- Author(s)
  Akiyo Nadamoto, Ejji Aramaki, Takeshi Abekawa, Yohei Murakami
- Organizer
  The Fourth International Conference On Signal-Image Technology & Internet-based Systems (SITIS2008)
- Place of Presentation
  Indonesia, Bali
- Year and Date
  2008-11-09
[Presentation] A ContentHole Search in a Community-type Content2008
- Author(s)
  Akiyo Nadamoto, Ejji Aramaki, Takeshi Abekawa, Yohei Murakami
- Organizer
  nternational World Wide Web Conference Poster Session (WWW2009)
- Place of Presentation
  Spain, Madrid
- Year and Date
  2008-05-09
[Presentation] Discriminative Dialog Analysis Using a Massive Collection of BBS comments2008
- Author(s)
  Eiji Aramaki, Takeshi Abekawa, YoheiMurakami, Akiyo Nadamoto
- Organizer
  International World Wide Web Conference (WWW2008)Workshop on NLP Chalenges in theInformation Explosion Era
- Place of Presentation
  China Beijing
- Year and Date
  2008-05-08

2008 Fiscal Year Annual Research Report

非文法的かつ断片化したテキストからの情報抽出に関する研究

Principal Investigator

荒牧 英治 The University of Tokyo, 知の構造化センター, 特任講師 (70401073)

Research Products

[Journal Article] コンテンツホール検索のためのコミュニティ型コンテンツの対話解析2008

Author(s)

Journal Title

[Presentation] Searchig for Important but Neglected Content from Community-type-content2008

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] A ContentHole Search in a Community-type Content2008

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Discriminative Dialog Analysis Using a Massive Collection of BBS comments2008

Author(s)

Organizer

Place of Presentation

Year and Date

荒牧英治 The University of Tokyo, 知の構造化センター, 特任講師 (70401073)