2012 Fiscal Year Research-status Report

知識の再利用性向上に向けた文書の箇条書き化

Research Project

Project/Area Number	24500193
Research Category	Grant-in-Aid for Scientific Research (C)
Research Institution	National Institute of Genetics
Principal Investigator	原一夫国立遺伝学研究所, 生命情報研究センター, 特任研究員 (30467691)
Project Period (FY)	2012-04-01 – 2015-03-31
Keywords	単純文化 / 脱文脈化 / 構文解析 / 意味解析
Research Abstract	本研究は，生命医学分野の文書内にストーリーとして記述された自由文（英文）を，文脈に依存しない箇条書き，すなわちSimplified Sentence形式と呼ぶ単純文の集まりに分解すれば，ストーリーに埋め込まれているため流動性の欠けた知識に，再利用性を与えることが可能になるのではないか，というアイデアの実証を行う．かつて冊子体の形式のみで存在した文書が電子化されたことで情報の流動性が向上したが，本研究はこれをさらに進め，文書内に閉じ込められた個々の知識の流動性を高めることを最終的な目標とする．具体的には，生命医学分野の教科書，特に解剖学の教科書から知識を個別に切り出し，単純文に変換する．単純文への変換はまずは人手作業で行うが，自然言語処理の技術を用いた自動化も視野に入れる．ここでは，客観的事実として成り立つ知識のみを記述する解剖学の教科書を題材とすることで，モダリティ解析にひとまず立ち入ることなく，箇条書き（単純文）コーパスの作成と箇条書き変換自動化手法の開発を行う．教科書は凝縮された知の結晶であるが，読む以外の利用法が発明されていない．多くの教科書が紙から電子化され，または利用自由のとして公開される中で，本研究は，教科書に材料としての利用法を与え，無数の教科書を多角的に利用可能なひとつの知識源としてまとめる（マージする）第一歩である．以上のもと本研究で取り組む課題は，（1）テキストを単純文（Simplified Sentence形式）に変換する手順の確立，（2）人手作業によるテキストの単純文変換の実施，（3）単純文化した複数のドキュメント（＝教科書などのテキスト）の比較・マージの実施，（4）テキストをSimplified Sentence形式に自動変換する方法の開発，に大別できる．研究の初年度である本年度は，（1）（2）（3）について研究を進めた．以下にその進捗を報告する．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason （1）テキストを単純文（Simplified Sentence形式）に変換する手順の確立について：この手順は，ストーリーの中に圧縮表現されたテキストの解凍・展開，すなわち，著者による意味的圧縮を展開するステップ（脱文脈化）と，構文的圧縮を展開するステップ（単文化）に大別できる．本年度は，前者については指示代名詞（“it”や“that”など）を対応する先行詞に置換する操作を，後者については等位接続詞（“and” やカンマなど）により並列される句を同定し文を分割する操作を，ウェブ上でのアノテーションシステムとして（初版を）作成した．（2）人手作業によるテキストの単純文変換の実施について：本年度は，解剖学の知識を持つ医師が上記アノテーションシステムを使用し，Henry Gray著“Anatomy of the Human Body”（脳解剖の章）を単純文に変換した．（3）単純文化した複数のドキュメントの比較・マージの実施について：単純文の比較・マージを機械で行うためには，単純文の類似度の計算方法の開発が必要になる．次年度以降に単純文の類似度をその構成要素である単語の類似度をもとに測ることを見据え，本年度は単語の類似度の計算方法を開発した．開発した手法は，ベンチマークデータで既存手法よりも高精度を得ることに成功した（自然言語処理分野の国際会議Colingでの発表論文を参照）．
Strategy for Future Research Activity	（1）著者による意味的圧縮を展開するステップ（脱文脈化）では，照応の解消だけではなく，専門用語をIDに変換することが大きい課題として残っている．つまり，ストーリー内の文脈に応じて様々な形で表現される専門用語を統一のIDに直すことは，テキストを文脈非依存にする上で重要である．今後は専門用語のID化にも注力する．また，構文的圧縮を展開するステップ（単文化）については，等位接続だけではなく，従位接続および関係詞節の分離を行う．（2）現在は一人で作成している単純文コーパスを大規模にするためには，クラウドソーシングの利用が望まれる．これを実現するためには，開発中のアノテーションシステムを（解剖学の知識を持つ医師だけではなく）誰でも簡単に使えるものにする必要がある．今後，アノテーションシステムを改良する．（3）本年度に単純文化を始めたHenry Gray著“Anatomy of the Human Body”に加え，Werner Spalteholz著“Hand Atlas of Human Anatomy”を単純文に変換する作業を進める．（4）箇条書き（単純文）コーパスの人手作業による大規模化が進み次第，それを訓練データとして用い，単純文への自動変換器の開発に取り掛かる．なお．単純文化に必要となる構文解析および照応解析は，自然言語処理分野で盛んに研究されているが，高い精度を達成できない難しい問題として知られている．その理由の一つとして，正解タグ付きコーパスが少なく，解析手法の多面的な評価が難しいことが挙げられる．本研究の初期目標は，人手作業でコーパスを十分量作成することであるが，その結果として得られる正解タグ付きコーパスを広く自然言語処理分野の研究者と共有することで，構文解析および照応解析の進歩に貢献できると考える．
Expenditure Plans for the Next FY Research Funding	主に，テキストを単純文に変換するためのアノテーションシステムの開発のために用いる．さらに，人手作業によるテキストの単純文変換を，クラウドソーシングを利用して進めるための経費として使用する予定である．

Research Products
(1 results)

All Presentation (1 results)

[Presentation] Walk-based Computation of Contextual Word Similarity2012
- Author(s)
  Kazuo Hara, Ikumi Suzuki, Masashi Shimbo and Yuji Matsumoto
- Organizer
  COLING 2012, 24th International Conference on Computational Linguistics
- Place of Presentation
  Munbai, India
- Year and Date
  20121214-20121214