2014 Fiscal Year Research-status Report
Project/Area Number |
24500193
|
Research Institution | National Institute of Genetics |
Principal Investigator |
原 一夫 国立遺伝学研究所, 生命情報研究センター, 特任研究員 (30467691)
|
Project Period (FY) |
2012-04-01 – 2016-03-31
|
Keywords | 単純文化 / 脱文脈化 / 構文解析 / 意味解析 |
Outline of Annual Research Achievements |
本研究は,生命医学分野の文書内にストーリーとして記述された自由文(英文)を,文脈に依存しない箇条書き(Simplified Sentence形式と呼ぶ単純文の集まり)に分解すれば,ストーリーに埋め込まれているため流動性の欠けた知識に再利用性を与えることが可能になるのではないか,というアイデアの実証を行う.かつて冊子体の形式のみで存在した文書が電子化されたことで情報の流動性が向上したが,本研究はこれをさらに進め,文書内に閉じ込められた個々の知識の流動性を高めることを最終的な目標とする. 本年度は,まず,(1)テキストを単純文(Simplified Sentence形式)に変換する手順の曖昧性を除去・簡略化し,簡略化した手順をもとに(2)人手作業によるテキストの単純文変換の再実施した.そして,(3)単純文化した複数のドキュメント(=教科書などのテキスト)の比較・マージを行った.さらに,成果を国際会議 KDIR で発表した. その一方で,単純文化により生成されたデータ集合には,他の多くのデータと類似するデータ(ハブと呼ばれるデータ)が生じることが確認された.ハブデータの存在は,データの比較・マージの妨げとなり,データの流動性・再利用性を低下させる.そこで,ハブデータに関する調査を行い,調査結果を国際会議 AAAI で発表した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
(1)テキストを単純文(Simplified Sentence形式)に変換する手順の確立について:この手順は,ストーリーの中に圧縮表現されたテキストの解凍・展開,すなわち,著者による意味的圧縮を展開するステップ(脱文脈化)と,構文的圧縮を展開するステップ(単文化)に大別できる.平成24年度は,前者については指示代名詞(“it”や“that”など)を対応する先行詞に置換する操作を,後者については等位接続詞(“and” やカンマなど)により並列される句を同定し文を分割する操作を,ウェブ上でのアノテーションシステムとして作成した.平成25年度は,関係代名詞,分詞構文の単文化・脱文脈化も進めた. (2)人手作業によるテキストの単純文変換の実施について: 解剖学の知識を持つ医師が上記アノテーションシステムを使用し,Henry Gray著“Anatomy of the Human Body”(脳解剖の章)を単純文に変換した.平成25年度までに792文を1876の単純文に変換した. (3)単純文化した複数のドキュメントの機械による自動比較・マージの実施について:単純文の比較・マージを機械で行うためには,単純文の主語述語目的語トリプルを機械で自動同定できることが必要になると考えられる.これを上記の1876文を用いて確認した.具体的には,構文解析器 Enju を用い主語目的語(解剖学用語を含むものに限定)の自動同定を試みたところ,単純文化する前では45トリプルしか同定できなかったのに対し,単純文化後では310トリプルを同定することに成功した. 平成26年度は,以上(1)(2)(3)の完成度を高めることを行い,その成果を国際会議 KDIR(International Conference on Knowledge Discovery and Information Retrieval)で発表した.
|
Strategy for Future Research Activity |
(1)著者による意味的圧縮を展開するステップ(脱文脈化)では,照応の解消だけではなく,専門用語をIDに変換することが大きい課題として残っている.つまり,ストーリー内の文脈に応じて様々な形で表現される専門用語を統一のIDに直すことは,テキストを文脈非依存にする上で重要である.今後は専門用語のID化にも注力する. (2)現在作成している単純文コーパスを大規模にするためには,アノテーション作業の負担を軽減することが重要である.具体的には,機械によりアノテーション候補を作業者に提示し,作業者は候補から正解を選択(もしくは修正)できるようにする.また,コーパスの大規模化には,クラウドソーシングの利用も望まれる.これを実現するためには,開発中のアノテーションシステムを(解剖学の知識を持つ医師だけではなく)誰でも簡単に使えるものにする必要がある.今後,アノテーションシステムを改良する. (3)箇条書き(単純文)コーパスの人手作業による大規模化が進み次第,それを訓練データとして用い,単純文への自動変換器の開発に取り掛かる. (4)(単純文化により生成されたデータ集合等に生じる)ハブデータに関する調査を昨年度に引き続き継続して行う.
|
Causes of Carryover |
本研究は,テキストの単純文への変換方法の構築,および,構築した変換方法によるテキストの単純文への人手作業による変換の実施,をまず行うが,少数テキストに対する試行の結果,変換する/しないの基準が不明瞭な場合がある,あるいは,変換結果が作業者によって異なる場合があるという問題が生じたため,計画を変更し,これらの完成度を高めることを優先したため,未使用額が生じた.
|
Expenditure Plan for Carryover Budget |
複数のテキストの自動比較,および,変換作業の自動化のために必要となる計算機の購入,および,研究成果の発表(国際会議発表,論文投稿等)に使用する予定である.
|
Research Products
(2 results)