2007 Fiscal Year Annual Research Report
Project/Area Number |
07F07722
|
Research Institution | National Institute of Informatics |
Principal Investigator |
NIGEL Collier National Institute of Informatics, 情報学プリンシプル研究系, 准教授
|
Co-Investigator(Kenkyū-buntansha) |
MICHAEL Conway 国立情報学研究所, 情報学プリンシプル研究系, 外国人特別研究員
|
Keywords | 情報摘出 / コーパス言語学 / テキスト分類 |
Research Abstract |
これまでの研究は次の二つの広い領域に分けられる。 1.感染症発生報告のための文書表示法の研究 文書を単語集合("bag of words")として表示し、スタンダードな分類アルゴリズムを用いる手法は、感染症発生報告を他から識別する際に有効である。しかし、感染症発生報告の識別というタスクに特化した文書表示法を利用すれば、よりよい成果が期待できると考えた。そこで、心理学と理論言語学の研究成果に基づき、三つの素性セットを使った実験を行った。まず一つ目に、感染症報告にはネガティブな感情を表す記述が他の記事よりも高い頻度で含まれるという直感をもとに、感情素性を用いた。この実験結果は、American Association of Corpus Linguistics2008Conferenceで発表し、現在本の一部としての出版が検討されている。二つ目に、"perhaps"や"possibly"など、命題の不確実性を表す素性(hedging feature)を用いて実験し、分類精度の向上に寄与することを示した。この成果はCOLING2008にポスター発表として投稿済みで、現在査読中である。三つ目は、文体や統語構造に関する素性である。これも実験の結果、分類精度を上げることが明らかになった。この研究は現在、9月のThird International Symposium on Semantic Mining in Biomedicineに投稿するため、論文を準備中である。 2.時間情報の抽出 時間情報抽出では、主に感染症発生報告のための時間情報アノテーションスキーマの構築に取り組んだ。このスキーマは全体的なデバッグを経て、現在はおよそ150件のテキストのアノテーションに利用されている。アノテーション済みテキストは、さまざまな情報抽出手法のテストに利用する予定である。
|
Research Products
(1 results)