2008 Fiscal Year Self-evaluation Report
Research on Automatic Annotation of Written Language Corpora
Project Area | Compilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics |
Project/Area Number |
18061005
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas
|
Allocation Type | Single-year Grants |
Review Section |
Humanities and Social Sciences
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
MATSUMOTO Yuji Nara Institute of Science and Technology, 情報科学研究科, 教授 (10211575)
|
Project Period (FY) |
2006 – 2010
|
Keywords | 自然言語処理 / 言語学 / 機械学習 / コーパス / アノテーション |
Research Abstract |
言語学から言語処理研究にいたる様々な基礎・応用分野に役立つコーパスへのタグ付けを行うための支援環境を構築する.形態素,構文,意味,文脈情報等の様々なレベルのタグ付けを対象とし, (1)タグ付けの自動化と, (2)コーパスへタグ付けを行う際の効率や精度を管理・維持するための支援環境の構築という2つの次元から問題を整理する.前者については,単語分かち書き,品詞付与,文節や固有表現の解析,係り受け解析等の構文解析,用言および体言に対する項構造解析,照応解析等の指示対象の解析,文書構造や談話構造解析など,さまざまな言語情報についてのタグ設計およびタグ付け基準の設定を行う.異なるレベルの整合性を保ちつつ記述するための統合的なタグ付け方式の設計を行う.後者については,設計されたタグ方式に従ってコーパスを作成しつつ,タグ付きコーパスからの機械学習に基づいてタグ付けの自動化を行う言語解析システムの構築と、タグ付きコーパスを管理し,利用するための支援ツールの設計と開発を行う.
|
Research Products
(9 results)
-
-
-
-
-
-
[Remarks] 岩立将和, 浅原正幸, 松本裕治, 言語処理学会第14回年次大会優秀発表賞,「トーナメントモデルを用いた日本語係り受け解析」2008年3月
-
[Remarks] 松本裕治, 2007年度日本OSS貢献者賞,「日本語形態素解析システム「茶筌(ChaSen)」の開発をはじめとしたOSSへの貢献」2007年10月
-
[Remarks] 飯田龍, 情報処理学会平成19年度山下記念研究賞,「NAIST テキストコーパス:述語項構造と共参照関係のアノテーション」2007年8月
-
[Remarks] 飯田龍, 小町守, 乾健太郎, 松本裕治,言語処理学会第13回年次大会優秀発表賞,「日本語書き言葉を対象とした述語項構造と共参照関係のアノテーション:NAISTテキストコーパス開発の経験から」2007年3月