2009 Fiscal Year Annual Research Report
「日本語コーパス」と意味フレームに基づく語彙・構文複合資源の構築
Publicly Offered Research
Project Area | Compilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics |
Project/Area Number |
21011004
|
Research Institution | Keio University |
Principal Investigator |
小原 京子 Keio University, 理工学部, 准教授 (00286650)
|
Co-Investigator(Kenkyū-buntansha) |
斎藤 博昭 , 理工学部, 准教授 (30235064)
佐藤 弘明 専修大学, 商学部, 教授 (60187226)
藤井 聖子 東京大学, 総合文化研究科, 准教授 (70165330)
|
Keywords | 語彙資源 / フレーム意味論 / コーパス言語学 / 日本語処理 / 構文文法 |
Research Abstract |
本研究の目的は、1.現在構築中の日本語フレームネットを語彙の意味情報に加え構文(複合辞も含む)の意味情報をも含む語彙・構文複合資源へと発展させていくことと、2.日本語フレームネット構築を通じて、「代表性を有する大規模日本語書き言葉コーパス」(BCCWJ)の均衡性・代表性を確認することである。 そのための本年度の研究実施計画目標は、1.BCCWJデータを例文として用いた語彙アノテーション、2.BCCWJコアデータへの全文テキストアノテーション、3.構文データベース (Constructicon)構築のためのパイロットスタディの3項目であった。 まず、1のBCCWJデータを例文として用いた語彙アノテーションに関しては、従来は主に動詞を中心に例文へのフレーム意味論的アノテーションを行ってきたが、今年度は新たに形容詞についてBCCWJにおける出現頻度の高いものから順に例文を抽出しアノテーションを行った。 2のBCCWJコアデータへの全文テキストアノテーションとして、BCCWJコアデータのうち「書籍」ジャンルのサンプルの全自立語(固有表現は除く)に対する意味フレーム名の付与を行った。と同時に今後同様のアノテーションを他ジャンルで行う際にも問題となりうる点の洗い出しも行った。 3のConstructicon構築のためのパイロットスタディについては、全文テキストアノテーションを行う過程で、構文データベースに含めるべき構文(文の意味に貢献する構文や複合辞)を抽出した。合わせて構文データベース入力用ツールの整備も行った。
|
Research Products
(11 results)