研究課題/領域番号 |
19011004
|
研究種目 |
特定領域研究
|
配分区分 | 補助金 |
審査区分 |
人文・社会系
|
研究機関 | 慶應義塾大学 |
研究代表者 |
斎藤 博昭 慶應義塾大学, 理工学部, 准教授 (30235064)
|
研究分担者 |
藤井 聖子 東京大学, 総合文化研究科, 准教授 (70165330)
小原 京子 慶應義塾大学, 理工学部, 准教授 (00286650)
|
研究期間 (年度) |
2007 – 2008
|
研究課題ステータス |
完了 (2008年度)
|
配分額 *注記 |
5,200千円 (直接経費: 5,200千円)
2008年度: 2,600千円 (直接経費: 2,600千円)
2007年度: 2,600千円 (直接経費: 2,600千円)
|
キーワード | 語彙資源 / フレーム意味論 / コーパス言語学 / 日本語処理 / 語彙意味論 / 諸彙資源 / フレームネット / アノテーション |
研究概要 |
本研究の目的は、1. フレーム意味論とコーパスデータに基づく日本語語彙意味情報資源「日本語フレームネット」の理論的・方法論的モデルを構築することと、2.それにより代表性を有する大規模日本語書き言葉コーパス(以下BCCWJ)の評価を行うことであった。 今年度は、目的1の「日本語フレームネットの構築」を中心に研究を進めた。アノテーション対象としたのは、著作権処理済みのモニター公開データ2008年度版である。主に、「移動」、「知覚・感覚」、「感情」に関する用計を品詞別出現頻度順に洗い出し、出現頻度の高い語彙項目からアノテーションを行った。年度末におけるアノテーション済み例文は約2000文である。これらはFrameSQLを使いアクセス制限なしにWeb上で検索表示できるようにした。FrameSQLとは、専修大学の佐藤弘明氏が開発したフレームネット形式のデータをWeb上で検索表示するためのツールであり、英語、スペイン語、ドイツ語フレームネットのデータとリンクされている。また、日本語フレームネットデータから、領域内他班作成の動詞項構造シソーラスのデータが参照できるようにした。 目的2の「BCCWJの活用・評価」に関しては、全文テキストアノテーションを開始した。これは、テキスト内の全ての文の、意味フレームを喚起(evoke)する全ての語彙項目に対してアノテーションを行うことである。ただし、固有名詞などは対象とせず、あくまでも意味分析上興味深いと思われる語彙項目に限定してアノテーションを行った。今年度対象としたのは、BCCWJコアデータの一部サンプルである。 さらに、既存の新聞記事コーパスと、BCCWJの書籍データ、白書データ間における、動詞の意味フレーム分布の比較を行った。また、同一語彙項目の結合価パターンについて、既存新聞記事コーパスとBCCWJ間で比較したところ、違いがみられた。
|