研究領域 | 代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備 |
研究課題/領域番号 |
18061005
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
松本 裕治 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (10211575)
|
研究分担者 |
徳永 健伸 東京工業大学, 大学院・情報理工学研究科, 教授 (20197875)
乾 健太郎 東京工業大学, 大学院・情報理工学研究科, 教授 (60272689)
橋田 浩一 独立行政法人産業技術研究所, 情報義と術研究部門, 副研究部門長 (00357766)
浅原 正幸 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80379528)
|
キーワード | アノテーション / 形態素解析 / 統語解析 / 述語項構造解析 / コーパス / 照応解析 / 談話解析 / 言語解析 |
研究概要 |
コーパスに対する自動アノテーションツールの開発:係り受け解析において最適の係り先を比較によって決定する手法の提案,述語項構造解析のための手法の事態名詞への拡張を行い,システムの開発の過程で作成した共参照および項構造情報が付与されたコーパスを公開した。 コーパス管理ツールの開発:形態素・係り受け解析コーパス管理ツールに対していくつかの機能拡張を行った。特に、係り受け構造の表示機能の充実、および、高頻度の連続・非連続のパターンのマイニング機能などを開発した。汎用アノテーションツールについてデータ構造の設計の詳細化といくつかの機能拡張を行った。さらに、Webベースのコーパス検索ツールの開発を行った。 大規模な固有表現辞書の構築:Wikipediaの構造情報を利用し、自動的に固有表現を抽出する手法を提案し、実際に大規模な固有表現抽出を行った。抽出した大規模固有表現辞書とコーパスからの統計的手法を組み合わせることにより、精度向上を図った。白書コアデータ対する固有表現タグ付け作業を行った。 談話構造アノテーションツールの開発:文関数、共参照、項構造を記述するためセマンティックエディタの拡張を行った.一般化された木構造表示ユーザインタフェスの実装を行い、談話構造や述語に対する統語的構成素の記述や文章の埋め込み構造、意味構造を編集する機能をこのユーザインタフェースにプラグインする形で実装した。
|