2008 Fiscal Year Annual Research Report
Project Area | Compilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics |
Project/Area Number |
18061005
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
松本 裕治 Nara Institute of Science and Technology, 情報科学研究科, 教授 (10211575)
|
Co-Investigator(Kenkyū-buntansha) |
徳永 健伸 東京工業大学, 大学院・情報埋工学研究科, 教授 (20197875)
乾 健太郎 東京工業大学, 情報科学研究科, 准教授 (60272689)
橋田 浩一 独立行政法人産業技術総合研究所, サービス工学研究センター, 次長 (00357766)
橋本 泰一 東京工業大学, 統合研究院, 特任准教授 (10345382)
浅原 正幸 東京工業大学, 情報科学研究科, 助教 (80379528)
|
Keywords | コーパス / 形態素解析 / 統語解析 / 述語項構造解析 / アノテーション / 言語解析 / 照応解析 / 談話解析 |
Research Abstract |
コーパスに対する自動アノテーションツールの開発 : 日本語係り受け解析をタグ付け作業に利用する際に, 再現率と適合率の関係について調査し, 効率的な利用法の検討を行った. 文節情報のタグ付けについて検討し, 文節まとめ上げのための自動ツールの設計を行った. 述語項構造解析のための手法の事態名詞への拡張を行った. 事象間の時間関係解析のため, 局所的情報と大域的情報の効果的な融合法を提案した. コーパス管理ツールの開発 : 形態素・係り受け解析済みコーパス管理ツールの再設計を行い, ネットワーク経由での利用が可能になるように拡張した. これまでの機能の再検討を行い, 基本機能をドットネットフレームワーク上で再実装した. 検索履歴を表示する機能の実装を行つた. さらに, 検索結果表示の高速化を達成した. 汎用アノテーションツールについては, 処理の高速化, および, データ構造の設計の詳細化や多重に埋め込まれたタグの記述にも対応可能になるよう格調した. 大規模な固有表現辞書の構築とタグ付きコーパスの開発 : 大規模な固有表現抽出を行ない, また, コアデータの一部に対して, 固有表現タグ付け作業をつた. 談話構造アノテーションツールの開発 : 文関係, 共参照, 項構造を記述するためセマンティックエディタの拡張を行つた. 一般化された木構造表示ユーザインタフェースの実装を継続し, 談話構造や意味構造を編集する機能をこのユーザインタフェースに実装した.
|
Research Products
(4 results)