研究分担者 |
徳永 健伸 東京工業大学, 大学院・情報理工学研究科, 教授 (20197875)
乾 健太郎 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (60272689)
橋田 浩一 独立行政法人産業技術総合研究所, サービス工学研究センター, 次長 (00357766)
橋本 泰一 東京工業大学, 統合研究院, 特任准教授 (10345382)
浅原 正幸 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80379528)
|
研究概要 |
コーパス管理ツール「茶器」のデータベース仕様を見直し,NETフレームワーク上での再構築を行った.統語解析における並列構造のアノテーション仕様について検討し,並列構造の範囲に関するアノテーションと係り受け構造を表示し,修正を行うことができるTreeEditインタフェースを完成させた.述語項構造解析と事象間の時間関係解析に全域的な情報を利用することで精度向上を実現した.また,照応解析について,先行詞候補に制限を与えることで精度を犠牲にせずに効率改善が可能であることを示した. 汎用アノテーションツールSLATの機能を拡張し,Ver.2.0の基本設計と一部の実装を完了した.旧版に比べ,アノテーション工程の管理まで視野に入れてデータベース・スキーマを再設計し,また,クライアントの処理の大幅な高速化をはかった. さまざまな書式のコーパスデータに対して統合的なアクセスを可能にするためのアーキテクチャを設計し,これを単一の種類のコーパスデータに関して実装することにより一般に多様なデータを統合するための準備を行なった. 20年度作成した拡張固有表現コーパス(白書,書籍,Yahoo!知恵袋)に対して,タグ付けの見直しを行い,さらに新聞(380文書),雑誌(79文書)に対してタグ付けを行った.また,20年度に作成したコーパスを用いて,機械学習アルゴリズムの一つであるCRFをベースに固有表現認識ツールを開発した.評価実験を行ったところ,精度は約80%,再現率約46%,F値約60%という結果を得た.
|