2017 Fiscal Year Research-status Report
高度な統語・意味解析情報を持つコーパスの開発とその応用
Project/Area Number |
16K02654
|
Research Institution | Tohoku University |
Principal Investigator |
吉本 啓 東北大学, 高度教養教育・学生支援機構, 教授 (50282017)
|
Co-Investigator(Kenkyū-buntansha) |
森 芳樹 東京大学, 大学院総合文化研究科, 教授 (30306831)
小林 昌博 鳥取大学, 教育支援・国際交流推進機構, 准教授 (50361150)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | コーパス / 統語論 / 意味論 |
Outline of Annual Research Achievements |
科学研究費基盤研究(C)「高度な統語・意味解析情報を持つコーパスの開発とその応用」では、日本語テキストに正確な統辞・意味解析情報を付加した日本語コーパスの構築法を研究し、また実際にそれにもとづいてコーパス開発を行うことを目標としている。平成29年度の研究では、引き続きこれまでに開発したアノテーション法にもとづいて現実の大量テクストに対し統辞・意味解析情報を付与した。この作業は研究補助員が担当した。 またこの作業を通じて、アノテーション法の改良および研究補助員をまじえたチームによる共同開発を適切に行うために必要な規則の客観化および明確化を検討した。今回は特に、(1) 品詞タグ体系を抜本的に改善 (助詞 P への機能タグ付与による細分化等) し、(2) 従属節種類ごとに、コントロールが行われる条件を明確化し、(3) 「に」「の」「と」のコピュラ助動詞としての用法を明確に規定し、さらに (4) 曖昧性を持つ語形について、それらを見分けるためのノウハウを明文化した。 また、多人数のチームによる共同作業を可能にするために規則やノウハウをこれまでにまとめて作成したマニュアルの改良を行った。マニュアルの主要な改善点としては、(1) 格助詞「に」「を」の必須文法役割および任意文法役割表示の区別を明確にし、(2) 日本語のいわゆる「外の関係」の関係節が使用される条件を明確にし、(3) 様々に異なるコントロールが行われる条件をそれぞれ簡素化して平易に説明し、(4) 多様な量化表現を単純な構文スキーマに還元してアノテーションをより簡単にし、また (5) 1語で複数の文法機能を持つ曖昧な語を対象として、簡単に区別するための基準を明確化した。 さらに、コーパスを利用した日本語学習者支援システムを開発し、評価実験を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
統語・意味情報付きコーパス開発の一部として、本年度も約1万文にアノテーションを施し、国語研ウェブサイトより追加公開を行った。その際、アノテーションの一貫性と基準の明確化について検討をあわせ行った。特に、品詞タグ改良の問題について、国立国語研究所のバトラー、ホーン両研究員と意見を交換しながら改良を進めた。また、アノテーション作業の効率化のために、マニュアルの改訂をさらに進めた。また、コーパスを利用した日本語学習者支援システムを開発し、評価実験を行った。
|
Strategy for Future Research Activity |
これまでのコーパスのアノテーションを通じて明らかになった諸問題を整理し、アノテーション方式の一層の洗練のためにフィード・バックさせる。 基礎となる形態素解析に問題が多いので、抜本的な解決を図る。 また、開発したコーパスの、日本語教育教材や脳認知科学実験基礎データとしての応用について検討を進める。
|
Causes of Carryover |
年度末に人件費支払いに当てたが、人件費 (労働保険料を含む) が正確にいくらになるか事前に知ることは困難であったため、次年度使用額が生じた。残金は物品費等として有効に使用する予定である。
|
Research Products
(4 results)