研究課題/領域番号 |
16K02654
|
研究機関 | 東北大学 |
研究代表者 |
吉本 啓 東北大学, 高度教養教育・学生支援機構, 教授 (50282017)
|
研究分担者 |
森 芳樹 東京大学, 大学院総合文化研究科, 教授 (30306831)
小林 昌博 鳥取大学, 大学教育支援機構, 准教授 (50361150)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | コーパス / 統語論 / 意味論 |
研究実績の概要 |
科学研究費基盤研究(C)「高度な統語・意味解析情報を持つコーパスの開発とその応用」では、日本語テキストに正確な統辞・意味解析情報を付加した日本語コーパスの構築法を研究し、また実際にそれにもとづいてコーパス開発を行うことを目標としている。平成28年度の研究では、これまでに開発したアノテーション法にもとづいて現実の大量テクストに対し統辞・意味解析情報を付与した。この作業は研究補助員が担当した。 またこの作業を通じて、アノテーション法の改良および研究補助員をまじえたチームによる共同開発を適切に行うために必要な規則の客観化および明確化を検討した。今回は特に、(1) 格役割のアノテーションについて場合分けを行って明確にし、(2) コントロールの種類ごとに、それが行われる条件とともに明確化し、(3) 量化表現構文を単純なスキーマに還元し、さらに (4) 曖昧性を持つ語形について、それらを見分けるためのノウハウを明文化した。 また、多人数のチームによる共同作業を可能にするために規則やノウハウをこれまでにまとめて作成したマニュアルの改良を行った。マニュアルの主要な改善点としては、(1) 格役割のアノテーションは、格名詞句が明示されているか省略されているか、および格が必須か任意かという条件によって変わることから分かりにくいので、それらの間の区別を明確にし、(2) 日本語の関係節 (連体修飾節) には2種類あり、それらの間の区別が必ずしも容易でないので、区別のための条件を分かりやすく提示し、(3) 様々に異なるコントロールが行われる条件をそれぞれ簡素化して平易に説明し、(4) 多様な量化表現を単純な構文スキーマに還元してアノテーションをより簡単にし、また (5) 1語で複数の文法機能を持つ曖昧な語を対象として、簡単に区別するための方法を示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
統語・意味情報付きコーパス開発の一部として、約1万文にアノテーションを施し、国語研ウェブサイトより公開を開始した。その際、アノテーションの一貫性と基準の明確化について検討をあわせ行った。特に、セグメンテーションや形容詞修飾の問題について、国立国語研究所のバトラー、ホーン両研究員と意見を交換しながら改良を進めた。また、アノテーション作業の効率化のために、マニュアルの改訂を行った。とりわけ、2種類の関係節や形態論的に曖昧な表現の区別の明確化に関して改善を行った。
|
今後の研究の推進方策 |
これまでのコーパスのアノテーションを通じて明らかになった諸問題を整理し、アノテーション方式の一層の洗練のためにフィード・バックさせる。 コーパス開発に当たっては、1つの形式が2つのカテゴリーにまたがって分類しうる例に遭遇することが非常に多く、開発上の最大の障害となっている。しかし、事象間の共通点も多く、解決のための一般的な原則を立てることが可能であると考えられる。これについて検討し、学会発表を行う。 開発したコーパスを利用して日本語学習者の読解支援システムを開発し、習得実験を行う。
|