2013 Fiscal Year Research-status Report
次世代日本語コーパスプロトタイプの構築とその脳認知言語学実験への応用
Project/Area Number |
25370457
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Tohoku University |
Principal Investigator |
吉本 啓 東北大学, 高等教育開発推進センター, 教授 (50282017)
|
Co-Investigator(Kenkyū-buntansha) |
横山 悟 東北大学, 加齢医学研究所, 助教 (20451627)
森 芳樹 東京大学, 総合文化研究科, 教授 (30306831)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | コーパス言語学 / 統辞解析 / 意味解析 / 脳機能画像法 |
Research Abstract |
今年度の研究では、第一に、現代日本語の書き言葉の文に対して、十分な統辞論的情報 (句構造) を均質的にタギングするための方法を検討し、実際に統辞情報を付加したプロトタイプ日本語トリーバンクの構築を開始した。さらに、これらの文に付加された統辞情報にもとづいて、文の意味情報 (述語論理式による意味表示) をスコープ制御理論を利用して自動的にタグ付けするための手法を開発した。 本日本語トリーバンクは、原則的に Annotation Manual for the Penn Historical Corpora and the PCEEC (Santorini 2010) の規約に従って作成する。この方式は、極力フラットな統辞構造を採用してノードの数を減らすことと、名詞句、動詞句、節等に必要に応じて機能情報 (主語、目的語、時間副詞句、節の様々な機能等) をタグ付けすることを特色としている。構造的曖昧性が問題になる場合の多くで統辞的埋め込みをフラットなままに未指定とすることが出来るので記述しやすく、また有用な文法情報に富んでいる。 特に今年度は日本語の機能語および構文を網羅的に取り上げ、これらに対する統辞解析の試行錯誤を通じて、コーパス構築のための基本的方法論について検討した。例文として、日本語の文法書である、益岡・田窪『基礎日本語文法―改訂版―』(1992年、くろしお出版) ―を取り上げ、その全例文約1,300文に対して統辞・味情報をタグ付けした。また、国立国語研究所の「現代日本語書き言葉均衡コーパス」の形態素解析情報の信頼性が高いことから、この中の例文に対するアノテーションを開始した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
現実に使用されている様々な例文について検討することを通じて、アノテーションの方針が固まってきている。実際のトリーバンク開発も、研究補助員の協力もあって、順調に行われている。
|
Strategy for Future Research Activity |
来年度からは、現実に使用された日本語文を対象とし、「現代日本語書き言葉均衡コーパス」の新聞記事データを中心として、合計約1万文のトリーバンクを構築する。この日本語コーパスプロトタイプの構築を通じて、日本語文に統辞解析情報をタグ付けするための客観的基準を確立する。主たる課題は、解析器による自動解析結果に対する、人手での語句分割、品詞付け、および句・節修飾先の訂正、また機能情報とスコープ情報の付加である。成果を『日本語トリーバンク開発作業マニュアル』としてまとめ、一般に公開する。さらに、開発したコーパスを利用して、上記の日本語かきまぜ文および日英語関係節に関する脳内処理計測実験を行う。コーパス開発に際し、必要に応じて、当該構文に関するデータの収集を優先させる。
|