研究課題/領域番号 |
16K13228
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
PARDESHI P.V. 大学共同利用機関法人人間文化研究機構国立国語研究所, 理論・対照研究領域, 教授 (00374984)
|
研究分担者 |
砂川 有里子 筑波大学, 人文社会系(名誉教授), 名誉教授 (40179289)
今井 新悟 筑波大学, 人文社会系, 教授 (50346582)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 機能表現 / レキシカルプロファイリング / コーパス / BCCWJ |
研究実績の概要 |
本研究は、日本語コーパスから機能表現を抽出し、機能表現の振る舞いを網羅的かつ視覚的に確認することのできるレキシカルプロファイリングの手法を確立することを目標としている。従来のプロファイリングでは、動詞、形容詞、副詞、名詞などの内容語が対象であったが、日本語の文の構成に関わる機能表現についても、同様のプロファイリングが実現できれば、コーパスの利用価値がいっそう高まると期待される。初年度(2016年)は、まず約100種類の初級レベルの機能表現を選定し、機能表現ごとに形態論的情報をまとめたデータベースを作成し、そのデータベースをもとにBCCWJから試験的に機能表現を抽出し、機能表現を抽出する際の課題を整理した。次年度(2017年)は、機能表現をより正確に洩れなく抽出するために、機能表現を文節が連続するタイプと非連続のタイプの2種に分類し、前者の機能表現について、プロファイリングツールのプロトタイプ版を開発し、機能表現をインターフェース上でいかに提示すべきかという実用上の問題について検討した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
初年度(2016年)は、約100種類の初級レベルの機能表現を選定し、それらを形態素に分割した上で、語彙素、品詞、活用形などを確定した。また、直前にくる内容語とその活用形の情報も含めた機能表現データベースを作成した。このデータベースをもとに、アノテーション済みのBCCWJから機能表現を抽出し、複数の語彙素からなる機能表現を抽出する際に生じるさまざまな課題について整理した。 次年度(2017年)は、機能表現をより正確に洩れなく抽出するための手法として、係り受け解析の文節情報をもとに、機能表現を文節が連続するタイプ(タイプA)と非連続のタイプ(タイプB)の2種類に分類した。次に、タイプAの機能表現について、BCCWJの出版書籍サブコーパス(約2,900万語)から2文節が1レコードになる分節バイグラムを作成し、そこからタイプAの約20種類の機能表現を抽出した。抽出したプロファイリングデータをインターフェース上に表示するためのプロトタイプ版ツールを作成し、インターフェース上での機能表現のプロファイングの表示方法について具体的な検討を行った。
|
今後の研究の推進方策 |
最終年度にあたる今年度は、非連続の文節に現れるタイプBの機能表現の抽出を実施する。具体的には、文節関係を検索することのできるグラフデータベースの利用による抽出を検討している。また、初級レベルの機能表現のプロファイリングツールを今年度後半に一般公開し、利用者からのフィードバックを今後の研究に役立てることにしている。
|
次年度使用額が生じた理由 |
年度末で365円分の備品の購入が間に合わず次年度に使用することになった。
|