研究課題/領域番号 |
15H06258
|
研究機関 | 名古屋大学 |
研究代表者 |
淺尾 仁彦 名古屋大学, 文学研究科, 講師 (10755119)
|
研究期間 (年度) |
2015-08-28 – 2017-03-31
|
キーワード | 形態論 / 語彙意味論 / コーパス / 言語資源 / 認知言語学 |
研究実績の概要 |
言語知識が実例との接触によってたえず変化するとする用法基盤的な視点に立った形態論の理論構築を行っていくためには、さまざまな基準に基づいて自然言語の用例検索や頻度情報の入手をすることができる環境が必要となる。そのため当初の計画通り、2015年度は言語資源の準備に注力した。
まず、日本語形態素解析辞書である UniDic の検索ツールを作成した。また、現在、UniDic 等の公開されている言語資源には含まれていない、形態論情報のフリーなデータベースを構築する作業が進行中である。これらのデータに関しては、UniDic の検索ツールと合わせて、ライセンス上公開可能な部分を順次公開する計画である。また、ローカルに保存された日本語書き言葉均衡コーパス (BCCWJ) 等の言語資源を用いて、さまざまな検索条件で頻度情報を得るためのプログラムを構築した。これはウェブ上で公開されている検索ツールである〈中納言〉等の機能と部分的に重複するものであるが、ローカルで自由に操作できる検索プログラムを用いることで、先述の形態論情報のデータベース等に頻度情報を機械的に付与したり、また既存のツールでは実現できないような複雑な条件で検索を行うことが可能になる。
上記の作業と並行して理論的な面について検討を行った。とくに、合成語内部における代名詞の使用可能性や、合成語の一部のみを外部から修飾することの可否の問題などは、構文の定着度が関与し、本アプローチの説明力が発揮されると考えられるため、構築中の上記ツール群を実例検索に用いながら理論的な検討を行った。現在、論文化および研究発表の準備中である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
言語資源と検索ツールの構築についてはおおむね当初計画どおり進捗している。一方、当初計画していた2015年度中における研究発表と、初年度のうちに予備調査を実施する予定であったアンケート等によるデータ収集は、当初計画ほど準備に時間を確保することができず、実施することができなかった。
|
今後の研究の推進方策 |
2016年度は (1) 構築中の形態論情報データベースの完成、(2) アンケート調査の実施、(3) 成果の発表、の3点が中心となる。一点目については、2015年度から構築している形態論情報データベースを継続して整備し、年度前半において一旦公開できる程度の網羅性を確保する。またそれに合わせて検索ツールを用意する。さらなるデータの拡張等については、必要性や進捗状況に鑑みてその後検討する。二点目については、年度前半において、対象とする問題の限定とターゲット文の用意に取り組み、年度後半にインターネットを用いた調査を実施する。三点目については年度内に複数の研究発表の実施、また論文投稿を行う予定であるほか、構築した言語資源を公開する予定である。
一方、当初のアイディアにあった形式的理論構築の部分については計画を縮小する。これは、本プロジェクトが統計的機械学習など他分野との連携をしていない状況で、独自のモデルを構築しても先進性の高いモデルを構築できる見込みが低いと考えられるためであり、それよりも、公開可能な言語資源の構築においてできるだけ広い範囲をカバーすることに注力するほうが、今後の学際的な研究への貢献において益することが大きいと判断したためである。当初計画したような厳密な数量的モデルがなくとも、簡単な数値指標によって個々の言語現象について多くの示唆を与えることができると考える。
|
備考 |
研究全体をまとめたページを別途準備中
|