2016 Fiscal Year Annual Research Report
A Study on Construction of Linguistic Resources in Heian Period
Project/Area Number |
25284086
|
Research Institution | Aoyama Gakuin University |
Principal Investigator |
近藤 泰弘 青山学院大学, 文学部, 教授 (20126064)
|
Project Period (FY) |
2013-04-01 – 2018-03-31
|
Keywords | 構築主義 / コーパス / 言語リソース / ジェンダー / 位相 / 平安文学 / 源氏物語 |
Outline of Annual Research Achievements |
本年度は、XML形式のコーパスから辞書形式のデータを作成する研究を主に行った。具体的には次のような手順である。まず、XML形式のデータを用意する。
<SUW orthToken="いま" lForm="イマ" lemma="今" lemmaID="2460" kana="イマ" pos="名詞-普通名詞-副詞可能" Form="イマ" pronToken="イマ" wType="和" start="20" end="40" orderID="20" />いま<SUW orthToken="は" lForm="ハ" lemma="は" lemmaID="29321" kana="ハ" pos="助詞-係助詞" Form="ハ" pronToken="ワ" wType="和" start="40" end="50" orderID="30" />
次にこれを次のような辞書形式に変換する。「03伊勢,2482,会い見る,アイミル,動詞-一般,文語上一段-マ行,に、手を折りてあひ見しことをかぞふれば」そして最後に複数の作品をマージして完成する。このような手続きによって、辞書を作ることができる。これに対して、従来のコーパスはそこから様々な形態を生成可能であるが、その中で、インタラクティブなデータベース検索はそのひとつの実現形でしかない。しかし、コーパスは、本来、本文をそのまま読むことも可能であるし、コーパスから単語を取りだして、以上の様な書籍の辞典形式のスタティックな語彙集を作ることも可能である。今回はそのような研究によって、コーパスから言語リソースを抽出するための基礎研究を行った。今回の語彙集(辞典)には、このような言語リソースの構築史研究の補助として、《連想語》を入れたが、これは人工知能的な手法によって計測した上位10語を入れた。内省の働かない古典語において、「連想」を記述するためにはまずこのような方法から始めてみるべきだろう。(例、「鬼」=「戸口」)今回用いた手法はニューラルネットによる分析である。deep learningではないが、今後は、この種のAI的手法を古典語研究に応用すべきである。今回の研究ではその主発点を作ることができた。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本年度は予定以上に進行することができた。主たる要因は、平安時代語のコーパスのXML形式から、辞書形式に変換するソフトウエアを開発することができたことによる。これを用いることによって、国立国語研究所の日本語歴史コーパスを利用して、平安時代語連想語辞典を作成するめどがたち、国語研究所のワークショップで発表を行った。次年度の最終年度は、これをもとに、平安時代の言語リソースの型についての研究を行うことができるようになり、確実な成果が出せる予定である。
また、連携研究者の近藤みゆきは、言語リソース研究の発展として、LINEスタンプに百人一首を用いるという成果を発表した。これは研究の応用で、社会的な反響を呼ぶことができた。 最後にウェブサイトについては、英文コンテンツを増加し、アクセスも増加している。研究方法を公開するという当初の目的を十分に達していると考えられる。
|
Strategy for Future Research Activity |
次年度は研究の最終年度となるため、研究の総合まとめとして、平安時代語言語リソース辞典を作成する。具体的には、本年度開発した方法論を用いて、国語研究所の日本語歴史コーパス、特に『源氏物語』を中心に、連想語彙の表を作成し、それと、用例集とを合体させた形で、平安時代にどのような言語のパターンがあったかを明らかにする。
これによって、日本語の古い時代の言語リソースのかなりの像が明らかになる予定であり、それを現代語の語感と対照することによって、歴史的変化についても研究できる予定である。「桜」と言えば「散る」のような言語の型が現代語にもあるが、これは古典語のある時代に構築されたものであり、そのパターンの抽象的なソースが文化的に伝承されているものと考えられる。このソースは「言語リソース」と呼ばれることがある。「縁語」「枕詞」「歌枕」、ジェンダー言語などもその一部である。これらについて、かなり明確な姿が判明すると予想される。
|
Causes of Carryover |
論文の英語翻訳や研究のまとめに伴う人件費などが時間的な要因で利用できなかったため。これについては、次年度の利用を予定している。また、国際研究の相手先機関の都合で海外出張ができなかったため旅費が利用できなかった。
|
Expenditure Plan for Carryover Budget |
論文の英語翻訳および研究のまとめのためのデータ入力費用として使う予定である。また、海外との打合せ旅費を使う予定である。
|
Research Products
(4 results)