2011 Fiscal Year Research-status Report
大規模コーパスを使用した日本語複合動詞データベース構築法に関する基礎研究
Project/Area Number |
23652098
|
Research Institution | Osaka University |
Principal Investigator |
今井 忍 大阪大学, 日本語日本文化教育センター, 准教授 (20294176)
|
Project Period (FY) |
2011-04-28 – 2014-03-31
|
Keywords | 複合動詞 / 日本語 / データベース / コーパス |
Research Abstract |
今年度は、データベース作成方法に関する基礎的な研究を行った。それらは主に二つに分類される。第一に、これまでの複合動詞に関する研究から意味と文法的特徴(特に格支配)との相関性を明らかにすることである。計画としては、「~出す」「~込む」「~つける」「~かける」を対象とする予定であったが、特に「~出す」と「~込む」について考察した。「~出す」については、カラ格を必須とする用法として「外部への移動」(「ボールがフィールドから出た」)と「産出」(「ラッパから音が出た」)、ニ格を必須とする用法として「接近可能化」(「母が電話に出た」)、いずれをも必須としない用法として「出現」(「お化けが出た」)を認定した。また、「~込む」についてはニ格を必須とする「内部への移動」(「水が側溝に流れ込んだ」)、ニ格を必須としない「縮小」(「お腹が引っ込んだ」)と「強化」(「父も最近はめっきり老け込んだ」)を認定した。これらのことから、一般に基本義に近い用法ほど後項による格支配力が強いことが明らかになったが、これは格支配と意味との関連性という観点からは注目すべき点であると考えられる。第二に、データベース作成のための技術的な側面に関して検討を行った。本研究は格支配という構文上の特性を扱うため、構文解析という観点から現在の研究の状況を検討した。現段階では、どのような実装を行うかは考察中であるが、Python、Perl、Rubyの利用を検討している。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
多義と格支配の関係についてはほぼ計画通りであるが、アルゴリズムの実装についてはやや遅れている。これは、言語処理を専門とする人材が当初予想していたより見つかりにくかったことによる。
|
Strategy for Future Research Activity |
今後は多義と格支配の関係についてさらに記述を進めるとともに、これまで明らかになった関係に基づいて試験的にデータ抽出を行う予定である。また、それと並行して実装方法についての検討をさらに進める。
|
Expenditure Plans for the Next FY Research Funding |
言語処理を専門とする人材の補助を得て、実装方法についての具体的な検討を行う必要があるため、謝金を使用する。また、そこで使用するための機器(コンピューターと周辺機器)及びソフト類(Visual Studioなど)を購入する予定である。さらに、新聞データベースなどのデータベースの拡充も必要である。
|