2011 Fiscal Year Research-status Report
RubyとMSXMLによる日本語名詞述語文の実例調査とコーパス分析ツールの構築
Project/Area Number |
23720225
|
Research Institution | University of Tsukuba |
Principal Investigator |
今田 水穂 筑波大学, 人文社会系, 特任研究員 (10579056)
|
Project Period (FY) |
2011-04-28 – 2014-03-31
|
Keywords | 名詞述語文 / コーパス言語学 |
Research Abstract |
京都大学テキストコーパスをXMLファイル化し、Rubyを用いて用例収集と分析を行った。具体的には、名詞述語文の事例を収集し、さらに名詞述語文の主語と述語を抽出するための簡易処理を行うプログラムを作成して解析を試みた。また、分類語彙表などのシソーラスを用いて、主語や述語の意味分類に基づく名詞述語文の自動分類の方法を検討した。これらの研究成果の一部は、「日本語名詞述語文の類型と主語の意味分類について」(2011)において発表した。これと並行して、XMLコーパス分析用のソフトウェアの改良を試みた。従前のプログラムからの大きな変更点としては、WIN32OLEやMSXMLなどWindows環境に依存するソフトウェアの利用を廃止し、SpreadsheetやNokogiriなどクロスプラットフォームなライブラリに差し替えることによって、MacなどWindows以外の環境でも使用可能なプログラムに作り替えた。また、irbにおける対話的操作やZIP圧縮されたXMLファイルの検索などの機能を追加し、t値やMI値の計算、23年度末に公開されたBCCWJへの対応など、いくつかの機能を試験的に追加した。この新しいプログラムはRenkonと名付けた。ある程度の体裁が整った時点で公開を予定している。また本研究計画と関連して、名詞述語文の意味構造と情報構造に関する研究を進めた。意味構造については、生成語彙意味論を用いて多様な名詞述語文の意味構造を記述する研究を行い、「名詞述語文の生成語彙論的解釈」(2012)として発表した。情報構造については、焦点の質的特性に注目した研究を行い、「名詞述語文の焦点の質的特性」(2011)として発表した。これらの研究成果は本計画に直接含まれるものではないが、本計画の推進の上でも資するところが大きい。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初計画では毎月500例程度のペースで分析を進めていく予定であったが、個別の事例分析については計画よりも立ち遅れている。これは、分析効率の向上のために、主語と述語の抽出、意味情報の付与などの自動解析を行うプログラムの開発を優先したためである。また、最終年度に行う予定であった解析ツールのクロスプラットフォーム化や京都コーパス以外のコーパスへの汎用化なども、ある程度繰り上げて推し進めている。従って、若干の計画の前後はあるものの、総合的にはおおむね順調に進展していると言える。
|
Strategy for Future Research Activity |
初年度の成果を踏まえて、引き続き名詞述語文の分析と記述を進める。ここまでの研究の過程で、意味に基づく名詞述語文の分析、分類は予想以上に煩瑣であることが分かった。そこでより堅実に研究成果を挙げていくために、今後の研究を進めていく上でいくつかのサブタスクを設定したい。第一に、名詞述語文の主語と述語をアノテーションしたコーパスを作成する。第二に、コピュラを含む複合表現をリストアップしアノテーションする。これらは意味解釈の問題に関わらずに比較的堅実に推し進めることが可能であり、また以後の研究に対する応用の幅が広い。次の段階としては、名詞句の内部構造に関する情報の付与を試みる。例えば、名詞述語文の中でも文末名詞文と呼ばれるものは述語名詞が連体修飾節を伴っており、かつ外の関係になっている場合が多く、名詞句の内部構造が分類の重要な指針となる。別のタスクとしては、主語や述語に対する意味分類情報の付与が考えられる。このタスクは意味解釈の問題が絡むので作業上のコストが大きくなる可能性があるが、本研究の最終的な目標である名詞述語文の意味分類を達成する上で、最も重要な基本資料になるものと考えられる。これらの段階を踏むことによって、当初の目標であった主語と述語の意味関係の分類というタスクの達成は計画より遅れる可能性がある。しかし仮に当初の目標が十分に達成されなかったとしても、上述のサブタスクによって得られる情報は今後の名詞述語文研究の推進のために有用であり、実現可能性の高いタスクから順次遂行していく方策を取ることで確実に研究成果を積み重ねて行きたい。
|
Expenditure Plans for the Next FY Research Funding |
基本的な機材や資料については、概ね初年度の研究費で調達することができた。次年度の研究費は主として旅費および消耗品費として使用する。その他、分析ツールの開発に関連して若干の資料やソフトウェアを調達する。
|