2020 Fiscal Year Research-status Report
日本語述語形式の体系的整理に基づく文末述語解析・生成システムの実現
Project/Area Number |
20K21809
|
Research Institution | Nagoya University |
Principal Investigator |
佐藤 理史 名古屋大学, 工学研究科, 教授 (30205918)
|
Project Period (FY) |
2020-07-30 – 2022-03-31
|
Keywords | 自然言語処理 / 文末述語解析 / 文末述語生成 / 機能語 |
Outline of Annual Research Achievements |
本年度の実績は、おおよそ次の3点にまとめられる。 1. 日本語の文末述語表現の整理を推し進めた。文末述語表現を、内容語に0個以上の機能語と定義し、助詞138語、判定詞1語、助動詞106語、述語接尾辞85語からなる機能語の網羅的リストを作成し、その文法的性質(活用型と接続型)を記述した。この整理により、HaoriBricks3を用いて複雑な文末述語表現を生成できるようになった。 2. 音変化表現の文法における扱いを定めた。音変化表現とは、「書いてしまう」が「書いちまう」となるような、話し言葉固有の表現のことである。音変化表現を扱う方法として、(1) 新たな内容語として扱う、(2) 音変化コマンドで扱う、(3) 新たな活用形として扱う、(4) 新たな機能語として扱う、(5) テンス有標として扱う、の5つの方法を設定し、既存研究で示されていた137種類中の128種類の音変化表現のそれぞれに対し、どの方法で扱うかを定めた。これにより、ほとんどの音変化表現を含む文末述語表現が、HaoriBricks3で生成できるようになった。 3. これまで作成してきた文末解析システムPanzerの改良、および、その話し言葉対応版Panzer/Uの実装を進めた。Panzerは、与えられた文から文末述語を切り出し、それを構成要素に分解するシステムである。Panzerのプログラムの細部を見直し、HaoriBrick3との連携を強化した。Panzer/Uでは、音変化表現を扱うため、比較的音変化表現に頑健な形態素解析システム(「現代話し言葉UniDic」+ MeCab)を前処理として用いることとしたが、現時点では、十分な解析精度は得られていない。年度末には、これら2つのシステムを統合すべく、システムの再実装に着手した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
文末述語を構成する要素の列挙の第一弾は完了した。見直しは必要であるが、ある程度目処は立った。 解析システム・生成システムは、動作する状態となった。 以上により、目標の半分は達成できたと考える。
|
Strategy for Future Research Activity |
文法体系の整備(機能語の列挙)とシステムの実装ができたので、研究の第一段階はクリアできた。今後は、文法体系の見直しとシステムの再実装を進める。これを何サイクルか回すことが、使えるシステムを作るためには不可欠である。解析システムの評価のための例文集(テストセット)の整備が重要であるため、これを研究内容に含める予定である。
|
Causes of Carryover |
コロナの影響で、出張が中止となり、旅費が執行できなかった。また、新しい技術補佐員の採用を見送ったため、人件費が執行できなかった。 これらの未消化分のうち、人件費は、2021年4月から雇用した技術補佐員の人件費に充当する。旅費の分は、物品等の購入で、執行する予定である。
|