2018 Fiscal Year Research-status Report
実世界と可能世界が参照可能であるテキストの日本語モダリティ解析
Project/Area Number |
18K11427
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
松吉 俊 電気通信大学, 大学院情報理工学研究科, 助教 (10512163)
|
Co-Investigator(Kenkyū-buntansha) |
森 信介 京都大学, 学術情報メディアセンター, 教授 (90456773)
村脇 有吾 京都大学, 情報学研究科, 助教 (70616606)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | モダリティ解析 / コーパス / 日本語モダリティ / 将棋解説文 / シンボルグラウンディング |
Outline of Annual Research Achievements |
本研究では、実世界と可能世界が参照可能であるテキストの日本語モダリティ解析システムを実装する。具体的には将棋解説文データを研究に利用する。このデータは、将棋局面のデータ(実世界)、現在の局面に対する解説テキストデータ、先読みアルゴリズムによる予測局面データ(可能世界)の3つで構成される。本年度は、次の4点を実施した。1.解析システムの試作、2.モダリティ表現のシンボルグラウンディングの検討、3.文献調査、4.既存コーパスの更新。 具体的には、まず、モダリティ情報が付与された将棋解説文コーパスを学習データとして利用し、日本語モダリティ解析システムを試作した。機械学習手法として、ニューラルネットワークモデルと条件付き確率場モデルを組み合わせた手法を使用した。モダリティ表現の認識タスクにおいて、このシステムはF値尺度で0.682を達成した。今後は、この値をベースラインとして研究を続けることとなる。次に、典型的な7つのモダリティ表現をテストケースとして選択し、それらのシンボルグラウンディングを検討した。将棋において予測局面データは可能世界の集合であり、様相論理の応用によりモダリティの事実性ラベルを教師なしで自動推定することができる見込みがある。予備実験の結果、この手法が有効に働く可能性があることが分かった。これは重要な知見である。続いて、既存のモダリティ体系に関して文献調査を行った。主に機能文法での先行研究を調査し、肯否中間領域に関してモダライゼーションのみでなくモデュレーションも本研究で考慮すべきであるという知見が得られた。最後に、『現代日本語書き言葉均衡コーパス』のモダリティラベル体系を本研究のものに変換する作業を行った。一対一対応があるものに関して自動変換プログラムを作成し、約44,000個の事象クラスラベルと約32,000個の事実性ラベルを自動付与することができた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
事前の研究計画に従い、『現代日本語書き言葉均衡コーパス』を基としたモダリティ情報付与コーパスのラベル更新作業において、自動変換プログラムを作成し利用することにより、計76,000個のラベルの更新を達成することができた。一方、先行研究の調査により、ラベルを付与すべきモダリティ表現の範囲を拡大した影響で、自動付与されたモダリティラベルを人手で確認する作業を計画どおり今年度のうちに始めることができなかった。その代わりに、今年度は、次年度に開始予定であった解析システムの試作とシンボルグラウンディング作業を前倒しで開始し、重要な知見を得ることができた。それゆえ、研究全体を見ると、遅れはなく、研究はおおむね順調に進んでいると言える。
|
Strategy for Future Research Activity |
今年度に引き続き、『現代日本語書き言葉均衡コーパス』を基としたモダリティ情報付与コーパスのラベル更新作業を行う。自動付与されたラベルには抜けや誤りが存在するため、人手でこれらを確認・修正する。また、今年度すでに始めているが、局面データと予測局面データを利用してモダリティ表現のシンボルグラウンディングを実行する課題も進める。対象となるモダリティ表現の数を増やしてこの課題を大規模に実施する。この課題において、訓練データには存在しない未知のモダリティ表現を自動獲得するタスクにも取り組む。
|
Causes of Carryover |
「現在までの進捗状況」の項で述べたとおり、先行研究の文献調査結果に基づいてラベルを付与すべきモダリティ表現の範囲を拡大したため、文中のモダリティ表現を自動認識するプログラムの開発が遅れている。その影響で、自動付与されたモダリティラベルを人手で確認する作業を今年度のうちに始めることができず、今年度は事前の計画に従って「謝金等」の経費を使用することができなかった。この経費は次年度に繰り越し、2019年度において、技術補佐員を雇用し、人手でラベルを確認・修正する作業を依頼することで利用する。
|