Project/Area Number |
23K11239
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Osaka Gakuin University |
Principal Investigator |
大谷 朗 大阪学院大学, 情報学部, 教授 (50283817)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2025: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2024: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2023: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | 日本語 / 言語情報 / ツリーバンク / 統語構造 / 連接 / 助詞 / 助動詞 / 再構築 / 付属語 / 統語 / HPSG |
Outline of Research at the Start |
日本語とその情報処理の研究データとして重要な役割を担うツリーバンクは,文法に基づいて構築されている.この文法はツリーバンクから得られる言語情報の種類だけでなく,品質やツリーバンク構築の効率にも影響する. それゆえより高度な日本語処理研究を推進するには,基となる文法を適切に拡張することが必要であり,本研究では日本語に特徴的な付属語を精細に分析することで,文法の再形式化及びツリーバンクの再構築を目指す.
|
Outline of Annual Research Achievements |
言語処理及び言語研究にとって重要な資源であるツリーバンクは,文法枠組みに基づいてテキストに統語構造情報などを付与することで作成される.ゆえに採択された枠組みは,ツリーバンクから抽出される言語情報を規定するだけでなく,その品質やツリーバンクの構築自体にも影響を及ぼす.国内外の研究の趨勢に合わせてこうした有用な言語資源を開発していくことは急務であるが,アノテーションの利便性,汎用性を優先させた既存ツリーバンクの文法形式化,とりわけ統語構造情報の単純化は,大規模なテキストを資源化すること,すなわち量的な優位性と引き換えに,個別言語の特徴,つまり質的な精緻化を捨象してしまう.そこで,本研究は日本語ツリーバンクの基となる文法枠組みを適切に拡張することで,量的優位性を保持しつつ日本語の特徴をより反映した言語資源の再構築方法を開発する. このような目的及び目標の達成を目指し,本研究は付属語(助詞・助動詞)の連接を言語学的な分析対象に定め,日本語研究として国語学,日本語学,理論言語学分野の先行研究のサーベイを行っているが,調査が進行するほどにこの言語現象が予想以上に多岐にわたることが分かってきた.そこで,研究期間内の段階的な成果報告のために,ひとまず対象を文末述語の連接に限定することで言語的制約を考察している. こうした理論的考察と並行してツールの構築も進めている.文法の整合性を検証しつつ,その結果を反映したツリーバンクの構築が行える仮想化ソフトの設定及びそれがストレスなく動作するようにハードの整備も行なってはいるが,今現在の計算機環境で動作させるには少し古いソフトでもあるため,最低限動作に支障をきたすことがないように随時システムのチューニングを行っている.
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
家庭の事情により計画書に記したエフォート通りに研究に従事することが出来ていない. そのため当初計画に予定していた先行研究のサーベイは調査範囲が想定以上に広範にわたっていることもあり完遂していない.現在は分析対象を主要なものに絞り込むことで行うべきサーベイの範囲を縮小して調査を継続している. また,文献調査と並行して進める予定であった検証のための計算機環境の構築も,円安などの影響で部材の供給が潤沢でなく,また価格も高騰しているため一部パーツの入手目処が立っておらず,計画通りにシステムが稼動していない.そのためシステム構成の変更及びデータ規模の縮小を図ることで実働を最優先した環境構築への見直しを行なっている.
|
Strategy for Future Research Activity |
当初計画を遅延させている学術的要因については,調査対象の厳選及びそれに伴う取り扱いデータの削減をもって計画規模を縮小しながらも予定に従った段階的成果報告を目指す.具体的には本研究が対象とする付属語の連接に関して,ひとまず文末述語の周辺現象に焦点を当てて考察し,先行研究のサーベイだけでなく対象データも厳選して言語情報を形式化する. この形式化に基づくツリーバンク再構築の実証的研究については,検証作業での使用を想定していたシステムが本来のパフォーマンスを発揮できる状況にないため,データの縮小に合わせてシステムも小規模なものに変更することを検討している. 本研究は日本語の現象の単なる理論研究ではなく,そのような理論の言語処理での有用性を確認することにも重きを置いているため,双方の進捗のバランスをとりながら堅実な段階的研究の遂行を継続する.
|