研究課題/領域番号 |
24300052
|
研究種目 |
基盤研究(B)
|
研究機関 | 名古屋大学 |
研究代表者 |
佐藤 理史 名古屋大学, 工学研究科, 教授 (30205918)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 自然言語処理 / 基本語彙表 / テキストの難易度 / 機能表現 / 助詞・助動詞 / 見出しの自動付与 |
研究概要 |
本年度の成果は、以下のとおり。 1.難易度データの作成と、文の難易度の基礎検討 テキストの難易度を推定するツールobi2において、『現代日本語書き言葉均衡コーパス(BCCWJ)』の難易度分布に基づいて、9段階の難易度を推定するモデルobi2/B9を再構築し、BCCWJのリリース版の全てのサンプルに、9段階の難易度データを付与した。この成果は、今後の難易度研究の基盤となるものである。さらに、このデータを用いて、文の難易度を測るための指標の基礎検討を行なった。 2.基本語彙表の改良 意味カテゴリ別の区分が可能な基本語彙表の基本設計を行ない、以前に作成した基本語彙表JC2の2500語に対して、意味ラベル(講談社『類語辞典』のカテゴリーコード)の付与作業を進めた。付与した意味ラベルに基づき、意味カテゴリ別に、収録語の再検討を行なった。(現在も継続中である。) 3.機能表現の整理と文節パターンの列挙 文末機能表現(いわゆる助動詞・終助詞)の整理を進め、文末機能表現シソーラスの第1版を編纂した。このシソーラスを用いて、文機能表現を正規化するシステムを実装した。さらに、これらと平行して、名詞を中心とした文節の末尾の機能表現(いわゆる格助詞・係助詞)の連接パターンを分析・整理し、主要な文節パターンを列挙した。これらは、これまでの日本語学の欠落を埋める成果である。 4.その他 それぞれの段落に、見出しを自動的に付与する方法を検討し、システムを試作した。また、文字bigramに基づき、テキストの著者の生年を推定する方法を検討した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
各種作業の補助を担当する技術補佐員の雇用開始が、予定より数ヶ月遅れたため、基本語彙表の編纂作業が、若干遅れ気味である。
|
今後の研究の推進方策 |
次年度は、技術補佐員の勤務を週2日から週3日に増やし、基本語彙表の編纂作業のスピードアップを図る。難易度推定については、英語をはじめとした他言語の研究成果(PITR2012等で報告されている)を参考にして、多くの可能性を探る。
|
次年度の研究費の使用計画 |
技術補佐員の雇用開始が遅れたため、残金が生じた。この分は、次年度以降の週当りの勤務時間の増加分(2日から3日へ増加)に充当する予定である。
|