研究課題/領域番号 |
23500177
|
研究機関 | 京都大学 |
研究代表者 |
森 信介 京都大学, 学術情報メディアセンター, 准教授 (90456773)
|
キーワード | 言語処理 |
研究概要 |
国立国語研究所の『現代日本語書き言葉均衡コーパス』のコアデータの1/10に対して単語係り受け情報を付与し、前年度の成果である最大全域木に基づく係り受け解析器の様々な分野に対する解析精度向上を実現した。また、研究・開発を通して係り受け解析器を特許文書、レシピ、ブログ等に分野適応し、それぞれの分野と全体での精度向上を確認した。述語項構造解析や固有表現抽出を実装し、レシピを題材として、テキストを1つのフローグラフにする手法を確立した。 本研究の成果である係り受け解析器とそのモデルを以下のサイトで公開し始めた。 係り受け解析器 EDA: http://www.ar.media.kyoto-u.ac.jp/members/flannery/eda/
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
最大全域木に基づく係り受け解析器を様々な分野に適応し、解析精度の向上を確認した。また、本研究で提案するテキスト処理を評価するためのタグ付きデータをレシピテキストの分野において作成した。これにより、グラフ理論に基づく全体最適化としてのテキスト処理を実装・実験する準備が整いつつあるといえる。
|
今後の研究の推進方策 |
まず、今年度に作成したタグ付きデータの基準に沿って、単語分割から述語項構造解析までの様々な言語処理の段階の部分的アノテーションコーパスを作成し、対象とする分野における言語処理の精度を十分に高める。 これらの組み合わせをベースラインとし、本研究計画で提案するグラフ理論に基づく全体最適化としてのテキスト処理の結果を評価する。この際、すでに一部準備したフローグラフ化したレシピテキストを用いる。
|
次年度の研究費の使用計画 |
主に、以下の目的に研究費を使用する。 1) 言語処理の各段階の部分的アノテーションコーパスの作成 2) 評価用のレシピテキストとそのフローグラフの作成 3) 全体最適化等の実装を含めた実験補助者の雇用 4) 研究発表のための出張や論文の別刷り代
|