研究課題/領域番号 |
16K00300
|
研究機関 | 東京電機大学 |
研究代表者 |
大野 誠寛 東京電機大学, 未来科学部, 准教授 (20402472)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 依存構造解析 / 構文解析 / リアルタイム処理 / 漸進的処理 / 言語生成 / 入力予測 / 残存文長 |
研究実績の概要 |
本研究では、話し言葉や、即興で生成された書き言葉を入力とする言語アプリケーションのための基盤技術として、読みにくい語順を持った文に対する高性能な係り受け解析器を開発する。平成29年度は、以下の4項目を実施した。 (1)これまでに開発済みの語順整序・係り受け解析の同時実行手法を、節内部と節間の2段階に分けて適用する解析器の開発を推進した。具体的には、その前処理として、読みにくい文に対する節の始境界検出手法を開発した。昨年度構築した読みにくい文のデータを分析した結果、読みにくい文には埋め込み節が頻出することが分かり、節ごとに分割実行するには、節の始境界の検出が必須となることが判明したためである。 (2)本研究では、人が漸進的に係り受け構造を把握する過程を分析し、その振舞に関する知見の獲得を試みる。その分析用データとして、これまでに作業者1名が漸進的係り受け解析を実行したデータを構築していたが、本年度は昨年度に引き続き、当該データの増築を実施した。具体的には、異なる別の作業者1名によるデータ構築を推進し、3,639文に対する作業が完了した。 (3)漸進的係り受け解析では、入力に対して同時的に処理を行う必要があり、処理の正確さを保ちつつ、遅延時間を抑えることが求められる。そのため、意味的なまとまりをもつ文が今後どれだけ続くかという情報は重要な手がかりとなりうる。そこで、漸進的係り受け解析の関連研究として、文節が入力されるごとに残存文長を推定する機構の開発に取り組んだ。 (4)読みにくい文に対する係り受け解析の関連研究として、昨年度に引き続き、法令文に対する並列構造解析手法の開発を推進した。本年度は、ニューラル言語モデルを用いた法令文の並列構造解析技術の精緻化を新たに実施した。昨年末時と比較して、適合率は65.2%から66.1%に、再現率は62.5%から65.2%に、それぞれ向上した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
研究実施計画に従って、節境界に基づく読点と語順の柔軟性を考慮した係り受け解析器の開発に着手したが、1)読点挿入・語順整序・係り受け解析を同時実行するアルゴリズムの計算量が膨大になる、2)読みにくい文においても話し言葉と同様に埋め込み節が頻出する、という2つの問題が生じた。問題1)については、読点挿入・語順整序・係り受け解析の3つの処理のうち、読点挿入と係り受け解析、もしくは、語順整序と係り受け解析の2つの処理を同時実行するアルゴリズムを節ごとに適用することとした。問題2)については、構築した読みにくい文のデータを分析し、その分析結果に基づいて節の始境界を検出する手法の開発を行った。当初の研究実施計画では、読点挿入・語順整序・係り受け解析の同時実行アルゴリズムを節ごとに適用する解析器の開発を行うことになっていたが、代表者の所属研究機関の変更という要因も重なり、読みにくい文に対する節の始境界検出手法の開発までに留まった。また、話し言葉の評価用データの作成にも遅れが生じており、「やや遅れている。」と自己評価した。 なお、書き言葉の評価用データの作成や、人間の漸進的解析能力の分析は、研究実施計画通り、おおむね順調に進展している。さらに発展として、文節が入力されるごとに残存文長を推定する機構の開発、ならびに、ニューラル言語モデルを用いた法令文の並列構造解析手法の開発に取り組んだ。
|
今後の研究の推進方策 |
平成29年度の遅れを取り戻しつつ、平成30年度の研究実施計画に基づいて研究を進める。具体的には、読点挿入・語順整序・係り受け解析の3つの処理のうち、読点挿入と係り受け解析、もしくは、語順整序と係り受け解析の2つの処理を同時実行する処理を、節内部と節間の2段階に分けて行う解析器を開発する。さらに、人が漸進的に係り受け構造を把握する過程の分析を実施し、その分析結果を活用しつつ、節境界に基づく読点と語順の柔軟性を考慮した漸進的係り受け解析器を開発する。その際、入力に追従した出力を実現するため、処理時間にも配慮し、解析精度とのバランスを考慮しつつ、計算の効率化を図る。また、格フレームや入力履歴を利用し、未入力文節に係る確率を計算するモデルの精緻化を図る。ただし、効率的なアルゴリズムが開発できない場合は、入力文の文長の制限などの対応についても検討する。 開発した解析器に対して、平成28年度に構築した書き言葉の評価用データを用いた評価実験を実施する。また、話し言葉の評価用データを新たに構築し、このデータを用いた評価実験も実施する。ただし、話し言葉の評価用データの構築に際し,語順や読点位置を変更しただけでは読みやすくならない書き起こし文が頻出する場合は音声データを変更する。適切な音声データが見つからない場合や作成コストが膨大になる場合は、語順整序や読点挿入に関する話し言葉の評価用データの作成は断念し、話し言葉では係り受け解析のみを評価することとする。
|
次年度使用額が生じた理由 |
理由:本研究では、実験データの分析・整理用,また,デモ用計算機として高性能ノートPCの購入費を平成29年度に計上していた。しかし、解析器の開発がやや遅れているため、ノートPCの購入は次年度に延期することとした。また、本研究では、話し言葉の評価用データを新たに構築する予定であり、その構築経費を平成29年度に計上していた。しかし、本研究で構築した書き言葉の評価用データ(読みにくい文)を分析した結果、埋め込み節の頻出という問題が生じ、その対応に時間がかかったため、話し言葉の評価用データの構築は次年度に延期することとした。以上より、次年度使用額が生じた。 使用計画:平成30年度中に、実験データの分析・整理用,また,デモ用計算機として高性能ノートPCの購入、また、話し言葉の評価用データの構築を実施する予定である。
|