本研究では、文書構造や視覚情報を踏まえた自然言語処理手法についての検討に取り組んだ。具体的には、レイアウトされた文書やインタラクティブなウェブ上のフォームなどの文書構造、数式や数字などを含む文書中の非言語要素、テキストの編集的な属性(大文字・小文字の違い)の3つの文書構成要素に注目して、これらの分析やモデル化を提案して有効性を示した。また、自然言語処理分野の国際会議論文を対象として、フォントやレイアウトや図表やインライン数式を含む非言語情報をアノテーションタグの形でテキストに追加したXML形式の文書コーパスを構築した。
|