最終年度は、表形式中の数値データと、Twitterテキスト中の数値データとのマッチングに関する研究を主に行った。前年度までの研究で得られた、「数値データをコード化して文字列検索可能にする手法」を用い、表形式とTwitterテキストを、同一のコード化を通じて統合的に取り扱い可能にするという目標のもと、Wikipedia表形式と、Twitter中の数値を同時にコード化することを試みた。実際のデータに適用したところ、Wikipedia表形式、Twitterそれぞれで、各メディアに特徴的な定形表現が存在し、数値データの多くがこれら定形表現に基づいて表現されていることがわかった。そこで本年度は、任意のテキストから頻出する定形表現を高速に取得する手法を開発した。この手法は、先に開発した数値のコード化手法と組み合わせることで、テキスト中の数値データにも適用可能である。特に、表形式中の行・列毎に定形表現を抽出することで、各行および列を少数のパターンで記述する文字列の集合を取り出すことができた。 さらに、Wikipedia表形式について、それを含むテキストの見出し抽出(構造解析)を行い、さらに、記事のタイトルと、そのタイトルの上位語をWikipediaのリンク構造から取得し、表形式からの属性抽出と組み合わせることで、各セルの意味的位置づけを、効率的に表現する手法を開発した。また、実際にWikipedia表形式を解析し活用する際に、セル中の単位の省略が問題となり、これを補完するための単純なヒューリスティクス以上の手法が必要であることがわかった。そこで、本年度は、この単位の補完についても、手法の開発を行った。 前年度までの研究成果と併せ、これで、表形式中の数値データに関し、その意味付けを行い、さらに、数値のコード化による様々なメディアでの数値マッチングが可能になったと考える。
|