1. 正規表現を用いた数式検索の実現 正規表現を用いた数式検索機能は,本研究の計画当初はコーパス分析のためのツールという位置付けであったが,この機能が結果的に,最も大きな成果として結実した.正規表現とは通常,文字列に対して用いられる機能であり,問い合わせにおいて「任意の1文字」や「文字の繰り返し」などを表現可能にする.本研究では,数式検索において正規表現を利用できるようにした.数式検索で正規表現を利用することで,sinxにもcosxにもマッチするようなパターンを記述したり,「同一の分母を持つ分数同士の足し算」をまとめて検索したりすることができるようになる.数式のコーパスを分析する際には,特定のパターンを有する数式を計数するといった処理が重要な役割を果たすため,この機能は数式の表記の情報から意味の情報を取得するためにも有用なものである.この成果は,情報処理学会の論文誌にジャーナル論文として掲載された.さらに,検索に関連する成果を2つの国際会議において発表した.
2. コーパスを用いた意味推定のフレームワーク構築 数式の表記の情報から意味の情報を得る手法も提案および実装し,実際に意味の情報を得ることができた.表記の情報と意味の情報を対応付けたコーパスを用意し,コーパス中の数式に対して機械学習におけるランダムフォレストと呼ばれる手法を用いることで分類器(意味推定器)を構築するという方法を用いた.この方法で得られた分類器に対して表記の情報を入力すると,意味の情報が出力される.分類器の構築方法および分類器の性能評価の結果は,国際会議において発表を行った. 意味推定のフレームワークは,コーパス中のデータの増加に応じて推定の精度や対応可能な数式記号の多様性が増していくようになっている.このため,今後研究室としてデータの拡充に取り組むことで,意味推定がさらに発展していくことが見込まれる.
|