2014 Fiscal Year Annual Research Report
コーパス言語学を用いた数式の分析に基づく数式の意味解釈
Project/Area Number |
14J02758
|
Research Institution | Shizuoka University |
Principal Investigator |
渡部 孝幸 静岡大学, 創造科学技術大学院, 特別研究員(DC2)
|
Project Period (FY) |
2014-04-25 – 2016-03-31
|
Keywords | 数式検索 / 数式コーパス構築 / 情報処理学会論文誌採録 |
Outline of Annual Research Achievements |
本研究は,「コーパス(数式)を分析する技術の開発」「コーパスの構築」「コーパスの分析」「表記から意味への変換処理の開発」という4つの手順に大別できる.現時点での進捗として,数式分析技術の開発を高い水準で実現することができた.また,コーパスの構築にも着手している. 数式を分析する技術として最も重要な処理は,数式の検索である.本研究では,大量の数式から,詳細な条件を指定した上で数式を検索する技術が必要となる.例えば,|A|という数式を考えると,「| |の中の記号が大文字であり,かつ,∪,∩のいずれかを含むような数式」といった形で条件を指定して検索を行い,条件を満たす数式を計数することができれば,コーパスをより効率的に分析することができる. 私は,このような分析を実現するために,正規表現と呼ばれる記法を用いて数式を検索する手法を提案した.この手法は,コーパス分析のための技術というだけでなく,それ自体として非常に有用性の高いものであり,webページ中の数式を検索してハイライト表示したり,数式の置換処理を行うことで数式を含む文書を効率的に編集したりすることが可能となる.この成果を論文としてまとめ,情報処理学会論文誌に採録された.さらに,提案した検索手法を幅広いユーザが利用できるよう,検索の操作を容易にするGUIも提案し,この成果は国際会議the 17th International Conference on Human-Computer Interactionに採録された. また,コーパスの構築にも着手している.現在,パイロット版のコーパスに収録する文献の収集を完了しており,文献の裁断機,スキャナ,数式を含む文書の読み取りを行うOCRソフトウェアなどの準備も終えている.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
現在,本研究の主目的である数式の分析において重要な役割を果たすツールである,数式検索の処理の実装を終えている.数式検索は,検索の目的に応じて,様々な手法が提案されているが,本研究で必要となるような,パターンマッチングに基づく検索はこれまで存在しなかった.そこで私は,パターンマッチングに,後方参照を含む正規表現の機能を追加した形で,検索機能を実装した.この機能によって,「分母が同一の分数同士の加算」といった数式を検索することが可能となった. このような検索の実装は,かなり困難を伴うものであった.これは,分数やべき乗といった,記号が縦方向にも配置されるような,数式特有の記号の位置構造に起因する.このような位置構造は,一種の木構造として解釈することが可能であるが,正規表現は本質的に木構造を取り扱えないという制約がある.この矛盾を解消するために,検索の問い合わせ(キーワード)に変換処理を施した上で,再帰的な処理が可能な正規表現エンジンを利用するという方法を採った.実装した検索機能は,単に数式の分析ツールとして利用できるだけではなく,それ自体として大きな意義を持つものであり,論文誌への採録も決定している.この困難な課題を1年目に終えることができた点で,本研究はおおむね順調であると言える. また,分析対象であるコーパスに関しても,コーパスの構築に必要な道具(書籍の裁断機,スキャナ,文字読み取りソフトウェア)等の準備と動作確認,コーパスに収録する文献の検討といった前準備を終えているため,今後速やかに構築作業にとりかかることができる.この点でも研究計画の遂行に向けて作業が進められている.
|
Strategy for Future Research Activity |
今後は,すでに準備を終えている,コーパス作成の道具(文献の裁断機,スキャナ,文字読み取りソフトウェア)を用いて,コーパスの構築に取り組む.OCRソフトウェアは非常に精度が高く,人手でのデータ修正作業は必要のない水準にあるため,コーパス構築は迅速に完了するものと考えている. その後,コーパスの分析を行う.コーパスの分析の際は,すでに自然言語処理の分野で蓄積されている語義曖昧性解消の知見を応用する.数式は,自然言語と異なり,分数やべき乗など,記号が縦方向にも配置されるという特徴的な構造を持つが,この構造を取り扱う方法は,数式検索手法を考案した際にすでに確立しているため,それを活用することが可能である.なお,分析において,頻度の計測に必要となる数式検索機能も,すでに実装済みである.分析の際には,コーパス言語学を専門とする研究協力者である立命館大学文学部田中省作教授より,引き続き助言を頂戴する. 分析の後,数式の表記のデータを意味のデータへと変換する処理を実装する.この段階では,数式データを計算機上で処理する技術が必要となる.ここで,数式データ処理のための基幹的なプログラムは,数式検索の実装の際に作成しているため,これを利活用して,効率的に変換処理の実装に取り組む.
|
Research Products
(6 results)