2018 Fiscal Year Annual Research Report
Development of an expression search tool based on field-specific collocation information and its application to academic journal article writing
Project/Area Number |
15K02717
|
Research Institution | Osaka University |
Principal Investigator |
今尾 康裕 大阪大学, 言語文化研究科(言語文化専攻), 准教授 (50609378)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 外国語教育 / ライティング支援 / コーパス / 工学テキスト |
Outline of Annual Research Achievements |
最終年度は、引き続き工学系英語論文の収集およびテキスト処理を行うとともに、データベースの作成およびインターフェイスの開発を行った。 本研究では、工学系のテキストの電子化は、専門入門書に関しては紙の本をスキャンして OCR 処理をした上で修正を行い電子化し、論文に関しては、HTML で入手できるものから本文を抽出し、理学・工学系で多く用いられるが本研究においては重要でない変数や数式などの置換処理を行いコーパスを構築した。 データベース構築に関しては、工学系全体をカバーするためのコーパスの構築は、分野がカバーする領域の広さから小規模な研究では難しいと判断し、コーパスを追加した場合に分野ごとの指標をつけてあれば切り替えて検索可能なシステムを構築することに重点を移した。 検索に関しては、あらかじめコロケーション頻度情報をもとにリストを作成して検索する方法では、数式や変数が多いテキストでは期待される結果が得られなかったことから、依存文法でのタグ付けが可能な Stanford CoreNLP を利用して、単語間の文法関係の情報を含めたデータベースを作成し検索する方式に転換した。それに伴い、インターフェイスは動的に検索が可能なウェブベースのものを採用するに至った。データベース作成に関しては別途アプリケーションを開発した。 検索機能に関しては、既存のコーパス分析アプリケーションに組み込む形でテストし、Stanford CoreNLP で付与したの文法情報をもとにしたコロケーションの抽出は、タグ付けの精度の限界はあるものの、頻度情報をもとにしたものよりも利用しやすい結果が得られた。 最終的には、データベースの仕様の決定と検索処理のアルゴリズムの開発はおおよそ完成したがインターフェイスは開発の途中で完成には至らなかった。今後、インターフェイスを完成させて公開につなげたい。
|
Research Products
(1 results)