2016 Fiscal Year Research-status Report
分野別特徴語の共起情報を基にした用例表現検索ツールの開発と論文作成支援への応用
Project/Area Number |
15K02717
|
Research Institution | Osaka University |
Principal Investigator |
今尾 康裕 大阪大学, 言語文化研究科(言語文化専攻), 准教授 (50609378)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 英語工学テキストコーパス / コーパス分析ツール / コロケーション検索データベース |
Outline of Annual Research Achievements |
前年度に引き続き工学系英語教科書の電子化作業を行った。ただ、データの中心となる論文テキストの収集に関して、工学全分野から集める予定であったが、コロケーションの抽出にはある程度の頻度が必要であるため、分野を絞ることに計画を変更し、その分野の選定を行なった。現時点では、電子工学から始める予定で、論文誌の選定を行なっている。 テキストの電子化・収集に並行して、データベースの構築及び検索インターフェイスの作成に着手した。データベースは、当初、市販のアプリケーションである FileMaker を採用する予定であったが、試用版を入手して検討したところ、データベースやインターフェイス作成の自由度、研究期間終了後のライセンス維持費などを考慮した結果、無料のデータベースアプリケーションである SQLite で構築することに変更し、そのサンプルアプリケーションを製作してデータベースの検索処理の使い勝手のこっ場を図っている。データベースの作成やインターフェイスのプロトタイプ作成においては、現時点では工学系テキストのデータが十分に揃っていないため、他の共同研究で収集した応用言語学の論文テキストを利用して行なっている。 また、データベースに入れるデータの処理に関しては、当初は、旧来のある単語の前後に現れる文脈語の頻度を集計することでコロケーションの抽出を行なっていたが、検索システムを構築する際に、品詞情報などや依存関係に基づいての検索の必要性を感じたことから、構文解析をしたデータを用いてデータベース作成を行う可能性について検証し、その方向で進める決定をした。 また、これまでのところは、英語での検索を行うことを優先してシステム・インターフェイスの構築を検証してきたが、最終的な目標の、日本語での検索のための日英の専門用語対応表などの構築を進めるとともに、検索システムへの組み込みを試みる予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
前年度の進捗が遅れた影響で、その遅れを十分取り戻すに至らず、前年度に引き続きテキスト処理に時間が必要となったため、教科書テキストの電子化後に行う予定であった論文テキスト収集まで至っていない段階である。現在は、論文データを収集するための論文誌を決定し、アルバイトを雇用した段階であり、今後データの収集を進めていく。 ただ、上述の通り、応用言語学の論文データでコロケーション抽出の予備実験を行なっているため、論文データが集まり次第データベース構築に取りかかれる段階までには、データベース作成のための準備は進んでいる。 また、データベース自体に関しても、上述の通り、当初の市販のアプリケーションである FileMaker を採用する予定を予算や自由度の点から取りやめて、無料の SQLite で構築することに変更し、そのサンプルアプリケーションを製作してデータベースの検索処理の使い勝手を向上させている段階となっている。
|
Strategy for Future Research Activity |
今年度は、前半でデータベースの構築及び検索システムの構築を進めて、利用しやすい検索方法を探るとともに、Web 上で検索できるインターフェイスの作成を行う予定である。 データの収集に関しては、論文テキストの収集を、電子工学に絞って始め、その後のアルバイト雇用のための予算や時間などを考慮してそれ以外へも広めて収集する予定である。 また、これまでのところは、英語での検索を行うことを優先してシステム・インターフェイスの構築を検証してきたが、最終的な目標の、日本語での検索のための日英の専門用語対応表などの構築を進めるとともに、検索システムへの組み込みを試みる予定である。 さらに、論文執筆形態の変化などから、タブレットを辞書などとして使用しながらノートパソコンで論文執筆するなど、タブレットのアプリケーションとしてのインターフェイスの需要もあることがわかったため、iOS 用のアプリケーションを開発することも視野に入れている。現在、Mac のデスクトップ用のアプリケーション開発は行っているが、iOS はインターフェイスの一部やテキスト処理、データベース検索などは共通のものが使えるため、技術的には十分実現可能である。
|
Causes of Carryover |
市販のアプリケーションをライセンスで購入する予定であったが、検索インターフェイスやデータベース構築の自由度、再構築の手間などの問題や、研究終了以降にもライセンス料を支払い続ける必要が生じることを考慮して、スクリプトでの処理が容易で自由度の高い無料の SQLite でのデータベース構築に変更したため、その分の費用が必要なくなったため未使用額があった。また、大学院生の雇用において、RA での雇用を見込んでいたが、大学の制度上、アルバイトとして雇用したため時給が安くなったことが挙げられる。また、アルバイトでも、ある程度のテキスト処理に慣れている院生の数が限られたこともあり、必要な人員を確保できなかったため、遅れが生じる要因ともなった。
|
Expenditure Plan for Carryover Budget |
今年度は、電子化された論文テキストから余分な部分を削除してデータベースを構築する予定であるため、これまでよりもテキスト処理の部分はスキルを必要としないため、これまでよりも多くの院生を雇用できる見込みであること、また、英語を読んで判断するなど、論文の構成などの知識が必要となり、ある程度の学術的な知識が必要となるため、RA での雇用を見込んでおり、時給が高くなる見込みであるため、アプリケーションの購入を見送って予算を繰り越したこともあり、それを使ってデータ収集進める予定である。 また、Web 上で検索できるシステムを念頭に置いているが、タブレットで扱えるアプリケーションとしての需要もあることがわかったため、iOS で検索できるアプリケーションの可能性を探るために iPad の購入を考えている。
|