研究課題/領域番号 |
15K02717
|
研究機関 | 大阪大学 |
研究代表者 |
今尾 康裕 大阪大学, 言語文化研究科(言語文化専攻), 准教授 (50609378)
|
研究期間 (年度) |
2015-04-01 – 2019-03-31
|
キーワード | 工学学術テキストデータベース・検索システム構築 |
研究実績の概要 |
データベース構築のための工学系論文の電子テキスト化を進めた。現在のところ、教科書コーパスは130万語弱、論文コーパス90万語程度となっている。また、電子化したテキストを文法解析した上で、検索システムを構築するためにSQLiteのデータベースに蓄積していく予定であるが、検索システムの仕様を決めつつ、効率よく必要なデータが取り出せる形のデータベースを作成し検証している。このデータベース構築に関しては、工学論文コーパスを主とする予定であるが、語彙のデータベースとしては十分な量が確保できていないため、共同研究者として参加している別の科研で収集している別分野の論文テキストを使用している。その際に、本研究にも応用できるテキストの分析を行い、共同研究として学術論文誌に共同研究として発表した。 また、これと並行して、自身が開発しているテキスト分析アプリケーションに、テキストデータからデータベースを作成する機能とそのテストをする機能を組み込む作業を行なっている。これは、将来のデータの追加を用意にするとともに、研究者が個人で収集する論文テキストなどを利用して、独自のデータベースを作成しデスクトップ上で検索ができる機能を追加することで、汎用性を高める可能性を考えるとともに、いずれは、今回システムの開発に利用する予定のRuby on Railsで必要なファイルを書き出すことによって、研究室などのクローズドな範囲でのウェブ検索システムの構築の半自動化の可能性を探るものである。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
テキストを電子化するための大学院生の確保が十分でなかったことと、数式の扱いなどの工学テキスト特有の問題のためにテキストの電子化が大幅に遅れたため、検証に十分なテキストデータが得られず、システム開発に取りかかるのが遅くなったため、一年の期間延長をした。
|
今後の研究の推進方策 |
当初の予定よりもテキストの電子化が難しいため、工学論文コーパスの分野をさらに絞って、データベースの構築および検索システムの開発に取り掛かり、その検証を行う。 また、引き続き、論文コーパスの拡充に努め、意味のある検索ができるシステムを目指す。また、自身開発のテキスト分析アプリケーションに、システム・データベース構築(補助)機能を追加することを目指す。
|
次年度使用額が生じた理由 |
必要な量のテキストデータが収集できていないことから、引き続き大学院生をアルバイトとして雇用する必要があるため、人件費の残額及び、旅費の一部からの支出を行う予定である。また、成果発表のための旅費については、当該年度に発表できるまでの成果が上がっていなかったが、次年度に北米での学会で成果の一部を発表する予定のため、そのために使用する予定である。
|