2002 Fiscal Year Annual Research Report
科学技術文献のコーパス構築と分析…工学系大学における語学教育への発展的応用…
Project/Area Number |
13680285
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
小山 由紀江 名古屋工業大学, 情報メディア教育センター, 教授 (20293251)
|
Co-Investigator(Kenkyū-buntansha) |
加納 満 長岡技術科学大学, 留学生センター, 助教授 (80251859)
|
Keywords | XML / 構文解析 / 品詞分析 / コーパス / 科学技術論文 / 科学技術雑誌 / 英語教育 / 日本語教育 |
Research Abstract |
1.日本語に関連しては、専門雑誌論文の電子テキスト化とそのXML文書化のためのプログラミングを行った。 1)電子情報通信学会2000年(基礎・境界、情報・システム、エレクトロニクス、通信の4分野)版の論文を電子テキスト化した。文字数は3,377,761文字。 2)電子テキストをXML文書化、言語分析を行うためのプログラミングを行った。手順は以下の通り。 a.タイトル、章、節、文レベルまでタグ付けを行うスクリプトを書く。 b.aのスクリプトでテキストファイルからXMLファイルを作る。 c.構造化された文書を分析したり、新たにタグ付けを行ったりするためのスクリプトを書く。 d.形態素解析プログラム茶筌とcのスクサプトを呼び出して、形態素単位でタグ付けを行うためのスクリプトを書く。 e.XMLファイルをdのスクリプトにかけて、XML文書化する。 2.英語に関しては昨年構築したコーパスの充実を図り、さらにコーパスを分析ソフトによって解析し、試験的にweb教材を作成した。さらにこれを学生に解答させ、解答状況を分析した。 1)電気系学術論文のコーパスにもう一分野を追加し、全部で521829語とした。コーパス全体としてはそれぞれの分野が50万語ずつの計150万語となった。 2)このコーパスをBrill's Taggerで品詞分析し、Apple Pie Parserで構文解析を行った。 3)分析結果に基づ過去分詞使用に焦点を置き、いくつかの条件を元にコーパスから間題文を抽出した。 4)この問題文をランダムに抽出し主動詞を問う問題を作成するシステムを作り、web上に教材として載せ、学生に解答してもらった。
|