2001 Fiscal Year Annual Research Report
科学技術文献のコーパス構築と分析…工学系大学における語学教育への発展的応用…
Project/Area Number |
13680285
|
Research Institution | Nagaoka University of Technology |
Principal Investigator |
小山 由紀江 長岡技術科学大学, 語学センター, 教授 (20293251)
|
Co-Investigator(Kenkyū-buntansha) |
加納 満 長岡技術科学大学, 語学センター, 助教授 (80251859)
|
Keywords | コーパス / 科学技術英語 / 科学技術日本語 / 一般科学雑誌(英語) / 一般科学雑誌(日本語) |
Research Abstract |
本年度は、コーパス構築に関わる理論研究、コーパス分析方法の検討、コーパス構築を行った。 (1)コーパス構築要件。 ・量的、質的要件:量的な側面から分析するのにはコーパスが大規模でなければならず、質的な側面からは集めたテキストが分析対象となる母集団を反映していなければならない。 ・目的にかなった分析を行うには有効なタグ付けがコーパスに施されていなければならない。 (2)分析方法の検討 ・コーパス分析には形態素分析と文字列分析によるアプローチがある。 ・前者のアプローチ法では文法的なタグ情報付与によりテキスト分析に大きな成果をあげているが、言語単位の認定基準を一義的に決めることが困難であるという間題点がある。 ・一方、後者の代表的なアプローチ法にN-gram分析がある。このアプローチ法は単位認定の問題点が回避でき、共起性の強い要素群の分析に有効であることが知られている。 ・本研究では両者のアプローチの長所と短所を見極め、両者を併用しながらより精度の高い分析を行う。 (3)コーパス構築方法について ・日本語と英語において学術雑誌論文(機械と電気)の大規模コーパスと一般科学雑誌の大規模コーパスの構築を決めた。 ・それぞれのコーパスにおいて代表的な学会誌と一般科学雑誌を選定した。 (4)本年度構築したコーパスについて ・日本語:2001年版「日本機械学会論文集」と2001年版「電気学会論文誌」を対象にテキストを集め、それぞれ154,060文字規模と186,626文字規模のコーパスを作った。 ・英語:電気4分野で314,722語、機械6分野で557,141語、一般科学雑誌(Scientific American)で598,210語規模のコーパスをそれぞれ作った。
|