Software Analysis by Algorithm x Machine Learning
Project/Area Number |
22K11975
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60050:Software-related
|
Research Institution | Shimane University |
Principal Investigator |
神谷 年洋 島根大学, 学術研究院理工学系, 教授 (70415660)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000)
Fiscal Year 2025: ¥130,000 (Direct Cost: ¥100,000、Indirect Cost: ¥30,000)
Fiscal Year 2024: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2023: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2022: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
|
Keywords | ソフトウェア工学 / 生成AI / ソフトウェア開発 / ソフトウェア保守 / プログラム理解 / ソフトウェア解析 / 機械学習 / 情報検索 / 保守 / プログラム解析 |
Outline of Research at the Start |
コンピュータのソフトウェアはいわゆる自然言語とは異なる表現構造や意味論を持っている。既存の研究には、機械学習の分野で発達してきた自然言語処理、時系列データ、画像処理、あるいはそれらを組み合わせたマルチモーダルな技術をほぼそのままソフトウェアに適用しようとするアプローチが多い。本提案では、従来のソフトウェア解析技術をルールとして用いて可能な選択肢を生成し、その中から機械学習の予測により選択を行うという、既存のアプローチとは異なる機械学習を導入したソフトウェア解析技術を提案する。
|
Outline of Annual Research Achievements |
ここ数年、生成AI、特に大規模言語モデル(LLM)が目覚ましい発展を遂げている。その進化はソフトウェア開発や保守の分野にも影響している。ソースコードの生成や翻案(例えばCOBOLからJavaへの書き換え)では大きな生産性の向上をもたらしている。しかしながら、現状のLLMはソフトウェア開発や保守のあらゆる業務に対応できているわけではなく、特に、不具合の特定や設計の変更といった業務においては、その効果は限定的なものである。 本研究提案では、研究提案期間中に発生したこのLLMの急速な発展に対応するべく、提案時点から内容を一部変更し、LLMと従来のソフトウェア工学の手法のアルゴリズムを組み合わせる方法を探っている。特に2023年度は生成AIがソフトウェアプロダクトの品質評価や、ソフトウェアプロダクトの生成をどの程度可能であるか、あるいは、ソースコードの生成に追いて、どのような得手・不得手があるかを調べることを中心として、研究を進めていった。 具体的には、C言語のソースコードを対象とした品質評価のひとつである、MISRAガイドラインへの準拠をLLMにより判定する手法を開発して実験と研究発表を行った。また、大学の授業の課題を題材として、LLMが仕様からソースコードの生成する際の得手・不得手について実験的な評価と研究発表を行った。 これらの実験を通して、LLMのコンテキスト長が、LLMをソフトウェア開発や保守に応用する際の課題の一つであることを突き止めるとともに、そのような制限を回避する技術の一つであるRAG(検索拡張生成)の手法の研究及び開発を行った。 2024年度はこれにかかる成果を発表する予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
生成AIやLLMの発展により、当初の研究計画の大幅な修正が必要になったため、そのための手法の開発に時間を費やしていることが遅延の大きな原因である。ただし、生成AIの「柔軟に様々な問題に対応できるが間違いを含むことがある」解析と、従来のソフトウェア工学の分野の「予めアルゴリズムが定義できている問題にしか対応できないが信頼できる出力を行う」解析を組み合わせるという方針は堅持されており、全体としては進捗している。 2022年度よりは軽減されたが、学科の人員(特に教授職)の逼迫による高負担が続いていることも遅延のひとつの原因である。
|
Strategy for Future Research Activity |
生成AI、特にLLMの大きな制約の一つがコンテキスト長であることが特定できたため、これを補うことができるような手法を探る。 (その成果の一部である、検索拡張生成(RAG)によるソースコードへの問い合わせを行う手法については、2024年5月に研究会発表を行った。)
|
Report
(2 results)
Research Products
(5 results)