アルゴリズム×機械学習によるソフトウェア解析

研究課題

研究課題/領域番号	22K11975
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分60050:ソフトウェア関連
研究機関	島根大学
研究代表者	神谷年洋島根大学, 学術研究院理工学系, 教授 (70415660)
研究期間 (年度)	2022-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	3,250千円 (直接経費: 2,500千円、間接経費: 750千円) 2025年度: 130千円 (直接経費: 100千円、間接経費: 30千円) 2024年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2023年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2022年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
キーワード	ソフトウェア工学 / 生成AI / ソフトウェア開発 / ソフトウェア保守 / プログラム理解 / ソフトウェア解析 / 機械学習 / 情報検索 / 保守 / プログラム解析
研究開始時の研究の概要	コンピュータのソフトウェアはいわゆる自然言語とは異なる表現構造や意味論を持っている。既存の研究には、機械学習の分野で発達してきた自然言語処理、時系列データ、画像処理、あるいはそれらを組み合わせたマルチモーダルな技術をほぼそのままソフトウェアに適用しようとするアプローチが多い。本提案では、従来のソフトウェア解析技術をルールとして用いて可能な選択肢を生成し、その中から機械学習の予測により選択を行うという、既存のアプローチとは異なる機械学習を導入したソフトウェア解析技術を提案する。
研究実績の概要	ここ数年、生成AI、特に大規模言語モデル（LLM）が目覚ましい発展を遂げている。その進化はソフトウェア開発や保守の分野にも影響している。ソースコードの生成や翻案（例えばCOBOLからJavaへの書き換え）では大きな生産性の向上をもたらしている。しかしながら、現状のLLMはソフトウェア開発や保守のあらゆる業務に対応できているわけではなく、特に、不具合の特定や設計の変更といった業務においては、その効果は限定的なものである。本研究提案では、研究提案期間中に発生したこのLLMの急速な発展に対応するべく、提案時点から内容を一部変更し、LLMと従来のソフトウェア工学の手法のアルゴリズムを組み合わせる方法を探っている。特に2023年度は生成AIがソフトウェアプロダクトの品質評価や、ソフトウェアプロダクトの生成をどの程度可能であるか、あるいは、ソースコードの生成に追いて、どのような得手・不得手があるかを調べることを中心として、研究を進めていった。具体的には、C言語のソースコードを対象とした品質評価のひとつである、MISRAガイドラインへの準拠をLLMにより判定する手法を開発して実験と研究発表を行った。また、大学の授業の課題を題材として、LLMが仕様からソースコードの生成する際の得手・不得手について実験的な評価と研究発表を行った。これらの実験を通して、LLMのコンテキスト長が、LLMをソフトウェア開発や保守に応用する際の課題の一つであることを突き止めるとともに、そのような制限を回避する技術の一つであるRAG（検索拡張生成）の手法の研究及び開発を行った。 2024年度はこれにかかる成果を発表する予定である。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由生成AIやLLMの発展により、当初の研究計画の大幅な修正が必要になったため、そのための手法の開発に時間を費やしていることが遅延の大きな原因である。ただし、生成AIの「柔軟に様々な問題に対応できるが間違いを含むことがある」解析と、従来のソフトウェア工学の分野の「予めアルゴリズムが定義できている問題にしか対応できないが信頼できる出力を行う」解析を組み合わせるという方針は堅持されており、全体としては進捗している。 2022年度よりは軽減されたが、学科の人員（特に教授職）の逼迫による高負担が続いていることも遅延のひとつの原因である。
今後の研究の推進方策	生成AI、特にLLMの大きな制約の一つがコンテキスト長であることが特定できたため、これを補うことができるような手法を探る。（その成果の一部である、検索拡張生成（RAG）によるソースコードへの問い合わせを行う手法については、2024年5月に研究会発表を行った。)

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(5件)

すべて 2023 2022

すべて雑誌論文 (1件) 学会発表 (4件)

[雑誌論文] オープンソースのソフトウェア開発のすゝめ2023
- 著者名/発表者名
  神谷年洋
- 雑誌名
  
  コンピュータソフトウェア
  
  巻: 40 号: 2 ページ: 2_82-2_83
- DOI
  10.11309/jssst.40.2_82
- ISSN
  0289-6540
- 年月日
  2023-04-21
- 関連する報告書
  2023 実施状況報告書
[学会発表] 大規模言語モデルVicuna-13Bを用いたMISRA C:2012のガイドライン違反箇所検出の実験的評価2023
- 著者名/発表者名
  藤江克彦
- 学会等名
  電子情報通信学会ソフトウェアサイエンス研究会
- 関連する報告書
  2023 実施状況報告書
[学会発表] ChatGPTによるプログラミング授業の課題の解答生成の評価2023
- 著者名/発表者名
  神谷年洋
- 学会等名
  電子情報通信学会ソフトウェアサイエンス研究会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 成果物の構造を考慮したテキスト埋め込みによるトレーサビリティリンク回復手法の提案2023
- 著者名/発表者名
  神谷年洋
- 学会等名
  電子情報通信学会知能ソフトウェア工学研究会
- 関連する報告書
  2023 実施状況報告書
[学会発表] SCDVモデルを利用する技術用語に対応した自然言語文書検索の提案2022
- 著者名/発表者名
  辻優太郎
- 学会等名
  日本ソフトウェア科学会 FOSE2022
- 関連する報告書
  2022 実施状況報告書

アルゴリズム×機械学習によるソフトウェア解析

研究代表者

神谷 年洋 島根大学, 学術研究院理工学系, 教授 (70415660)

3,250千円 (直接経費: 2,500千円、間接経費: 750千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] オープンソースのソフトウェア開発のすゝめ2023

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[学会発表] 大規模言語モデルVicuna-13Bを用いたMISRA C:2012のガイドライン違反箇所検出の実験的評価2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] ChatGPTによるプログラミング授業の課題の解答生成の評価2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 成果物の構造を考慮したテキスト埋め込みによるトレーサビリティリンク回復手法の提案2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] SCDVモデルを利用する技術用語に対応した自然言語文書検索の提案2022

著者名/発表者名

学会等名

関連する報告書

神谷年洋島根大学, 学術研究院理工学系, 教授 (70415660)