ШІ все ще має труднощі з виправленням помилок у програмному забезпеченні — дослідження Microsoft


ШІ все ще має труднощі з виправленням помилок у програмному забезпеченні — дослідження Microsoft

Незважаючи на стрімкий розвиток штучного інтелекту (ШІ) у сфері програмування, нове дослідження Microsoft Research показало, що сучасні моделі ШІ все ще не здатні ефективно виправляти помилки в коді. Це дослідження, опубліковане 10 квітня 2025 року, підкреслює обмеження навіть найсучасніших моделей, таких як Claude 3.7 Sonnet від Anthropic та o3-mini від OpenAI, у вирішенні завдань з налагодження програмного забезпечення.

Результати дослідження Microsoft

У рамках дослідження було протестовано дев’ять різних моделей ШІ, які використовувалися як основа для “агента на основі одного запиту” з доступом до різних інструментів налагодження, включаючи відлагоджувач Python. Цей агент мав вирішити 300 завдань з налагодження програмного забезпечення з набору SWE-bench Lite.

Результати виявилися невтішними: навіть найкращі моделі рідко успішно виконували більше половини завдань. Claude 3.7 Sonnet показала найвищий середній рівень успішності — 48,4%, за нею слідували o1 від OpenAI (30,2%) та o3-mini (22,1%).

Причини низької ефективності

Дослідники вказують на кілька причин такого результату. По-перше, деякі моделі мали труднощі з використанням доступних інструментів налагодження та розумінням того, як різні інструменти можуть допомогти у вирішенні конкретних проблем.

По-друге, більш суттєвою проблемою є нестача даних, що представляють “послідовні процеси прийняття рішень”, тобто сліди налагодження, які відображають, як людина взаємодіє з відлагоджувачем для збору необхідної інформації перед пропозицією виправлення помилки.

“Ми твердо віримо, що навчання або донавчання моделей може зробити їх кращими інтерактивними налагоджувачами”, — зазначають автори дослідження. “Однак для цього потрібно спеціалізовані дані, наприклад, дані траєкторій, які фіксують взаємодію агентів з відлагоджувачем для збору необхідної інформації перед пропозицією виправлення помилки.”

Висновки та перспективи

Це дослідження підкреслює, що, незважаючи на значні досягнення у сфері ШІ, моделі все ще мають обмеження у вирішенні складних завдань, таких як налагодження програмного забезпечення. Для подолання цих обмежень необхідно зосередитися на збиранні та використанні спеціалізованих даних, які відображають реальні процеси налагодження, а також на вдосконаленні моделей для кращого розуміння логіки програмування та ефективного використання інструментів налагодження.