OpenAI представила новий ChatGPT Agent для автоматизації завдань

Компанія OpenAI представила нову функцію ChatGPT Agent, що дозволяє штучному інтелекту виконувати багатоступеневі завдання, контролюючи свій власний веб-браузер. Це сталося у четвер, і тепер користувачі можуть доручити Agent такі завдання, як створення презентацій у PowerPoint, планування меню або оновлення фінансових таблиць.

Ця функція об’єднує можливості попереднього інструменту Operator та функції Deep Research, надаючи ChatGPT змогу навігувати сайтами, запускати код та створювати документи, при цьому користувачі залишаються в курсі всіх дій.

ChatGPT Agent відноситься до категорії “агентного ШІ” — систем, що можуть виконувати автономні дії від імені користувача. Наприклад, Agent може зібрати та купити одяг для конкретної події. Для цього система використовує комбінацію веб-браузерів, доступу до терміналів та API-з’єднань, а також інтеграцію з такими додатками, як Gmail та GitHub.

Користувачі можуть спостерігати за діями Agent у вікні, яке показує всі дії штучного інтелекту у власному “пісочниці”. Ця “пісочниця” має віртуальну операційну систему та доступ до Інтернету, але не контролює особистий пристрій користувача. OpenAI запевняє, що ChatGPT виконує ці завдання, плавно переходячи між розумовими діями та виконанням, керуючись інструкціями користувача.

Перед виконанням деяких дій, що можуть мати реальні наслідки, Agent вимагає дозволу користувача. Користувачі можуть у будь-який момент перервати завдання або взяти під контроль браузер. Система також включає режим “Спостереження” для завдань, що потребують активного контролю з боку користувача.

Попри обіцянки OpenAI, наскільки ефективно новий агент виконуватиме складні завдання, залежить від конкретних обставин. Модель ШІ не є повноцінним інтелектом, а радше складним імітатором, що може стикатися з труднощами у виконанні завдань, які виходять за межі навчальних прикладів.