Новости
18K

OpenAI выпустила ИИ⁠-⁠агента Operator для ChatGPT — он выпол­няет задачи в интернете за чело­века

33
OpenAI выпустила ИИ⁠-⁠агента Operator для ChatGPT — он выпол­няет задачи в интернете за чело­века
Аватар автора

Евгений Кузьмин

написал новость сам

Страница автора

23 января OpenAI представила собственного ИИ-агента: Operator по просьбе пользователя пишет посты, делает заказы и бронирует отели.

Это персональный помощник, который умеет не только находить ответы в интернете, но и выполнять там задачи. Используя встроенный браузер, Operator может переходить на сайты и взаимодействовать с ними: скроллить, кликать, печатать, нажимать на кнопки.

Функцию уже запустили для обладателей Pro-подписки  в США. В OpenAI подчеркивают, что это еще не финальная версия, а «исследовательское превью».

ИИ-агенты — новая ступень развития нейросетей, такие сервисы уже представили Google и ByteDance, компания-владелец TikTok. Ключевая особенность ИИ-агентов в автономности и возможности совершать действия без участия человека. Пользователь только дает задачу, а все остальное ИИ берет на себя. Некоторые агенты уже умеют так управлять компьютером. Operator ограничен задачами в браузере: заполнить форму, написать пост в блог и сразу отправить его, заказать нужные продукты с доставкой на дом.

Как отличается выполнение одной и той же задачи в ChatGPT и Operator

Допустим, вы хотите приготовить борщ. Вот как отличается постановка задачи и роль нейросети в ее выполнении. В примере приведена идеальная ситуация — пока у Operator все еще есть ограничения, где промежуточные шаги подтверждает человек.

ChatGPT. Формулируем задачу: «Расскажи, какие ингредиенты нужны, чтобы приготовить борщ, и где их купить». После чего сами заходим в сервис доставки продуктов, выбираем нужные ингредиенты, заказываем, готовим.

Operator. Формулируем задачу: «Закажи на дом продукты для борща к 15:00 на Amazon». Нейросеть ищет, какие ингредиенты нужны для борща, затем складывает их в корзину, заказывает. Человеку остается принять заказ и приготовить.

Operator использует модель Computer-Using Agent на базе GPT-4o, чтобы «разглядывать» сайты через скриншоты и анализировать их. Все свои действия ИИ-агент записывает в логи, которые можно посмотреть в специальной панели сервиса. В любой момент можно перехватить управление и поправить действия нейросети либо вообще отказаться от ее помощи.

Также Operator иногда сам просит пользователя помочь с определенными действиями: подтвердить платеж, авторизоваться на сайте, пройти капчу. В некоторых случаях человек еще нужен для финального подтверждения всей операции: например, на всякий случай вычитать письмо коллеге перед отправкой.

Как выглядит работа в Operator: слева просьба запланировать поездку в национальный парк Йосемити. Ниже — логи действий Operator. Справа — браузер, где нейросеть сама ищет места для ночлега. Источник: OpenAI
Как выглядит работа в Operator: слева просьба запланировать поездку в национальный парк Йосемити. Ниже — логи действий Operator. Справа — браузер, где нейросеть сама ищет места для ночлега. Источник: OpenAI

Когда пользователь перехватывает управление, Operator не записывает действия человека. Это необходимо для конфиденциальности, чтобы OpenAI не получала связки логин-пароль или данные банковской карты. От некоторых «чувствительных» задач ИИ-агент может отказаться. Например, если решит, что нейросеть используют для незаконных действий, спама или буллинга.

В OpenAI подчеркнули, что Operator может ошибаться из-за запуска на ранней стадии. Например, ИИ-агент испытывает трудности при выполнении комплексных задач: не сможет с нуля подготовить презентацию или распланировать все расписание в календаре. Но нейросеть уже подходит для рутинных «повторяющихся» задач в интернете. Для некоторых из них, например бронирования отелей или заказа еды, OpenAI подготовила пресеты промптов. Компания объявила о сотрудничестве с DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack и Uber.

В планах OpenAI запуск в 2025 году новых агентов, а Operator планируют включить в базовую подписку ChatGPT Plus за 20 $⁣ (1997 ₽) в месяц.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

Вот что еще мы писали по этой теме