6 простых задач, с которыми ChatGPT все еще не справляется

Зато дети и «Эксель» решают их без проблем

Катя Лебедева

задает задачки

Страница автора

ChatGPT пишет дипломы и находит доказательства для задач Эрдеша — открытых вопросов математики.

Значит ли это, что чат-бот умнее обычного человека? Возможно — если не пытаться выполнять с ним задания для дошкольников.

Я задала стандартной бесплатной версии ChatGPT вопросы, с которыми справляются дети. Оказалось, что нейросеть может решить не все из них.

Некоторые ссылки в статье недоступны из РФ

Задача № 1

Расставить слова в алфавитном порядке

ChatGPT понимает русский язык, знает, что такое алфавит и сортировка, так что проблем с тем, чтобы расставить слова по алфавиту, быть не должно. Но они возникли: нейросеть учитывала первую и вторую буквы слова, а на третьей уже сбивалась. В каких-то случаях ставила слова верно, например «родилась», «росла». А в каких-то нет: перепутала местами «летом» и «лесу».

Электронные таблицы и дети восьми-девяти лет с этим справляются без особых проблем.

Задача № 2

Решить логическую задачку

Я задала ChatGPT классическую задачу про волка, козу и капусту, но заменила персонажей на кошку, собаку и морскую свинку. Я хотела, чтобы модель не взяла готовое решение из интернета или базы своих знаний, а попыталась найти его сама.

Нейросеть сразу поняла, что я замаскировала задачу, отметив, что она классическая. Казалось бы, на этом эксперимент и должен был закончиться. Первые три шага в решении верные: все благополучно переправлены через реку или дорогу. Но потом модель запуталась в собственных рассуждениях на четвертом шаге.

Хозяин взял морскую свинку и понес обратно, при этом остался с собакой и кошкой. По логике он не может быть в двух местах одновременно, а по условиям не может оставить кошку с собакой.

Задача № 3

Найти путь в лабиринте

Обычное задание для детей от трех до пяти лет: найти путь от входа в лабиринт до выхода. Соединить зайчика с морковкой или, как в моем примере, фрукт с соответствующей коробкой. Проходы относительно широкие, лабиринт небольшой — задание несложное для ребенка. Но непростое для нейросети.

ChatGPT поняла, что от нее требуется, и знает, как должен выглядеть результат. При этом она умеет рисовать фотореалистичные изображения с высокой детализацией. А аккуратно провести линию, соблюдая правила лабиринта, не смогла. Точно так же чат-бот не смог соединить животных с их силуэтами.

Задача № 4

Выбирать слова по инструкции

Я по-разному формулировала один и тот же запрос: просила нейросеть написать текст, выполняя какое-нибудь условие. Например, написать абзац про зимний пейзаж, не используя слова с буквой А.

ChatGPT c удивительной изобретательностью каждый раз выдавала неверный ответ: «тишин» вместо «тишина», «фонорей» вместо «фонарей». А предлог «за» вообще всегда игнорировала.

Задача № 5

Складывать и вычитать дроби

Языковые модели плохо работают с десятичными дробями, если количество знаков после запятой разное. Нейросети не понимают, что 5,9 — это то же самое, что 5,90. Из-за этого им видится, что 5,11 > 5,9.

Это приводит к ошибкам даже в элементарных вычислениях. Я попросила ChatGPT решить простое уравнение в такой же логике: x + 5,11 = 5,9. Правильный ответ: 5,90 − 5,11 = 0,79. Но нейросеть ответила −0,21. Модель провела вычисление в неправильном порядке, поскольку не поняла, что 5,9 > 5,11.

Задача № 6

Сосчитать предметы на картинке

Большинство чат-ботов работает на мультимодальных моделях: они понимают запросы, в которых есть и тексты, и картинки, и голосовые сообщения. Но читают их они все еще не всегда достоверно.

Я попросила ChatGPT посчитать овец на детской картинке, где были нарисованы разные животные. Причем если некоторые свиньи и коровы спрятаны за деревьями или сараем, то овцы — на виду. Чат-бот в принципе умеет распознавать объекты на картинках, но легко ошибается, когда слишком много переменных. В итоге он насчитал больше овец, чем было на самом деле.

Почему нейросети ошибаются в простых задачах

Большие языковые модели обучены не решать задачи как человек, а предсказывать следующий фрагмент текста. Поэтому детские задания могут оказаться им не под силу: их учили совсем по-другому. Вот основные причины их ошибок.

🧩 Нейросети по-другому воспринимают слова. Модель видит текст не как буквы и цифры, а как токены — фрагменты слов и символов. Поэтому в задачах вроде «посчитай количество букв» или «выпиши слова из трех букв» она пытается извлечь символы из того, что изначально хранится в другом формате.

По этой же причине нейросети сложно складывать и вычитать десятичные дроби, если ее учили работать с токенами текста. Она разбивает число 5,11 на токены 5 и 11, а 5,9 — на 5 и 9. И работает с ними по отдельности.

🖍️ Картинки неточно генерируются. Здесь ситуация почти как с текстом: модель угадывает, как должен выглядеть ответ в целом. Например, что на исходное изображение надо добавить несколько линий, когда мы просим соединить предметы. Но для нее это скорее расплывчатая задача на композицию: на картинке должны быть такие-то объекты и где-то между ними — линия или несколько.

🤪 Галлюцинации. Нейросеть стремится выдать максимально уверенный и гладкий ответ. Когда она чего-то не знает, в том числе метода решения задачи, она выдает правдоподобную догадку — и обычно не предупреждает об этом. Например, если модель не уверена в разбиении слова на буквы, она выдает какую-то примерную оценку за ответ.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

ChatGPT интернет нейросети