Как распознать текст на английском, написанный ChatGPT: 11 признаков

Юлия Скопич

написала этот текст сама

Страница автора

Языковые модели постоянно развиваются, и отличить авторский текст от сгенерированного становится все сложнее. Но есть несколько признаков, по которым еще можно распознать материал, написанный нейросетью. Рассмотрели их на примере английских текстов: ИИ-материалы на этом языке исследованы лучше, чем на русском.

Длинные и сложные слова

Человек, как правило, руководствуется принципом «чем проще, тем лучше». ChatGPT использует более сложную лексику — например, waitstaff вместо waiter, knowledgeable вместо informed

Мало связующих слов

К ним относятся, например, however, but, although, because, if, that, or, when, as. Люди используют союзы и вводные слова, чтобы показать логические связи между предложениями, сделать текст плавнее.

Нейросеть обычно ими пренебрегает и выделяет каждую мысль в абзац в том числе за счет списков

Как распознать нейротекст

Минимум модальных глаголов

ChatGPT реже, чем человек, использует глаголы will, would, might, could. Исключение — модальный глагол can. Нейросеть часто полагается на шаблонные фразы вроде I can provide you with the table

Обилие отглагольных существительных

Нейросети активно используют слова, образованные от глаголов и прилагательных. Так текст становится абстрактнее.

Отглагольные существительные обычно заканчиваются на -ion, -ment и -ance: donation, commitment, appliance. Например, вместо глагола announce предпочитают существительное announcement

Избегание устойчивых словосочетаний

Нейросеть скорее использует простое be sick, тогда как человек с большей вероятностью предпочтет фразеологизм under the weather с тем же значением — «нездоровится». В текстах, созданных людьми, идиомы встречаются чаще

Как выучить английский

Одинаковая длина предложений

Как правило, предложения в ИИ-текстах одинаковой длины. В сгенерированных материалах редко встречаются фразы короче 10 и длиннее 35 слов.

Также нейросети реже чередуют короткие и длинные предложения

Обилие повторов

В нейротекстах одни и те же слова и словосочетания встречаются чаще, чем в авторских. Чтобы избегать лексических повторов, люди используют синонимы и местоимения

Безоценочность

Человек может использовать конструкции вроде I think или как-то иначе выражать отношение к тому, о чем говорит. Нейросети же не способны выражать мнение — оценочных суждений в ИИ-текстах нет

Особенности пунктуации

Люди чаще, чем компьютер, используют вопросительные знаки, круглые скобки, точки с запятой, двоеточия.

Нейросеть чаще ставит одинарные кавычки и делает это даже там, где нужны двойные, например в цитатах. А насчет обилия тире в нейротекстах даже идет большая дискуссия

Текстовые задачи для ИИ

Много придаточных или причастий

Нейросети предпочитают причастия настоящего времени вроде dreaming и придаточные предложения с that: that she keeps dreaming of dancing on world stages. Также в ИИ-текстах больше оборотов с with: productivity increased, with the team working remotely. Так текст становится более формальным и сложным по сравнению с человеческим