Как распознать текст на английском, напи­санный ChatGPT: 11 признаков

4
Аватар автора

Юлия Скопич

написала этот текст сама

Страница автора

Языковые модели постоянно развиваются, и отличить авторский текст от сгенерированного становится все сложнее. Но есть несколько признаков, по которым еще можно распознать материал, написанный нейросетью. Рассмотрели их на примере английских текстов: ИИ-материалы на этом языке исследованы лучше, чем на русском.

Длинные и сложные слова

Человек, как правило, руководствуется принципом «чем проще, тем лучше». ChatGPT использует более сложную лексику — например, waitstaff вместо waiter, knowledgeable вместо informed

Мало связующих слов

К ним относятся, например, however, but, although, because, if, that, or, when, as. Люди используют союзы и вводные слова, чтобы показать логические связи между предложениями, сделать текст плавнее.

Нейросеть обычно ими пренебрегает и выделяет каждую мысль в абзац в том числе за счет списков

Минимум модальных глаголов

ChatGPT реже, чем человек, использует глаголы will, would, might, could. Исключение — модальный глагол can. Нейросеть часто полагается на шаблонные фразы вроде I can provide you with the table

Обилие отглагольных существительных

Нейросети активно используют слова, образованные от глаголов и прилагательных. Так текст становится абстрактнее.

Отглагольные существительные обычно заканчиваются на -ion, -ment и -ance: donation, commitment, appliance. Например, вместо глагола announce предпочитают существительное announcement

Избегание устойчивых словосочетаний

Нейросеть скорее использует простое be sick, тогда как человек с большей вероятностью предпочтет фразеологизм under the weather с тем же значением — «нездоровится». В текстах, созданных людьми, идиомы встречаются чаще

Одинаковая длина предложений

Как правило, предложения в ИИ-текстах одинаковой длины. В сгенерированных материалах редко встречаются фразы короче 10 и длиннее 35 слов.

Также нейросети реже чередуют короткие и длинные предложения

Обилие повторов

В нейротекстах одни и те же слова и словосочетания встречаются чаще, чем в авторских. Чтобы избегать лексических повторов, люди используют синонимы и местоимения

Безоценочность

Человек может использовать конструкции вроде I think или как-то иначе выражать отношение к тому, о чем говорит. Нейросети же не способны выражать мнение — оценочных суждений в ИИ-текстах нет

Особенности пунктуации

Люди чаще, чем компьютер, используют вопросительные знаки, круглые скобки, точки с запятой, двоеточия.

Нейросеть чаще ставит одинарные кавычки и делает это даже там, где нужны двойные, например в цитатах. А насчет обилия тире в нейротекстах даже идет большая дискуссия

Много придаточных или причастий

Нейросети предпочитают причастия настоящего времени вроде dreaming и придаточные предложения с that: that she keeps dreaming of dancing on world stages. Также в ИИ-текстах больше оборотов с with: productivity increased, with the team working remotely. Так текст становится более формальным и сложным по сравнению с человеческим

Строгий порядок слов

В текстах для обучения прямой порядок слов встречается чаще, поэтому ИИ выстраивает предложения по одной схеме: подлежащее, сказуемое, дополнение.

Нейросеть скорее напишет I know this girl, and we were neighbours. В авторских текстах порядок вариативнее: например, есть предложения без глаголов

Как упростить жизнь с помощью нейросетей

Рассказываем в курсе Учебника Т⁠—⁠Ж. Там даем универсальные навыки, которые не устареют: как писать запросы, искать информацию и анализировать данные

Некоторые сайты недоступны в РФ

В каких случаях пригодятся нейросети:

Юлия СкопичКак вы определяете, что текст сгенерирован нейросетью?
    Сообщество