Как пользоваться нейросетью Google Gemini и получить к ней доступ в России
Нейросети
53K
Сгенерированное изображение — Аннет Сухарева / Gemini

Как пользоваться нейросетью Google Gemini и получить к ней доступ в России

Разбираемся, зачем переименовали Google Bard и что изменилось
11
Аватар автора

Аннет Сухарева

Страница автора

В феврале сервис Bard от Google переименовали в Gemini. Вместе с ребрендингом в нейросеть добавили новые функции.

Gemini работает и выглядит как ChatGPT. Только у бесплатной версии чат-бота от Google есть доступ к интернету и возможность создавать картинки. Нейросеть может отвечать на вопросы, писать код, распознавать изображения, помогать с контентом и многое другое.

Существуют три модели Gemini, которые доступны широкой публике. Доступ к ним и их возможности немного различаются. Расскажу, как пользоваться разными версиями чат-бота из России и что они умеют.

Какие версии Gemini существуют

Всего доступно три версии Gemini: бесплатные 1.0 Pro и 1.5 Pro, а также 1.0 Ultra по платной подписке.

😌 Для повседневных задач — Gemini 1.0 Pro. На ее основе работает чат-бот Gemini, ранее известный как Bard. Он может написать инструкцию по рисованию акварелью, объяснить суть теории относительности, сгенерировать пост для соцсетей с рецептами шоколадных десертов, дать определение когнитивной нейронауке, помочь с кодом, сценарием для видео или планом для статьи.

В начале февраля 2024 года пользователям стала доступна функция генерации изображений.

🤑 Платный апгрейд — Gemini 1.0 Ultra. Может то же самое, что и Gemini 1.0 Pro, но еще лучше — по крайней мере, так говорят в Google. На этой модели работает платный чат-бот Gemini Advanced. Он должен гораздо лучше справляться со сложными запросами: писать код, рассуждать, выполнять детальные инструкции и помогать в креативных задачах.

🤯 Взгляд в будущее — Gemini 1.5 Pro. 15 февраля Google анонсировал ограниченный предварительный просмотр этой модели через AI Studio. Gemini 1.5 Pro способна обрабатывать до миллиона токенов  . Это значительно больше, чем у ChatGPT с контекстным окном в 128 тысяч токенов. То есть, например, Gemini Pro 1.5 может распознать час видео, 11 часов аудио, более 30 тысяч строк кода и свыше 700 тысяч слов.

Если загрузить в чат 44-минутный немой фильм Бастера Китона, модель может проанализировать сюжет и поддержать беседу о мелких деталях. Например, нейросеть нашла момент, где у героя из кармана вынимают лист бумаги, и определила, что на нем написано: это залоговый билет с суммой и датой.

При этом Gemini Pro 1.5 не может генерировать картинки и не имеет доступа к интернету.

Нейросеть указала на таймкод из фильма и привела текст с бумаги. Источник: ютуб⁠-⁠канал Google
Нейросеть указала на таймкод из фильма и привела текст с бумаги. Источник: ютуб⁠-⁠канал Google

Как получить доступ к разным версиям Gemini в России

Всеми моделями Google Gemini можно пользоваться из России. Различаются только нюансы, связанные с доступом. Расскажу про них подробнее.

Gemini 1.0 Pro бесплатная, работает на официальном сайте Gemini. Для использования чат-бота нужно войти в гугл-аккаунт. Российский тоже подойдет, не нужно менять регион или создавать новый профиль.

Нейросеть также доступна в приложении Google для iOS. Чтобы перейти к Gemini, на главном экране нажмите на иконку с синей звездой — откроется чат с ботом. Будьте внимательны: отдельного приложения Gemini на iOS нет. Но в App Store множество сервисов с таким же названием выдают себя за нейросеть.

Для «Андроида» есть отдельное приложение Gemini. В российском магазине оно недоступно, так что для скачивания придется поменять регион. О том, как это сделать, читайте в нашем гайде по смартфонам на Android.

Сервис официально работает в 180 странах, среди которых нет России, поэтому в обоих случаях — через сайт или приложение — нужно заходить с иностранным IP-адресом. Иначе появится заглушка с надписью «Gemini пока не поддерживается в вашей стране. Мы сообщим, когда это изменится».

Gemini 1.0 Ultra доступна платно на официальном сайте Gemini. Тоже потребуется вход через гугл-аккаунт и с иностранного IP-адреса.

Подписка стоит 20 $⁣ (1858 ₽) в месяц, но можно воспользоваться двухмесячным бесплатным тестовым периодом. Для этого потребуется привязать банковскую карту зарубежного банка. Когда тестовый период подойдет к концу, с вашей карты спишут стоимость подписки за следующий месяц.

Gemini 1.5 Pro доступна бесплатно, но не на основном сайте Gemini, а в Google AI Studio, где компания тестирует новые нейросетевые продукты. На сайт нужно заходить с иностранным IP-адресом. Для входа понадобится гугл-аккаунт, можно использовать российский. Желательно в настройках профиля поменять язык на английский, чтобы точно все сработало.

Как Gemini работает с текстом и поиском в сравнении с Bard

В феврале 2024 года Google переименовал чат-бота Bard в Gemini. Ребрендинг объяснили тем, что компания выстраивает экосистему вокруг нейросети Gemini, и отдельное название для сервиса не нужно.

Основные функции и интерфейс чат-бота не изменились со времен Bard. Нейросеть все так же отвечает на русском языке, распознает контекст, запоминает детали разговора, выходит в интернет. Количество диалогов и запросов в сутки не ограничено.

Чат с помощником и подсказки находятся справа, все чаты с нейросетью хранятся слева. Интерфейс переведен на русский язык по умолчанию, если ваш гугл-аккаунт привязан к российскому региону и языку.

При этом добавились новые возможности. На этих функциях остановлюсь подробнее и расскажу, что вообще может Gemini.

Главный экран Gemini
Главный экран Gemini

Генерировать тексты. Нейросеть отвечает на простые вопросы и объясняет сложные термины на уровне бесплатной версии ChatGPT. У Gemini также есть доступ к актуальной информации, поэтому она может выходить в интернет и давать ссылки на источники.

Сохраняются недостатки времен Bard. Нейросеть периодически галлюцинирует, отказывается отвечать на вопросы без видимой причины, не всегда дает ссылки. Добавился и еще один: в случайные моменты Gemini предлагает купить подписку, что раздражает.

Илону Маску действительно 52 года
Достаточно подробно описал, что такое квантовое бессмертие
Достаточно подробно описал, что такое квантовое бессмертие
Не очень хочется покупать подписку после такого

💻 Google в пресс-релизах подчеркивает, что Gemini хорошо помогает с программированием: знает разные языки, умеет искать баги и объяснять ошибки. Я сгенерировала HTML-код простой страницы.

Нейросеть справилась и дала пояснения к каждому параметру. Но результат получился немного кривым — текст вышел за поля.

Код работает, но текст вышел за границы
Код работает, но текст вышел за границы
Код работает, но текст вышел за границы

🎓 В Google также предлагают использовать нейросеть для самообразования. Я попросила объяснить разницу между временами в английском языке Past Perfect и Past Perfect Continuous. Gemini подробно рассказала правило, привела примеры и даже нарисовала табличку, которую можно скопировать себе в гугл-документ.

При желании в этом же чате попросите нейросеть сгенерировать задания по пройденному материалу, чтобы лучше их усвоить.

Выглядит как глава из учебника
Выглядит как глава из учебника

🍔 Еще я проверила нейросеть на креативной задаче — попросила сгенерировать необычные идеи для кулинарного канала. Результаты сложно назвать особенно оригинальными: все предложенное уже встречалось мне в соцсетях.

Но для брейншторминга такой список неплох.

Полный кулинарный театр
Полный кулинарный театр

Кратко пересказывать. Gemini может прочитать текст по ссылке и проанализировать его. Со времен Bard функция стала работать лучше. Нейросеть действительно пытается пересказать текст, а не выдает случайные факты по теме и не отказывается выполнять задание вообще, как это было раньше.

Но до идеала еще далеко. Содержание статьи о восхождении на Эверест чат-бот пересказал очень обобщенно. В некоторых местах нейросеть оставила английские слова, из-за чего текст стал напоминать мем «Смотря какой fabric».

При этом Gemini не может пересказывать ролики по ссылкам, включая видео на «Ютубе», несмотря на то, что оба сервиса принадлежат Google. Нейросеть каждый раз генерирует галлюцинации, вообще не связанные с содержанием видео.

Пересказ есть, и по нему даже можно составить впечатление о тексте. Но поверхностное
Пересказ есть, и по нему даже можно составить впечатление о тексте. Но поверхностное

Распознавать изображения. Gemini может искать по картинкам в интернете и описывать фотографии, которые вы отправляете в чат. С простыми задачами справляется, а вот более специфические, например найти тигра на картинке с несколькими животными, ему не под силу.

Еще модель отказывается работать с изображениями людей. То есть взаимодействовать с фотографиями или даже рисунками, где есть любой человек — неважно, известный или нет, — с помощью нейросети невозможно.

Попросила найти фото лабрадора, чат⁠-⁠бот справился с задачей и выдал четыре картинки
Чат-бот описал картинку со львом
А вот задачку посложнее чат⁠-⁠бот уже не одолел: не смог найти льва на картинке с 23 животными на белом фоне. Хотя там целых три льва
Изображения с людьми чат⁠-⁠бот сразу забраковал и даже не стал разбираться, кто там. Пробовала задавать вопрос и на русском, и на английском языке — безуспешно

Как генерировать картинки в Gemini

Одно из главных преимуществ Gemini — бесплатный доступ к нейросетевому генератору изображений. В отличие от Midjourney, его не нужно оплачивать, а в отличие от Stable Diffusion — устанавливать на компьютер.

Генератор доступен в веб-интерфейсе чат-бота и понимает запросы на естественном языке. Это означает, что не нужно учиться писать промпты по сложным формулам. Просто просите нарисовать что-нибудь так, как попросили бы человека.

Как создать первую картинку. На первый взгляд непонятно, что Gemini умеет генерировать изображения, потому что на главном экране нет соответствующей подсказки. Если ввести запрос на русском, нейросеть ответит, что не может помочь, потому что пока не умеет создавать изображения. Но это неправда. Она поймет запрос, но только на английском языке.

Вы можете сформулировать запрос на русском, попросить нейросеть его перевести на английский и потом отправить этот же текст в чат. Если Gemini поняла ваш запрос, через несколько секунд она предложит одно или несколько изображений на выбор. От чего зависит количество — неизвестно.

Увидели такое сообщение — значит, нужно продублировать запрос на английском языке
А на английском генерирует сразу

У Gemini есть большое ограничение: она временно не может создавать изображения людей. Его ввели после того, как пользователи принялись генерировать исторических личностей, например отцов-основателей США, а нейросеть выдавала темнокожих людей. Это привело к обвинениям, что в Gemini вообще невозможно сгенерировать белых, даже когда это обусловлено контекстом.

В Google заявили, что настройка, гарантирующая разнообразие рас, не учла случаи, где это неуместно и даже оскорбительно. В конце февраля компания принесла извинения и объявила о временном отключении этой функции. Пока ее так и не вернули.

Как исправить картинку. Если результат не понравился, можно создать новые варианты с помощью кнопки «Сгенерировать еще». Нейросеть выдаст еще две картинки по тому же самому запросу. Нажимать на кнопку можно неограниченное количество раз — по крайней мере, после десяти перегенераций до лимита я не дошла.

А можно внести правки в уже сгенерированное изображение. Например, добавить на картинку инопланетян, а потом сделать их добрее. Чтобы исправить конкретный результат из всех сгенерированных, нужно указать, какая картинка по счету, и перечислить свои пожелания к ней.

Добавила на картинки инопланетян
Сделала персонажей не такими злыми

Gemini может создавать изображения в разных стилях, от магического фэнтези до уютных иллюстраций, как из детских сказок. Достаточно лишь указать это в начале запроса.

Выбрать можно не только стилистику, но и настроение, цветовую гамму, атмосферу картинки и так далее. Если теряетесь и не знаете, как описать это в запросе, читайте наш подробный гайд по промптингу в нейросетях для генерации картинок.

Стиль иллюстрации из детской книжки
Собака из фэнтези
Мультяшный пес
Собака в стиле комиксов

Как скачать результат. Чтобы загрузить полноразмерную картинку, нажмите на стрелочку в ее правом верхнем углу. Изображение размером 1536 × 1536 пикселей сохранится в формате JPEG.

Если нравятся все картинки, можно скачать их вместе. Для этого нажмите «Поделиться и экспортировать», а затем «Скачать все изображения» во всплывающем меню. В таком случае они сохранятся как zip-архив.

Скачать полноразмерные картинки по отдельности
Скачать в полном размере все изображения
Итоговые картинки от Gemini
Итоговые картинки от Gemini
Итоговые картинки от Gemini
Итоговые картинки от Gemini

Как сгенерировать картинку и текст одновременно. Нейросеть мультимодальна — то есть может обрабатывать текст и изображения в рамках одного запроса. Это означает, что Gemini можно попросить сочинить историю и сгенерировать иллюстрации к ней

Правда, такой запрос тоже придется писать на английском языке, потому что на русском нейросеть отказывается генерировать картинки.

История про мышонка Пипкина, сидящего на столе
Gemini успешно перевела историю на русский и сократила до двух абзацев

Что умеет Gemini Advanced и стоит ли за нее платить

Gemini Advanced — продвинутая версия Gemini, доступная по платной подписке и работающая на основе модели 1.0 Ultra. После покупки подписки чат автоматически изменит тему на черную, но в настройках можно вернуть белую. Переключаться между бесплатной и платной версиями можно с помощью кнопки Gemini / Gemini Advanced.

Я сравнила возможности двух моделей. Вот что умеет платная версия.

Генерировать тексты. В простых запросах качество ответов Gemini Advanced существенно не отличается от базовой версии. По одним и тем же запросам выдаются одинаковые ответы.

Google обещает, что разницу можно заметить при решении более сложных задач: составлении пошаговых инструкций, учебе, генерации креативных постов. Я сгенерировала HTML-код, объяснение правил английского языка и контент-план для кулинарного канала. Отличия от базовой версии Gemini есть, но они минимальные: Advanced просто рассказывает чуть подробнее.

Написал рабочий код, но форматирование уехало
Написал рабочий код, но форматирование уехало
Написал рабочий код, но форматирование уехало
Объяснил разницу чуть подробнее, чем чат⁠-⁠бот Gemini, и добавил ссылки на дополнительные ресурсы
Объяснил разницу чуть подробнее, чем чат⁠-⁠бот Gemini, и добавил ссылки на дополнительные ресурсы
Объяснил разницу чуть подробнее, чем чат⁠-⁠бот Gemini, и добавил ссылки на дополнительные ресурсы
Идеи для кулинарного канала почти такие же
Идеи для кулинарного канала почти такие же

Кратко пересказывать. Gemini Advanced немного лучше пересказал статью о восхождении на Эверест, чем базовая версия. При этом в самом начале модель немного сгаллюцинировала. Автор статьи не считает себя профессиональным спортсменом, а нейросеть заявила, что он им является.

В остальном краткий пересказ соответствует тексту и позволяет составить впечатление о содержании.

Пересказ не впечатлил
Пересказ не впечатлил

Распознавать изображения. Я попросила показать фото лабрадора, и в отличие от бесплатной версии, Gemini Advanced не только нашел фотографии, но и дал краткое описание породы.

Однако найти льва на фотографии с 23 животными на белом фоне эта версия нейросети тоже не смогла.

Не думаю, что это стоит 20 $ в месяц
Не думаю, что это стоит 20 $ в месяц

Генерировать картинки. Google нигде не заявляет, что при создании изображений в базовом и продвинутом Gemini есть разница. Я тоже ее не нашла. Картинки генерируются примерно одинаковые.

Скорее всего, обе версии используют одну и ту же модель. Поэтому, если Gemini вас интересует только как генератор изображений, покупать подписку точно не стоит.

Картинка с разноцветным львом — результат Gemini
Тот же самый запрос — результат Gemini Advanced

Что умеет Gemini 1.5 Pro

Gemini 1.5 Pro доступна бесплатно на сайте AI Studio. Она не может генерировать картинки и выходить в интернет, но зато умеет обрабатывать намного больший объем данных. Модель обучена на данных до начала 2023 года.

Интерфейс только на английском языке, но нейросеть понимает русский. Промпт можно ввести в поле Type Something, загрузить медиа — с помощью кнопки Image, Video, File или Folder.

Интерфейс AI Studio с последней версией Gemini
Интерфейс AI Studio с последней версией Gemini

Версия пока тестируется, поэтому у нее есть ограничение: история чатов не сохраняется. Чтобы начать новый диалог, нажмите Create New. Если вам нужны данные из диалога с нейросетью — сохраните их вручную.

Вот что может нейросеть Gemini 1.5 Pro.

Генерировать тексты. Я проверила «сложные» запросы, на которых тестировала Gemini Advanced: HTML-код, объяснение правил английского языка и составление контент-плана для кулинарного канала. Со всеми запросами Gemini 1.5 Pro справилась лучше.

Она отцентровала логотип в HTML-коде, подробно объяснила разницу между Past Perfect и Past Perfect Continuous и предложила чуть более креативные идеи для канала, хотя и все равно немного банальные.

Код и страница, которая отображается по нему. Ровно и красиво
Код и страница, которая отображается по нему. Ровно и красиво
Код и страница, которая отображается по нему. Ровно и красиво
Объяснение правила
Объяснение правила
Объяснение правила
Идеи для канала

Обрабатывать большой объем данных. Я загрузила в чат pdf-файл с книгой «Гарри Поттер и философский камень» и попросила нейросеть кратко пересказать ее. Модель выдала верный ответ на английском языке, я попросила перевести его на русский. Gemini 1.5 Pro также ответила без ошибок на два вопроса по содержанию книги.

Это существенное преимущество версии 1.5 Pro открывает большие возможности, которых нет у аналогов, — работа с большими документами. Например, быстро найти ответ на вопрос в докторской диссертации или часовом подкасте. Так не может даже платный ChatGPT.

Краткий пересказ первой книги о Гарри Поттере на английском
Краткий пересказ первой книги о Гарри Поттере на русском
Задала два вопроса по содержанию книги — один с подвохом. На оба нейросеть ответила правильно

Кратко пересказывать. Нейросеть не может переходить по ссылкам, но ей можно отправлять текстовые файлы. Я отправила PDF со статьей о восхождении на Эверест и наконец-то получила лучший вариант пересказа.

Вышло максимально близко к оригиналу и без явных галлюцинаций.

Еще один пересказ статьи
Еще один пересказ статьи

Распознавать изображения. В отличие от остальных версий, 1.5 Pro обрабатывает изображения с людьми. Она определила, что на фото изображена толпа, и добавила неочевидную деталь — что оно сделано на Октоберфесте в Мюнхене. Нейросеть также распознала кадр из фильма «Дюна».

Gemini 1.5 Pro лучше справилась с перечислением животных на картинке, чем базовая версия. Но все равно ошиблась на изображении, где нарисованы 23 разных зверя. Насчитала больше, чем на самом деле.

Определила обе картинки верно
На картинке с несколькими животными версия 1.5 Pro правильно перечислила всех
С задачкой посложнее 1.5 Pro справилась лучше версии 1.0 Pro, но все равно немного обсчиталась. Отмечу, что признавать свои ошибки она умеет

Что в итоге

  1. Gemini доступен бесплатно и на приемлемом уровне генерирует картинки и текст. На фоне платных или сложных в обращении конкурентов это хорошая и доступная мультимодальная нейросеть. Единственный очевидный минус — невозможность создавать картинки с людьми.
  2. Продвинутая версия Gemini Advanced работает ненамного лучше, чем ее бесплатный вариант. Очевидных причин покупать подписку нет. Но можно взять тестовый период, если очень хочется.
  3. Gemini 1.5 Pro доступна бесплатно и лучше остальных версий работает с текстом, кодом и распознаванием изображений. В ней можно обрабатывать целые книги или час видео. Такой возможности нет даже в платном ChatGPT. Но 1.5 Pro не может генерировать картинки и выходить в интернет.

Мы рассказываем разные истории о популярной культуре и тех, кто ее создает. Подписывайтесь на наш телеграм: @t_technocult

Аннет СухареваА вы уже пользовались Gemini? Понравилось? Расскажите в комментариях: