Нейросети — это математические модели, которые уже изменили подход к решению сложных задач во множестве областей, от обработки изображений и анализа текстов до написания кода и помощи в проведении научных исследований. Основные технологические гиганты, такие как Yandex, OpenAI, Google, Microsoft и другие, активно развивают собственные нейросетевые технологии. Хотя все эти компании работают в области искусственного интеллекта (ИИ), их подходы и решения отличаются в зависимости от целей, инфраструктуры и стратегий развития. Подробнее – под катом.
Нейросети представляют собой программные модели, созданные на основе структуры и принципов работы биологического мозга. Они состоят из искусственных нейронов, которые связаны между собой и могут передавать сигналы, что позволяет нейросети обучаться на данных и решать различные задачи. Основная цель нейросетей — научиться распознавать паттерны в данных, а затем использовать это знание для выполнения задач, таких как создание изображений, машинный перевод или генерация текста.
Полносвязные нейросети (Fully Connected Networks, FCN) — каждый нейрон в сети связан со всеми остальными. Такие сети широко используются для задач классификации и регрессии.
Рекуррентные нейросети (Recurrent Neural Networks, RNN) — используются для работы с последовательными данными, такими как текст или временные ряды. Особенность RNN заключается в наличии обратных связей, что позволяет им учитывать контекст предыдущих шагов.
Свёрточные нейросети (Convolutional Neural Networks, CNN) — активно применяются для обработки изображений. Они используют свёртки, чтобы выявлять локальные паттерны в данных, что делает их особенно полезными для распознавания объектов.
Трансформеры (Transformers) — современные архитектуры нейросетей, которые широко применяются в задачах обработки естественного языка (NLP). Они опираются на механизм внимания, который позволяет сети учитывать важность различных частей входного текста.
OpenAI — это одна из ведущих организаций в области разработки ИИ, наиболее известная своей моделью GPT (Generative Pretrained Transformer). Можно сказать, что широкое внедрение нейросетей и активная разработка аналогов другими IT-компаниями, начались именно с OpenAI.
GPT-4o, как и его предшественники, представляет собой трансформерную архитектуру, которая обучена на огромных объемах текста. Основные типы нейросетей OpenAI:
Модели GPT — способны генерировать связанный и логичный текст, отвечать на вопросы, писать статьи и вести диалог. Эти модели преуспевают в решении задач генерации текста и его понимания, благодаря обучению на больших объемах данных. Сейчас модели GPT уже используются для ведения голосового диалога с пользователем.
DALL-E и CLIP — модели, предназначенные для генерации изображений по текстовым запросам и понимания взаимосвязи между изображениями и текстами.
Codex — модель, основанная на GPT, предназначенная для написания программного кода по текстовым запросам.
Отличительная черта нейросетей OpenAI — ориентация на многофункциональность и генеративные возможности. Они активно развиваются для применения в различных отраслях, включая создание контента, программирование и научные исследования.
Google считается одним из лидеров в области ИИ, который развивает собственные решения для обработки текста, изображений и других данных. Одним из ключевых продуктов является архитектура BERT (Bidirectional Encoder Representations from Transformers), которая сильно повлияла на задачи обработки естественного языка.
BERT и T5 — трансформерные модели, которые активно применяются для решения задач анализа текста, таких как классификация, извлечение сущностей, машинный перевод и генерация текста. BERT фокусируется на двустороннем обучении, что позволяет учитывать контекст как с левой, так и с правой стороны текста.
BigGAN и StyleGAN — модели для генерации изображений. StyleGAN используется, например, для создания фотореалистичных изображений лиц.
AlphaGo и AlphaFold — проекты DeepMind, дочерней компании Google, показывают примеры того, как нейросети могут решать задачи не только в области текста и изображений, но и в биологии (AlphaFold помогает предсказывать структуру белков) и играх (AlphaGo побеждает чемпионов мира по игре го).
Широкому кругу пользователей доступна мультимодальная модель ИИ Gemini (бывш. Bard), которая способна обрабатывать текстовую, аудио информацию, изображения и видео.
Google предлагает 3 версии Gemini:
Ultra. Флагманская модель с максимальными возможностями, показывает самую высокую производительность в сложных задачах, может работать с несколькими модальностями.
Gemini Pro. Позволяет генерировать тексты и изображения, задавать вопросы и искать информацию. Доступ к Pro-версии могут получить корпоративные клиенты Google и разработчики через API.
Gemini Nano. Базовая версия, которая предназначена для локального применения на мобильных устройствах.
Google делает ставку на инновации и внедрение нейросетей в различные сферы, включая биотехнологии и фундаментальные исследования.
Microsoft активно инвестирует в исследования ИИ и развивает свои решения, часто сотрудничая с OpenAI и другими организациями. Основными направлениями в разработке нейросетей у Microsoft являются:
Azure AI — платформа облачных сервисов, включающая набор инструментов для разработки, обучения и развертывания нейросетей. Microsoft предлагает решения для компьютерного зрения, анализа текста и обработки речи.
Turing-NLG — крупная языковая модель, разработанная для задач генерации текста и его анализа. Она способна обрабатывать огромные объемы данных и решать сложные задачи в области NLP.
Project Brainwave — инициатива Microsoft по созданию специализированных чипов для ускорения работы нейросетей. Это позволяет значительно улучшить производительность моделей на больших данных.
Наработки Microsoft в области ИИ нашли своё применение в Copilot – интегрированном помощнике на базе искусственного интеллекта. Он разработан для помощи в продуктах Microsoft 365 (таких как Word, Excel, PowerPoint, Outlook и других приложениях), помогает автоматизировать рутинные задачи, анализировать данные и создавать контент.
Microsoft активно продвигает свои разработки через облачную инфраструктуру и предлагает интеграции для бизнеса, что делает её решения востребованными в корпоративной среде.
Яндекс — один из крупнейших разработчиков ИИ в России, активно использующий нейросетевые технологии в различных продуктах, таких как поиск, машинный перевод и голосовые помощники. Широкое применение нейросети Яндекса получили в одном из ключевых продуктов – Алисе, голосовом ассистенте, использующим нейросетевые технологии для распознавания и синтеза речи. Алиса способна вести диалоги, решать задачи и взаимодействовать с пользователями в режиме реального времени.
Яндекс разделяет нейросети по типу использования – с текстом или изображениями.
YandexGPT 3 — модели, которые могут создавать и анализировать текст. Используются также для улучшения релевантности поисковых запросов, а также для задач классификации текста.
YandexART— нейросеть, которая по текстовому описанию генерирует изображения и анимационные видео.
Яндекс делает акцент на применении ИИ в повседневной жизни и улучшении взаимодействия пользователей с цифровыми сервисами.
Сбер активно развивает свои технологии в области ИИ, что позволяет ему конкурировать с крупными IT-компаниями. Основными направлениями являются:
GigaChat — нейросетевая языковая модель, разработанная для работы с русскоязычным контентом. Она может генерировать текст, переводить его, выполнять задачи анализа и синтеза информации.
Салют — голосовой ассистент, интегрированный в экосистему сервисов Сбера. Салют использует нейросети для обработки речи и взаимодействия с пользователями.
Kandinsky – нейросеть для генерации изображений.
Особенность нейросетей Сбера — это ориентация на локальный рынок, B2B и интеграция с экосистемой продуктов, что делает их особенно удобными для российских пользователей и компаний.
Нейросети от OpenAI, Google, Microsoft, Яндекс и Сбера схожи по функциональности, но различаются по архитектуре, масштабам данных и сферам применения. Вот, например, какие результаты выдают 3 разные нейросети (ChatGPT, Gemini, YandexGPT 3) по одному запросу:
Помоги собрать игровой ПК. Бюджет 150 000 рублей, играю в 1400p с высоким FPS, в основном шутеры. Хочу RGB-подсветку и игровую периферию.
Дал самый развернутый ответ.
Процессор (CPU): AMD Ryzen 7 7800X или Intel Core i7-13700KF – оба процессора обеспечат отличную производительность в шутерах благодаря высокой частоте и многопоточности.
Видеокарта (GPU): NVIDIA GeForce RTX 4070 или AMD Radeon RX 7800 XT – отличные варианты для игр в 1440p с высоким FPS.
Материнская плата: MSI MAG B650 Tomahawk WiFi (для AMD) или ASUS TUF Gaming Z690 (для Intel) – с поддержкой высоких скоростей памяти, хорошими возможностями для разгона и встроенной RGB-подсветкой.
Оперативная память (RAM): 32 GB (2x16 GB) DDR5 6000 MHz – отличный объём и скорость для современных игр.
Накопитель (SSD): 1 TB NVMe SSD (Samsung 980 Pro или WD Black SN850) – высокая скорость загрузки и работы системы.
Блок питания (PSU): Corsair RM750x (750W, 80+ Gold) – качественный блок питания с запасом мощности.
Корпус: Lian Li Lancool II Mesh RGB или Corsair iCUE 4000X RGB – стильные корпуса с хорошей вентиляцией и встроенной RGB-подсветкой.
Кулер для процессора: NZXT Kraken X63 RGB – водяное охлаждение с RGB-подсветкой.
Игровая периферия:
Клавиатура: Logitech G Pro X или Razer Huntsman Mini (оба варианта с RGB).
Мышь: Razer DeathAdder V3 или Logitech G Pro Wireless.
Гарнитура: SteelSeries Arctis 7 или HyperX Cloud II Wireless.
Операционная система: Windows 11 – лицензионная версия.
Процессор: Intel Core i5-13600K, мощный 14-ядерный процессор, отлично подойдет для игр в 1440p и стриминга.
Охлаждение: кулер DeepCool AK620 или аналогичный с RGB-подсветкой.
Материнская плата: ASUS ROG STRIX B760-A Gaming Wi-Fi, отличная материнская плата с множеством портов, поддержкой PCIe 5.0 и RGB-синхронизацией.
Оперативная память: 32 ГБ DDR5 5200 МГц.
Видеокарта: NVIDIA GeForce RTX 4070, отличная видеокарта для игр в 1440p на высоких настройках графики.
Накопитель: SSD NVMe 1 ТБ.
Блок питания: Corsair RMx 750 Вт.
Корпус: Fractal Design Meshify 2 Compact, с отличной вентиляцией и возможностью установки RGB-вентиляторов.
Охлаждение: 3 вентилятора с RGB-подсветкой, для дополнительного охлаждения системы.
Игровая периферия (пример):
Клавиатура: Corsair K70 RGB TKL
Мышь: Logitech G Pro X Superlight
Наушники: HyperX Cloud Alpha Wireless
Процессор: Intel Core i3-12100F или AMD Ryzen 5 3600X.
Материнская плата: ASUS PRIME H610M-K D4 или MSI B450 TOMAHAWK MAX. Эти материнские платы поддерживают процессоры и имеют необходимые разъёмы для подключения других компонентов.
Видеокарта: NVIDIA GeForce RTX 3060 или AMD Radeon RX 6600 XT. Обе видеокарты обеспечивают высокую производительность в играх и поддержку технологий трассировки лучей и DLSS.
Оперативная память: 16 ГБ (2x8 ГБ) DDR4 3200 МГц.
Накопитель: SSD на 512 ГБ.
Блок питания: Corsair СМ 550 или Deepcool DA700. Оба блока питания обеспечивают достаточную мощность для выбранных компонентов и имеют сертификаты надёжности.
Корпус: Deepcool MATREXX 55 MESH или Zalman T7.
Охлаждение: Кулер для процессора с теплоотводом 95 Вт. Например, ID-Cooling SE-224-XT.
Операционная система: Windows 11 Pro или Windows 10 Pro.
Периферия:
Мышь: Logitech G502 Hero или Razer DeathAdder V2.
Клавиатура: HyperX Alloy FPS или Corsair K63.
Наушники: SteelSeries Arctis 7 или HyperX Cloud II.
На основе предоставленных сборок от ChatGPT, Gemini и YandexGPT3 попробуем определить, кто справился лучше с задачей, а кто хуже.
Лучший вариант: ChatGPT. Это вариант с упором на производительность и эстетику (RGB-подсветка). Вариант с AMD Ryzen 7 7800X/Intel i7-13700KF и RTX 4070/Radeon RX 7800 XT идеально подходит для игр в 1440p с высоким FPS. Его сборка отличается хорошим балансом производительности CPU и GPU, продуманным охлаждением и мощным БП. Все компоненты адаптированы для игр на высоких настройках, пусть в ряде случаев ChatGPT и не указал на конкретные модели комплектующих.
Чат-бот также учел мои пожелания по наличию RGB-подсветки корпуса, кулера и периферии. Таким образом пользователь может получить не только готовую сборку с точки зрения железа, но и яркую систему с RGB-подсветкой.
Средний вариант: Gemini дал также неплохой ответ. Сборка нейросети от Google также сбалансирована, компоненты хорошо сочетаются по производительности и цене. Intel Core i5-13600K и RTX 4070 действительно классно подходят для игр в 1440p, хотя для высоких настроек, конечно, можно было подобрать сочетание и помощнее.
При этом у Gemini меньше конкретики по ценам, но сборка выглядит сбалансированной. RGB-подсветка присутствует как в охлаждении, так и в самом корпусе.
Худший вариант: YandexGPT3. Его сборка дешевле (нацелена примерно на 120 000 рублей), но она явно уступает по мощности и не подходит для игр в 1440p с высоким FPS. Процессоры i3-12100F и Ryzen 5 3600X, а также видеокарты RTX 3060 или RX 6600 XT не подходят для игр в 2К в принципе, вне зависимости от пресетов графики. Эти компоненты больше ориентированы на HD-гейминг.
Выбор процессора и видеокарты слабее, чем в предложениях других сетей, что освобождает бюджет для периферии. RGB-подсветка упоминается только в корпусе, но периферия и компоненты без явного акцента на RGB.
Что касается периферии, все ChatGPT и Gemini предложили периферию высокого класса, которая подходит для геймеров. YandexGPT3 выдала более бюджетные варианты. В целом это мэтчится с его сборкой. Но поскольку она не отвечает первоначально заданным критериям, в плюс ей это записывать не будем.
Хотя компания известна своим фокусом на аппаратных и программных решениях, Apple также активно развивает технологии ИИ и машинного обучения. Вот несколько ключевых направлений, в которых Apple применяет нейросети:
Системы машинного обучения на устройствах (On-Device Machine Learning): Apple активно использует нейросети в своих устройствах, таких как iPhone, iPad и Mac, для выполнения задач машинного обучения прямо на устройстве, без отправки данных в облако. Это позволяет обеспечить приватность данных пользователей и повысить скорость обработки.
Neural Engine: С момента выхода чипа A11 Bionic Apple интегрировала специальный блок, называемый Neural Engine, в свои процессоры. Этот блок оптимизирован для выполнения операций, связанных с нейросетями, и используется в таких задачах, как обработка изображений, распознавание лиц (Face ID), улучшение фотографий и видео, а также голосовые ассистенты.
Siri: Голосовой ассистент Siri активно использует нейросетевые модели для распознавания речи, анализа контекста, а также для предсказания намерений пользователей и выполнения их запросов.
Обработка изображений и видео: Apple применяет нейросети для улучшения качества фото и видео, таких как функции Deep Fusion и Smart HDR, которые улучшают детали и контраст изображения на уровне пикселей.
В этом году Apple также заключила соглашение с OpenAI на использование технологий GPT-4o в устройствах на базе iOS. Нейросетевую модель назвали Apple Intelligence, и помимо уже привычных функций вроде проверки текста и генерации изображений, она также способна переписать текст (например, для email-сообщения), приоритизировать уведомления и письма на iPhone и iPad, а также использовать нейросетевые функции для редактирования фото – удалять объекты и генерировать воспоминания из фотографий или видеофайлов.
Нейросети, включая современные модели, такие как GPT или другие ИИ, иногда проявляют эффект, который называют "галлюцинацией". Это явление возникает, когда ИИ генерирует ответы, которые выглядят правдоподобно, но на самом деле являются вымышленными или неверными. Галлюцинации могут происходить из-за того, что нейросети обучаются на огромных объемах данных и стремятся находить закономерности, даже если в реальности их нет.
Как видно из примера выше, модель не обладает истинным пониманием или знанием контекста, а лишь манипулирует вероятностными связями слов, что иногда приводит к созданию ложной или неверной информации.
В итоге нейросети уже достаточно развиты для выполнения сложных задач, таких как генерация текста, создание изображений и решение прикладных проблем. Однако пока существуют ограничения, такие как галлюцинации и недостаточное понимание контекста, которые требуют дальнейшего улучшения технологий для повышения надежности и точности работы ИИ.