3DNews AI→ оригинал

Microsoft Apresenta Três Modelos para Processamento de Texto, Voz e Imagens

Microsoft AI apresentou três novos modelos: MAI-Transcribe-1 para conversão de fala em texto, MAI-Voice-1 para síntese de voz e MAI-Image-2 para geração de imag

Microsoft Apresenta Três Modelos para Processamento de Texto, Voz e Imagens
Источник: 3DNews AI. Коллаж: Hamidun News.

Microsoft AI расширяет собственную линейку генеративных сервисов и показывает, что больше не хочет опираться только на партнерские модели. Исследовательское подразделение компании представило сразу три новых решения: MAI-Transcribe-1 для перевода речи в текст, MAI-Voice-1 для синтеза голоса и MAI-Image-2 для генерации изображений по текстовому описанию. Для Microsoft это не просто очередной запуск, а заявка на более самостоятельную роль в гонке ИИ-платформ.

Новая линейка закрывает сразу несколько ключевых сценариев, которые востребованы в корпоративных продуктах и облачных сервисах. MAI-Transcribe-1 умеет переводить речь в текст на 25 языках и, по данным Microsoft, работает в 2,5 раза быстрее сервиса Azure Fast. Это важно для колл-центров, расшифровки встреч, аналитики клиентских разговоров и локализации контента в реальном времени.

MAI-Voice-1 генерирует минутную аудиодорожку примерно за одну секунду и поддерживает настройку голосов под разные задачи — от озвучки интерфейсов до голосовых ассистентов и автоматизации медиа-производства. MAI-Image-2 отвечает за создание визуального контента по текстовому запросу, то есть дополняет текстовые и голосовые функции полноценным визуальным модулем. Запуск трех моделей сразу показывает, что Microsoft делает ставку не на отдельные демонстрационные продукты, а на собственную мультимодальную инфраструктуру.

Внутри компании эту работу ведет команда MAI Superintelligence, которая занимается исследованиями в области продвинутых ИИ-систем. Подразделение возглавляет Мустафа Сулейман, пришедший усиливать ИИ-направление Microsoft и выстраивать более независимый технологический контур. Логика понятна: если у компании есть собственные модели для текста, голоса и изображений, она получает больше контроля над качеством, скоростью, ценой и темпом развития продуктов.

Для такой корпорации это еще и вопрос переговорной позиции: чем меньше зависимость от внешнего поставщика моделей, тем гибче можно строить продуктовую и облачную стратегию. Отдельный акцент сделан на стоимости использования. Microsoft пытается конкурировать не только качеством, но и экономикой вычислений по сравнению с альтернативами от Google и OpenAI.

Тарификация транскрибации начинается от 0,36 доллара в час. Синтез речи оценивается в 22 доллара за 1 миллион символов. Для генерации изображений заявлены 5 долларов за 1 миллион входных токенов и 33 доллара за 1 миллион выходных токенов.

Такой подход особенно важен для бизнеса, который считает не только возможности моделей, но и себестоимость каждого сценария — от обработки звонков до автоматического создания медиа. Если заявленные показатели подтвердятся на практике, Microsoft сможет продвигать новые модели как рабочий инструмент для массовых, а не только экспериментальных задач. Все три модели уже развернуты на платформе Microsoft Foundry, а решения для транскрибации и синтеза речи также доступны в MAI Playground.

Это означает, что компания не ограничилась исследовательским анонсом, а сразу подвела модели к практическому использованию разработчиками и корпоративными клиентами. Такой ход важен, потому что рынок уже мало интересуют отдельные лабораторные демонстрации: ценность появляется там, где модель можно быстро встроить в продукт, протестировать на своей нагрузке и посчитать итоговую экономику. Foundry и Playground как раз закрывают этот путь от анонса к внедрению.

При этом Microsoft не отказывается от прежней стратегии партнерства. Компания продолжает сотрудничество с OpenAI и сохраняет многолетний контракт, несмотря на то что уже инвестировала в партнера более 13 миллиардов долларов. По сути, Microsoft строит диверсифицированный стек, где свои решения дополняют партнерские, а не мгновенно заменяют их.

Это похоже на стратегию в аппаратном бизнесе, когда критические компоненты закупаются у нескольких поставщиков, чтобы снизить риски и не зависеть от одной технологической линии. Главный вывод в том, что Microsoft перестраивает ИИ-стратегию в сторону большей автономии. Компания по-прежнему остается одним из главных союзников OpenAI, но теперь заметно активнее развивает собственные модели и инфраструктуру вокруг них.

Для рынка это сигнал, что конкуренция между крупными ИИ-игроками будет идти не только за качество генерации, но и за скорость, стоимость и глубину интеграции в рабочие процессы. Для клиентов Microsoft это, скорее всего, означает более широкий выбор инструментов внутри одной экосистемы и меньше зависимости от единственного поставщика моделей.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…