Пульс технологий

Установите кодовое слово в Супернике!

* с его помощью вы всегда сможете войти в приложение, если, например, забыли пароль или сменили телефон

На рынке систем распознавания речи появился стартап-единорог

В области систем по распознаванию речи появился стартап-единорог. Компанию Verbit оценили в 1 с лишним миллиард долларов. Рынок систем перевода речи в текст быстро растет и достигнет 32 миллиардов долларов к 2025 году.

Установите кодовое слово в Супернике

Устанавливай приложение «Цифроникель». Проходи обучение в игровой форме. Копи знания, получай баллы, участвуй в конкурсах и получай ценные призы.

КАК УСТАНОВИТЬ
КОДОВОЕ СЛОВО?

Стартап Verbit, который занимается созданием систем распознавания и транскрипции речи, привлек 157 миллионов долларов инвестиций при оценке всего бизнеса в 1 миллиард долларов. Компания наймет дополнительных сотрудников и увеличит расходы на разработки в преддверии выхода на биржу. Всего с момента своего создания компания привлекла финансирование в размере 250 миллионов долларов. Размещение акций пройдет в следующем году либо на Nasdaq, либо на Нью-йоркской фондовой бирже.

Рынок систем распознавания голоса к 2025 году достигнет 32 миллиардов долларов. По прогнозам Gartner, чаще всего такие системы будут использоваться в секторе финансовых услуг, здравоохранения и на транспорте. По оценкам Grand View, каждый пятый американец ежедневно как минимум раз в день отдает приказания «умной» колонке. А доля поисковых запросов Google, которые осуществляются с помощью голосовых команд, сейчас превышает 30%.

По мнению генерального директора Verbit Тома Ливни, переход на удаленную работу во многом способствовал расцвету голосового ввода текста. Сектор продолжит развиваться и дальше: из-за того, что все больше совещаний проводятся в онлайне и доступны в видеозаписи, вырастает спрос на услуги по автоматической транскрипции встреч.

Сам рынок систем распознавания речи существует не первый год: на нем присутствуют такие крупные игроки на Cisco, Microsoft, Google, Nuance, Voicerra. Но Verbit — единственный из них, кто обещает точность транскрибирования голоса в текст в 99,9%. Компания интегрирует свою систему распознавания речи в такие сервисы как Vimeo, YouTube, Canvas, BrightCode и Blackboard.

Verbit для распознавания речи использует последовательно три модели: акустическую модель, лингвистическую модель и модель контекстных событий. Вначале система отфильтровывает фоновые шумы, эхо и определяет говорящих. Затем подключается лингвистическая модель, которая использует данные о частотности употребления тех или иных слов, грамматических особенностях анализируемого предложения. Наконец используют модель, которая содержит информацию об акцентах, диалектах, текущих событиях и других особенностях контекста.

Годовая выручка компании составляет около 100 миллионов долларов. В 2020 году она выросла в шесть раз. Этому способствовала пандемия и увеличение минимальной суммы контракта на услуги по транскрибированию до 10 тысяч долларов. Всю черновую работу делает выдрессированная на миллионах часов аудио нейросеть. Но конечную обработку текста проводит человек. Компания использует услуги 33 тысяч человек, живущих в 120 странах, которые оценивают и, в случае необходимости, корректирует результат работы машины. Сейчас услугами Verbit пользуется более 400 организаций и предприятий, включая такие престижные университеты как Гарвардский и Стэнфордский, а также Лондонская школа бизнеса. Кроме того, компания предоставляет услуги по созданию субтитров для CNN, CNBC и Fox.

В конце мая на рынке систем, которые преобразуют речь в текст, появился новый игрок, который был основан Клеменом Саймоником — бывшим инженером Facebook. Компания Soniox использует новый подход к решению проблемы транскрипции речи в текст. Если Verbit и другие ведущие игроки используют для тренировки ИИ размеченные вручную аудиозаписи, то Soniox может использовать для обучения и не размеченные данные. По заявлению создателей, уже сейчас их система показывает результаты лучше человеческих. И способна работать в условиях сильных шумов, распознавать акценты и справляться с дефектами произношения. Soniox обладает самым большим в мире дата-сетом, то есть набором данных, в области распознавания речи. Он состоит из 88 тысяч часов аудио и 6,6 миллиардов транскрибированных слов. Для сравнения, самый крупный открытый набор данных Common Voice состоит из 9 тысяч часов записей голосов.

Распознавание голоса и перевод его в текст — одна из задач компьютерного обучения, которая предъявляет особые требования к вычислительной мощности. Необходимо проделать очень большое количество вычислений, для того, что перевести голос в текст. Сейчас Soniox работает в бета-режиме, но у компании уже появился первый клиент — компания DeepScribe, которая занимается распознаванием диалогов между докторами и пациентами. Она отказалась от продукта Google, так как сервис Soniox показывает большую точность на специализированных текстах.

На рынке есть много приложений для повседневного использования. Если раньше такие системы были в ходу у больших организаций, но сейчас настала очередь за малым и средним бизнесом. Согласно исследованию компании Research and Markets, в этом секторе рост использования приложений «речь-в-текст» будет вдвое быстрее, чем среди крупных компаний.

Исторически основным языком, с которым работали системы автоматического распознавания речи, был английский. Сейчас выручка от работы с английским языком составляет 80% от совокупной. Но испанский язык показывает самые быстрые темпы роста — его доля за ближайшие пять лет вырастет до тридцати с лишним процентов рынка.

Основной спрос на услуги преобразования речи в текст продолжит создавать образовательный сектор, на который будет приходится почти половина выручки. В странах Азии большой спрос создает финансовый сектор, в Японии и Китае любят фиксировать в письменном виде практически все взаимодействия между клиентами и финансовой организацией.

У всех этих систем есть общие сложности, которые ещё долго не получится преодолеть: во-первых, надежность и скорость работы практически всех из них зависят от скорости подключения к интернету. Аудиопоток в подавляющем большинстве случаев не обрабатывают на устройстве пользователя, а сжимают и передают на удаленные сервера, где и происходит преобразование. Требуемые для перевода из речи в текст ресурсы еще долго не доступны на мобильных устройствах.

Во-вторых, многие системы с большим трудом воспринимают диалекты или возрастные особенности произношения. Всё дело в недоступности таких данных. Записей речи маленьких детей, стариков, носителей говоров существует гораздо меньше, чем, например, записей лекций столичной профессуры.

УЗНАТЬ БОЛЬШЕ

На рынке систем распознавания речи появился стартап-единорог

Forrester: ИИ станет незаменимым уже в 2023 году

Первые ЦФА и NFT-дипломы: главные события 2022 года в сфере блокчейн

Самая крупная ошибка при цифровой трансформации и как её избежать

«Интеррос», Atomyze и Эрмитаж запустили пилотный проект по выпуску ЦФА на предметы искусства