©
P-Reliz.ru - агрегатор пресс-релизов

Новая технология «Наносемантики» повышает точность распознавания голосовых запросов в 12 раз

Новая технология для определения ключевой фразы Keyword Spotter (KWS) от «Наносемантики» способна в разы улучшить работу голосового помощника. Разработка основана на нейросетевой модели KWS с архитектурой CNN-Transformer, обученной на собранных компанией датасетах общей продолжительностью более 100 часов аудио. За счет такого подхода, технология демонстрирует высокие показатели метрик точности и полноты активаций ассистента на аудио, полученных, в том числе, в шумных условиях.
 
Разработанная «Наносемантикой» технология KWS в связке с детектором голосовой активности - Voice Activity Detection (VAD) может повысить точность распознавания голосовых запросов и улучшить качество работы цифровых помощников - «умных» колонок и цифровых ассистентов на онлайн-платформах и в приложениях. Результаты тестирования, проведенного для коммерческого заказчика, показали, что точность распознавания ключевой фразы цифровым помощником выросла в 12 раз по сравнению с предыдущей моделью благодаря внедрению связки технологий VAD и KWS, разработанных «Наносемантикой». 
 
Качественно лучшего результата удалось добиться за счет выбранной архитектуры модели CNN-Transformer, логики обработки потокового аудио, а также объемного и разнообразного датасета. Технология VAD может «отличить» речь человека от других шумов, после чего направить нужные отрывки со смещениями на дальнейшее распознавание моделью определения ключевой фразы - KWS. 
 
Модель обучается определять выбранную ключевую фразу, на которую активируется цифровой помощник. Для обучения используются созвучные фразы-мимики и большое количество различных искажений (аугментаций) - они позволяют достичь устойчивости модели к помехам и похожим на ключевую фразу словам. 
 
При разработке под ключ для повышения показателей метрик качества KWS команда сборщиков и разметчиков данных «Наносемантики» собрала базу данных аудио с записанной ключевой фразой женскими и мужскими голосами в разных вариантах: нейтрально, громко, шепотом, медленно, отвернувшись от устройства и так далее. Кроме того, делается разбивка по качеству звучания: часть аудиозаписей записывают в идеальном «студийном» качестве, другую часть – с посторонними шумами в различных помещениях и уличных условиях. Общая продолжительность данных для датасета превысила 100 часов. 
 
VAD и KWS почти не разряжают батарею, а также могут быть запущены на большинстве смартфонов, в том числе оффлайн, за счет своего небольшого объема - вес VAD на базе модели CNN BilSTM составляет 0,5 МБ, а KWS - 4 МБ. 
 
«За счет качественной работы с данными и использования оптимальных нейросетевых архитектур связка модулей VAD и KWS ‘’Наносемантики’’ способна существенно улучшить качество работы ассистента в распознавании ключевой фразы, что важно для активации голосовых помощников. Это популярное решение интегрируют в приложения и платформы во всех сегментах – от ритейла до банков, а также используют самостоятельно в ‘’умных’’ колонках. От точности работы технологии KWS зависит, насколько хорошо вас будет ‘’понимать’’ голосовой помощник, включаясь в тот момент, когда вы его действительно об этом просили», - комментирует Павел Сухачев, директор по Data Science компании «Наносемантика».
 
 
Справка:
«Наносемантика» — ведущий российский производитель решений и продуктов на основе нейросетей. За 18 лет на рынке ИТ-компания разработала более 12 собственных интеллектуальных продуктов и платформ, реализовала свыше 130 проектов для бизнеса. Команда из научных сотрудников и разработчиков обладает обширной базой знаний и практик в области машинного обучения.
P-Reliz.ru - аггрегатор пресс-релизов

Другие пресс-релизы ООО "Информационно-аналитический центр"


На платформе iSpring появились пульс-опросы для сбора обратной связи от сотрудников

На платформе онлайн-обучения iSpring Learn запущена система сбора обратной связи «Пульс-опросы iSpring». Новый инструмент позволит собственникам бизнеса, руководителям и HR-специалистам выявлять скрытые проблемы и оперативно на них реагировать, предотвращать выгорание сотрудников и текучесть команды, отслеживать настроения в команде и улучшать условия работы.


Структуры Минздрава перешли на офисный пакет AlterOffice

Часть подразделений Минздрава РФ внедрила российский офисный пакет AlterOffice. Программный продукт ALMI Partner, российского производителя общесистемного и прикладного ПО, поможет повысить производительность работы сотрудников за счет удобного и интуитивно понятного интерфейса и широкого функционала.


DатаРу обновила модельный ряд СХД для искусственного интеллекта

Российский вендор технологических решений и сервисов DатаРу расширил продуктовый портфель базового оборудования для искусственного интеллекта и начал производство новых моделей СХД «ДатаРу ИСФ». В модельный ряд вошли три системы с высокой производительностью – ИСФ 910, 710 и 210 – под разный спектр требований и задач.


Институт iSpring получил государственную аккредитацию образовательной программы

Первой аккредитованной государством специальностью в Институте iSpring стала «Программная инженерия». На ней готовят инженеров-программистов с лидерским потенциалом, которые смогут создавать собственные успешные ИТ-продукты.


RooX UIDM внедряет функцию создания порталов приложений

В системе управления доступом RooX UIDM появилась функция создания порталов приложений, объединяющих доступ к множеству систем и сервисов в едином интерфейсе. Политики доступа к приложениям можно строить на основе как ролевой (RBAC), так и атрибутной (ABAC) модели.


MONT расширил портфель ИБ-продуктов и предложит партнерам линейку решений SafenSoft

Группа компаний MONT заключила соглашение о дистрибуции с российским вендором решений для кибербезопасности SafenSoft. В линейку разработчика входят передовые программные решения в сфере информационной безопасности ПО, ориентированные на банковский сектор и входящие в реестр Минцифры РФ.


CorpSoft24 – в топ-5 провайдеров IaaS по стоимости услуг

По результатам исследования ИТ-маркетплейса Market.CNews, компания CorpSoft24 занимает четвертую позицию среди российских облачных провайдеров по стоимости аренды инфраструктуры IaaS. «Рейтинг провайдеров IaaS по уровню цен» от Market.CNews сформирован из расчета стоимости аренды определенной конфигурации сервера: 8 vCPU + 32 Gb RAM + 5 000 Gb SATA + 2 000 Gb SSD.