Новая технология «Наносемантики» повышает точность распознавания голосовых запросов в 12 раз
Новая технология для определения ключевой фразы Keyword Spotter (KWS) от «Наносемантики» способна в разы улучшить работу голосового помощника. Разработка основана на нейросетевой модели KWS с архитектурой CNN-Transformer, обученной на собранных компанией датасетах общей продолжительностью более 100 часов аудио. За счет такого подхода, технология демонстрирует высокие показатели метрик точности и полноты активаций ассистента на аудио, полученных, в том числе, в шумных условиях.
Разработанная «Наносемантикой» технология KWS в связке с детектором голосовой активности - Voice Activity Detection (VAD) может повысить точность распознавания голосовых запросов и улучшить качество работы цифровых помощников - «умных» колонок и цифровых ассистентов на онлайн-платформах и в приложениях. Результаты тестирования, проведенного для коммерческого заказчика, показали, что точность распознавания ключевой фразы цифровым помощником выросла в 12 раз по сравнению с предыдущей моделью благодаря внедрению связки технологий VAD и KWS, разработанных «Наносемантикой».
Качественно лучшего результата удалось добиться за счет выбранной архитектуры модели CNN-Transformer, логики обработки потокового аудио, а также объемного и разнообразного датасета. Технология VAD может «отличить» речь человека от других шумов, после чего направить нужные отрывки со смещениями на дальнейшее распознавание моделью определения ключевой фразы - KWS.
Модель обучается определять выбранную ключевую фразу, на которую активируется цифровой помощник. Для обучения используются созвучные фразы-мимики и большое количество различных искажений (аугментаций) - они позволяют достичь устойчивости модели к помехам и похожим на ключевую фразу словам.
При разработке под ключ для повышения показателей метрик качества KWS команда сборщиков и разметчиков данных «Наносемантики» собрала базу данных аудио с записанной ключевой фразой женскими и мужскими голосами в разных вариантах: нейтрально, громко, шепотом, медленно, отвернувшись от устройства и так далее. Кроме того, делается разбивка по качеству звучания: часть аудиозаписей записывают в идеальном «студийном» качестве, другую часть – с посторонними шумами в различных помещениях и уличных условиях. Общая продолжительность данных для датасета превысила 100 часов.
VAD и KWS почти не разряжают батарею, а также могут быть запущены на большинстве смартфонов, в том числе оффлайн, за счет своего небольшого объема - вес VAD на базе модели CNN BilSTM составляет 0,5 МБ, а KWS - 4 МБ.
«За счет качественной работы с данными и использования оптимальных нейросетевых архитектур связка модулей VAD и KWS ‘’Наносемантики’’ способна существенно улучшить качество работы ассистента в распознавании ключевой фразы, что важно для активации голосовых помощников. Это популярное решение интегрируют в приложения и платформы во всех сегментах – от ритейла до банков, а также используют самостоятельно в ‘’умных’’ колонках. От точности работы технологии KWS зависит, насколько хорошо вас будет ‘’понимать’’ голосовой помощник, включаясь в тот момент, когда вы его действительно об этом просили», - комментирует Павел Сухачев, директор по Data Science компании «Наносемантика».
Автономная некоммерческая организация «Национальный центр компетенций по информационным системам управления холдингом» разработала интеграционный стандарт отечественных СУР (ERP). Об этом сообщил генеральный директор АНО «НЦК ИСУ» Кирилл Семион в ходе заседания в Совете Федерации РФ.
ИТ-компания iFellow, специализирующаяся на разработке, тестировании и сопровождении ПО, выпустила обновления для облачного сервиса по подбору персонала «Наймус». Пользователи теперь могут обрабатывать большее количество файлов за одну заявку, результаты ранжирования кандидатов отображаются в отдельном поле и обновляются автоматически, а интерфейс стал более удобным.
Компания «Райтек ДТГ», один из ведущих российских системных интеграторов для промышленности, включена в Рейтинг работодателей РБК 2024. Рейтинг был представлен на десятом HR-форуме РБК.
Разработчик высокотехнологичной платформы «DатаРу Облако» и разработчик отечественного ПО РЕД СОФТ заключили соглашение о сотрудничестве, направленное на развитие облачных услуг на российском рынке. Линейка решений от РЕД СОФТ войдет в состав решений «DатаРу Облако». Компании предоставят заказчикам доступ к российским ИТ-продуктам в формате аренды.
Компания «Райтек ДТГ», один из ведущих российских системных интеграторов для промышленности, разработала свое первое ИТ-решение на основе искусственного интеллекта. Продукт предлагает интегрированный подход к автоматизации процессов технической поддержки, анализу инцидентов и управлению производственными задачами.
Группа компаний MONT запустила технологический шоурум для демонстрации передовых решений и технологий в сфере информационной безопасности. Пространство открылось по адресу: Офис MONT, Москва, Пресненский Вал, 14, 10 этаж.
ГК SIMETRA и ОАО «Научно-исследовательский институт автомобильного транспорта» (НИИАТ) заключили соглашение о стратегическом партнёрстве. В рамках сотрудничества специалисты SIMETRA и НИИАТ будут совместно работать над расширением функциональных возможностей программного обеспечения RITM³, включая его доработку под специфические задачи НИИАТ.