Машинный слух. Как работает идентификация человека по голосу

S

SSHMAN

Original poster
Ты, возможно, уже сталкивался с идентификацией по голосу. Она используется в банках для идентификации по телефону, для подтверждения личности на пунктах контроля и в бытовых голосовых ассистентах, которые могут узнавать хозяина. Знаешь ли ты, как это работает? Я решил разобраться в подробностях и сделать свою реализацию.

Характеристики голоса
В первую очередь голос определяется его высотой. Высота — это основная частота звука, вокруг которой строятся все движения голосовых связок. Эту частоту легко почувствовать на слух: у кого-то голос выше, звонче, а у кого-то ниже, басовитее.

Другой важный параметр голоса — это его сила, количество энергии, которую человек вкладывает в произношение. От силы голоса зависит его громкость, насыщенность.

Еще одна характеристика — то, как голос переходит от одного звука к другому. Этот параметр наиболее сложный для понимания и для восприятия на слух, хотя и самый точный — как и отпечаток пальца.

Предобработка звука
Человеческий голос — это не одинокая волна, это сумма множества отдельных частот, создаваемых голосовыми связками, а также их

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

. Из-за этого в обработке сырых данных волны тяжело найти закономерности голоса.

Нам на помощь придет

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

— математический способ описать одну сложную звуковую волну спектрограммой, то есть набором множества частот и амплитуд. Эта спектрограмма содержит всю ключевую информацию о звуке: так мы узнаем, какие в исходном голосе содержатся частоты.

Но преобразование Фурье — математическая функция, которая нацелена на идеальный, неменяющийся звуковой сигнал, поэтому она требует практической адаптации. Так что, вместо того чтобы выделять частоты из всей записи сразу, эту запись мы поделим на небольшие отрезки, в течение которых звук не будет меняться. И применим преобразование к каждому из кусочков.

bird.gif

Спектрограмма пения птицы
Выбрать длительность блока несложно: в среднем один слог человек произносит за 70–80 мс, а интонационно выделенный вдвое дольше — 100–150 мс. Подробнее об этом можно почитать в

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

.
Следующий шаг — посчитать спектрограмму второго порядка, то есть спектрограмму от спектрограммы. Это нужно сделать, поскольку спектрограмма, помимо основных частот, также содержит гармоники, которые не очень удобны для анализа: они дублируют информацию. Расположены эти гармоники на равном друг от друга расстоянии, единственное их различие — уменьшение амплитуды.

Давай посмотрим, как выглядит спектр монотонного звука. Начнем с волны — синусоиды, которую издает, например, проводной телефон при наборе номера.

sinus_fourier.png

Видно, что, кроме основного пика, на самом деле представляющего сигнал, есть меньшие пики, гармоники, которые полезной информации не несут. Именно поэтому, прежде чем получать спектрограмму второго порядка, первую спектрограмму логарифмируют, чем получают пики схожего размера.

sinus_log.png

Логарифм спектрограммы синуса
Теперь, если мы будем искать спектрограмму второго порядка, или, как она была названа, «кепстр» (анаграмма слова «спектр»), мы получим во много раз более приличную картинку, которая полностью, одним пиком, отображает нашу изначальную монотонную волну.

cepstrum.png

Кепстр
Одна из самых полезных особенностей нашего слуха — его нелинейная природа по отношению к восприятию частот. Путем долгих экспериментов ученые выяснили, что эту закономерность можно не только легко вывести, но и легко использовать.

mel.png

Зависимость мела от герца
Эту новую величину назвали

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

, и она отлично отражает способность человека распознавать разные частоты — чем выше частота звука, тем сложнее ее различить.

mel_graph.png

График перевода герца в мелы
Теперь попробуем применить все это на практике.

Идентификация с использованием MFCC
Мы можем взять длительную запись голоса человека, посчитать кепстр для каждого маленького участка и получить уникальный отпечаток голоса в каждый момент времени. Но этот отпечаток слишком большой для хранения и анализа — он зависит от выбранной длины блока и может доходить до двух тысяч чисел на каждые 100 мс. Поэтому из такого многообразия необходимо извлечь определенное количество признаков. С этим нам поможет мел-шкала.

Мы можем выбрать определенные «участки слышимости», на которых просуммируем все сигналы, причем количество этих участков равно количеству необходимых признаков, а длины и границы участков зависят от мел-шкалы.

mfcc.png

Вычисление мел-частотных кепстральных коэффициентов
Вот мы и познакомились с мел-частотными кепстральными коэффициентами (MFCC). Количество признаков может быть произвольным, но чаще всего варьируется от 20 до 40.

Эти коэффициенты отлично отражают каждый «частотный блок» голоса в каждый момент времени, а значит, если обобщить время, просуммировав коэффициенты всех блоков, мы сможем получить голосовой отпечаток человека.

Тестирование метода
Давай скачаем несколько записей видео с YouTube, из которых извлечем голос для наших экспериментов. Нам нужен чистый звук без шумов. Я выбрал канал

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

.

Скачаем несколько видеозаписей любым удобным способом, например с помощью утилиты

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

. Она доступна через pip или через официальный репозиторий Ubuntu или Debian. Я скачал три видеозаписи выступлений: двух женщин и одного мужчины.

Затем преобразуем видео в аудио, создаем несколько кусков разной длины без музыки или аплодисментов.

$ ffmpeg -ss 00:00:27.0 -i man1.webm -t 200 -vn man1.1.wav

Теперь разберемся с программой на Python 3. Нам понадобятся библиотеки numpy для вычислений и librosa для обработки звука, которые можно установить с помощью pip. Для твоего удобства все сложные вычисления коэффициентов упаковали в одну функцию librosa.feature.mfcc. Загрузим звуковую дорожку и извлечем характеристики голоса.

afb1ee4f539bc81d20677.png

Результат:

same 0.08918786797751492

same 0.04016324022920391

diff 0.8353932676024817

diff 0.5290006939899561

diff 0.5996234966734799

diff 0.9143384850090941

48ed4e8d1c2bd4bc4360a.png

Протестируем новую программу.

same 0.07287868313339689

same 0.07599075249316399

diff 1.1107063027198296

diff 0.9556985491806391

diff 0.9212706723328299

diff 1.019240307344966

Мы посчитали значения различных признаков.

2woman_mfcc.png

Эти графики показывают, как наша программа сравнивает значения разных признаков. Красным и зеленым цветами обозначены коэффициенты, которые были получены из голосов двух женщин: по две записи на каждую. Линии одинакового цвета находятся близко друг к другу — голос одного и того же человека. Линии разных цветов расположены дальше друг от друга, поскольку это голоса разных людей.

Теперь сравним мужской и женский голоса.

same 0.07287868313339689

same 0.1312549383658766

diff 1.4336642787341562

diff 1.5398833283440216

diff 1.9443562070029585

diff 1.6660100959317368

manwoman_mfcc.png

Графики коэффициентов для мужчины и женщины
Здесь различия более выражены, это видно и на графике. Голос мужчины более низкий: пики больше в начале графика и меньше в конце.

Этот алгоритм действительно работает, и работает хорошо. Главный его недостаток — зависимость точности результата от шумов и длительности записи. Если запись короче десяти секунд, точность стремительно убывает.

Идентификация голоса с помощью нейронных сетей
Мы можем улучшить наш алгоритм с помощью нейронных сетей, которые на таких задачах показывают невероятную эффективность. Используем библиотеку

Авторизируйтесь или Зарегистрируйтесь что бы просматривать ссылки.

для создания модели нейронной сети.

68655d43cf65ad82e6d6d.png

9ac6d1c5b4d19d8e2a146.png


В этой модели используется два слоя долгой краткосрочной памяти (Long Short-Term Memory), которые позволяют нейронной сети анализировать не только сам голос, его высоту и силу, но и его динамические параметры, например переходы между звуками голоса.

Тестирование метода
Давай обучим модель и посмотрим на ее результаты.

Epoch 1/20

5177/5177 [====================] - loss: 0.4099 - acc: 0.8134 - val_loss: 0.2545 - val_acc: 0.8973

...

Epoch 20/20

5177/5177 [====================] - loss: 0.0360 - acc: 0.9944 - val_loss: 0.2077 - val_acc: 0.9807

[0.18412712604838924, 0.9819283065512979]

Отлично! 98% точности — хороший результат. Посмотрим статистику точности по каждому отдельному человеку.

woman1: 98.4%

woman2: 99.0% - цель

man1: 98.4%

Нейронная сеть справляется прекрасно, преодолевая большинство помех: шумы и ограничения по длине записи (нейронная сеть анализирует всего по одной секунде записи за раз). Такой способ идентификации человека наиболее перспективен и эффективен.

Выводы
Технологии распознавания человека по его голосу находятся только лишь на стадии научных исследований и разработок, и поэтому в открытом доступе хороших и популярных решений нет. Однако в коммерческом секторе такие программные продукты уже распространяются, чем облегчают работу сотрудников кол-центров, разработчиков умных домов. Теперь и ты можешь использовать этот прием на работе или для своих проектов.
 
Название темы
Автор Заголовок Раздел Ответы Дата
Support81 $21 млн в крипте: как офицеры КСИР прикрылись «борьбой с мошенничеством» Новости в сети 0
Support81 Шифрование не спасет: как хакеры читают "защищенные" сообщения без взлома Новости в сети 0
Support81 Невидимая империя зла: как ИИ, дети и крипта строят цифровую империю Новости в сети 1
Support81 DNS без штанов: как нас сдают провайдерам по умолчанию Новости в сети 0
Support81 Комната 641А: как инженер AT&T раскрыл систему массовой слежки Новости в сети 0
Support81 "Чудо-решение" или маркетинг: как Google создает иллюзию объективности для продвижения технологий Новости в сети 0
Support81 Фрод в рекламе: как мошенники крадут бюджеты и что с этим делать Новости в сети 0
Support81 Невидимый взломщик: как обычные разговоры позволяют взломать GPT-4o Новости в сети 0
Support81 5 лет до точки невозврата: как квантовые компьютеры обрушат мировые банки Новости в сети 0
Support81 Вирус в заявке: как Zhong Stealer «ломает» компании через службу поддержки Новости в сети 0
Support81 Обмани себя сам: как ИИ-трейдеры ведут подписчиков к финансовому краху Новости в сети 0
Support81 Взлом, майнинг, выкуп: 5 хакеров придумали, как выжать из IT-гигантов все соки Новости в сети 0
Support81 CAPTCHA + PDF: как мошенники превратили Webflow в орудие фишинга Новости в сети 0
Support81 $16 млн и 1000 жертв: как хакеры Phobos попались в ловушку спецслужб Новости в сети 0
Support81 Мечта хакеров: как CVE-2024-52875 стала идеальным инструментом для кибератак Новости в сети 0
Support81 StarkRDP теперь LakeVPS: как злоумышленники возрождают подпольные рынки за считанные дни Новости в сети 0
Support81 Дешевле – не значит лучше: как уязвимости DeepSeek уничтожают защиту бизнеса Новости в сети 1
Support81 Важно!!! MMS возвращается: как устаревший протокол стал оружием криптомошенников Новости в сети 0
Support81 Chrome, Firefox и Edge: как Flesh Stealer стал ночным кошмаром для браузеров Новости в сети 0
Support81 Майнеры в облаке: как хакеры годами добывают криптовалюту за чужой счёт Новости в сети 0
Ёшкин_кот Статья Как скрыть цифровой след в интернете: практическое руководство. Полезные статьи 0
Support81 Из одной банды ‒ сотня новых: как полицейские облавы укрепили армию шантажистов Новости в сети 0
Support81 Машина против машины: как MintsLoader избегает обнаружения Новости в сети 0
wrangler65 Интересно Как удалить информацию о себе из интернета: подробная инструкция Полезные статьи 0
Support81 Банки, логистика и мошенники: как работает фишинговая «Premium Panel» Новости в сети 0
Support81 Тайны кода: как спецслужбы США используют ошибки в ПО Новости в сети 0
Support81 GhostGPT: как Telegram-бот из новичков делает профи криминального ИИ Новости в сети 1
Support81 UI-TARS: ByteDance научила ИИ работать с компьютером как человек Новости в сети 0
Support81 Скамеры дуреют с этой прикормки: как секретный токен ФБР вывел мошенников на чистую воду Новости в сети 0
Support81 12 недель на решение: как Великобритания планирует побороть кибервымогательство Новости в сети 0
wrangler65 Интересно Как сэкономить до 70% на переводах USDT TRC-20 через энергию Полезные статьи 0
Support81 $787 тысяч исчезли за секунды: как хакеры обошли защиту Orange Finance Новости в сети 0
Support81 LockBit 4.0: как вымогатели планируют возвращать утраченные позиции Новости в сети 0
Support81 Личное в публичное: как простой вызов такси оборачивается потерей данных Новости в сети 0
Support81 Жертвы жадности: как работает новая схема кражи криптовалют на YouTube Новости в сети 0
Support81 Лица на распродаже: как утечки данных помогают хакерам обходить проверки личности Новости в сети 0
Support81 Генеративный ИИ на службе зла: как тысячи вирусов избегают обнаружения Новости в сети 0
Support81 DoS, RCE и утечки данных: как Prometheus становится оружием хакеров Новости в сети 0
Support81 $88 миллионов добычи: как IT-воины КНДР шесть лет водили США за нос Новости в сети 0
Support81 BadRAM: как взломать облака Amazon, Google и Microsoft за $10 Новости в сети 0
Support81 $16 миллионов похищено через LinkedIn: как хакеры обманули Rain Новости в сети 0
Support81 Rockstar 2FA: как хакеры обходят многофакторную защиту в два клика Новости в сети 0
Support81 Эксплойт дня: как баг в кsthunk.sys превращается в цифровое оружие Новости в сети 0
Support81 DDoS на заказ: как Matrix монетизирует крупнейшую ботнет-сеть через Telegram Новости в сети 0
Support81 12 месяцев в тени: как Salt Typhoon разоблачил агентурную сеть США Новости в сети 0
Support81 Ошибка в Windows Registry: как получить права администратора домена Новости в сети 0
Support81 План Си Цзиньпина: как превратить хакеров в государственный актив Новости в сети 0
Support81 Смартфон-стукач: как спецслужбы США использовали лазейку в законе для шпионажа Новости в сети 0
Support81 Самолюбие ценой в 15 лет: как геймер сливал гостайны США в Discord Новости в сети 0
Support81 Хакеры требуют $15 000 000: как 1win борется за сохранность данных 100 млн клиентов? Новости в сети 0

Название темы