

Мера различий речевых сигналов по тембру голоса
https://doi.org/10.32446/0368-1025it.2023-10-63-69
Аннотация
Описана ключевая проблема в области речевых технологий – оптимизация обработки речевого сигнала в условиях априорной неопределённости его тонкой структуры. Рассмотрена задача автоматического (объективного) анализа тембра голоса диктора по речевому сигналу конечной длительности. Для решения этой задачи предложен универсальный теоретико-информационный подход. На основе дивергенции Кульбака-Лейблера получено выражение для асимптотически оптимальной решающей статистики различения речевых сигналов по тембру голоса. Указано на острую проблему при практической реализации данной статистики – синхронизацию последовательности наблюдений с основным тоном речевых сигналов. Для преодоления описанной проблемы предложена объективная мера тембровых различий речевых сигналов в терминах акустической теории речеобразования и её модели голосового тракта диктора типа «акустическая труба». Рассмотрены возможности практической реализации новой меры на базе адаптивного рекурсивного фильтра. Поставлен и проведён натурный эксперимент. По его результатам подтверждены два основных свойства предложенной меры – высокая чувствительность к различиям речевых сигналов по тембру голоса и инвариантность к частоте основного тона. Полученные результаты можно применять при проектировании и исследовании систем цифровой обработки речи с настройкой на голос диктора, например систем цифровой передачи речи, биометрических и биомедицинских систем и др.
Об авторе
В. В. СавченкоРоссия
Владимир Васильевич Савченко - доктор технических наук, профессор.
Нижний Новгород
Список литературы
1. Zhao R., Erleke E., Wang L., Huang J., Chen, Z., The Effects of Timbre on Voice Interaction, in Cross-Cultural Design: HCII 2023. Lecture Notes in Computer Science, ed. Rau P-L. P., Springer, Cham, 2023, vol. 14023. https://doi.org/10.1007/978-3-031-35939-2_12
2. Ando Y., Temporal and Spatial Features of Speech Signals, in Signal Processing in Auditory Neuroscience, Academic Press, 2019, pp. 81–101. https://doi.org/10.1016/B978-0-12-815938-5.00009-1
3. Ternström S., Applied Sciences, 2023, vol. 13, no. 6, 3514. https://doi.org/10.3390/app13063514
4. Song W., Yue Y., Zhang Ya-jie et al., Multi-speaker Multistyle Speech Synthesis with Timbre and Style Disentanglement, in Man-Machine Speech Communication: NCMMSC 2022. Communications in Computer and Information Science, eds. Zhenhua L., Jianqing G., Kai Y., Jia J., 2022, vol. 1765, Springer, Singapore. https://doi.org/10.1007/978-981-99-2401-1_12
5. Jialu L., Hasegawa-Johnson M., McElwain N. L., Speech Communication, 2021, vol. 133, pp. 41–61. https://doi.org/10.1016/j.specom.2021.07.010
6. Savchenko V. V. Radioelectronics and Communications Systems, 2021, vol. 64, no. 11, pp. 592–603. https://doi.org/10.3103/S0735272721110030
7. Савченко А. В., Савченко В. В. Способ автоматического обновления биометрических персональных данных в режиме онлайн по речевому сигналу пользователя биометрической системы // Измерительная техника. 2021. № 11. С. 60–66. https://doi.org/10.32446/0368-1025it.2021-11-60-66
8. Wei Y., Gan L., Huang X., Frontiers in Psychology, 2022, vol. 13, 869475. https://doi.org/10.3389/fpsyg.2022.869475
9. Xue J., Zhou H., Song H., Wu B., Shi L., Speech Communication, 2023, vol. 147, pp. 41–50. https://doi.org/10.1016/j.specom.2023.01.001
10. Li J., Zhang L. and Qiu Z., 5th International Conference on Intelligent Control, Measurement and Signal Processing (ICMSP), Chengdu, China, 2023, pp. 833–837. https://doi.org/10.1109/ICMSP58539.2023.10171030
11. Igras-Cybulska M., Hekiert D., Cybulski A. et al., Work-inProgress. 2023 IEEE Conference on Virtual Reality and 3D User Interfaces Abstracts and Workshops (VRW), Shanghai, China, 2023, pp. 355–359. https://doi.org/10.1109/VRW58643.2023.00079
12. Cui S., Li E. and Kang X., 2020 IEEE International Conference on Multimedia and Expo (ICME), London, UK, 2020, pp. 1–6. https://doi.org/10.1109/ICME46284.2020.9102765
13. Gupta S., Fahad M. S. & Deepak A., Multimedia Tools and Applications, 2020, vol. 79, pp. 23347–23365. https://doi.org/10.1007/s11042-020-09068-1
14. Dai B., Zahorian St., Journal of The Acoustical Society of America, 1998, vol. 104, 1805. https://doi.org/10.1121/1.423591
15. Захарьев В. А., Петровский А. А. Методы параметризации речевого сигнала на основе анализа, синхронизированного с частотой основного тона в системах конверсии голоса // Наука – образованию, производству, экономике: материалы 11-й Международной научно-технической конференции. Минск: БНТУ, 2013. Т. 1. С. 203–204.
16. Савченко В. В., Савченко Л. В. Субоптимальный алгоритм измерения частоты основного тона с использованием дискретного фурье-преобразования речевого сигнала // Радиотехника и электроника. 2023. Т. 68. № 7. С 660–668. https://doi.org/10.31857/S0033849423060128
17. Savchenko A. V., Savchenko V. V., Radioelectronics and Communications Systems, 2021, vol. 64, no. 6, рр. 300–309. https://doi.org/10.3103/S0735272721060030
18. Gibson J., Information, 2019, vol. 10, no. 5, pp. 179–189. https://doi.org/10.3390/info10050179
19. Herbst Ch. T., Elemans C. P. H., Tokuda I. T., Chatziioannou V., Švec J. G., Journal of Voice, 2023. https://doi.org/10.1016/j.jvoice.2022.10.004
20. Sadok S., Leglaive S., Girin L., Alameda-Pineda X., Séguier R., Speech Communication, 2023, vol. 148, pp. 53–65. https://doi.org/10.1016/j.specom.2023.02.005
21. Савченко В. В. Дивергенция Итакуры-Саито как элемент информационной теории восприятия речи // Радиотехника и электроника. 2019. Т. 64. № 6. С. 585–592. https://doi.org/10.1134/S0033849419060093
22. Kullback S., Information Theory and Statistics, N.Y., Dover Publications, 1997, 432 p.
23. Савченко В. В. Метод сравнительного тестирования параметрических оценок спектра мощности: спектральный анализ через синтез временно́го ряда // Измерительная техника. 2023. № 6. С. 56–62. https://doi.org/10.32446/0368-1025it.2023-6-56-62
24. Marple S. L. Jr., Digital spectral analysis. 2-nd ed., Dover Publications, New York, 2019, 432 р.
25. Савченко В. В. Гибридный метод спектрального анализа речевых сигналов на основе авторегрессионной модели и периодограммы Шустера // Измерительная техника. 2023. № 3. С. 61–66. https://doi.org/10.32446/0368-1025it.2023-3-61-66
26. Оппенгейм А., Шафер Р. Цифровая обработка сигналов: Пер. с англ. 3-е изд. М.: Техносфера, 2012. 1048 с.
27. Kathiresan Th., Maurer D., Suter H., Dellwo V., The Journal of Acoustical Society of America, 2018, vol. 143. no. 3. pp. 1919– 1920. https://doi.org/10.1121/1.5036258
28. Kovela S., Valle R., Dantrey A. and Catanzaro B., IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes Island, Greece, 2023, pp. 1–5. https://doi.org/10.1109/ICASSP49357.2023.10096220
29. Sun P., Mahdi A., Xu J., Qin J., Speech Communication, 2018, vol. 101, pp. 57–69. https://doi.org/10.1016/j.specom.2018.05.006
30. Tohyama M., Spectral envelope and source signature analysis, in Acoustic Signals and Hearing, Academic Press, 2020, pp. 89–110. https://doi.org/10.1016/B978-0-12-816391-7.00013-9
31. Savchenko V. V., Radioelectronics and Communications Systems, 2020, vol. 63, pp. 42–54. https://doi.org/10.3103/S0735272720010045
32. Eggermont J. J., Brain Responses to Auditory Mismatch and Novelty Detection, Academic Press, 2023, pp. 345–376. https://doi.org/10.1016/B978-0-443-15548-2.00011-9
33. Oganian Yu., Bhaya-Grossman I., Johnson K., Chang E., Neuron, 2023, vol. 111, iss. 13, 2105–2118e4. https://doi.org/10.1016/j.neuron.2023.04.004
Дополнительные файлы
Рецензия
Для цитирования:
Савченко В.В. Мера различий речевых сигналов по тембру голоса. Izmeritelʹnaya Tekhnika. 2023;(10):63-69. https://doi.org/10.32446/0368-1025it.2023-10-63-69
For citation:
Savchenko V.V. A measure of differences in speech signals by the voice timbre. Izmeritel`naya Tekhnika. 2023;(10):63-69. (In Russ.) https://doi.org/10.32446/0368-1025it.2023-10-63-69