

Метод акустического анализа голосового источника речи в режиме реального времени
https://doi.org/10.32446/0368-1025it.2025-4-64-73
Аннотация
Рассмотрена задача неинвазивного исследования голосовой функции речевого аппарата по речевому сигналу диктора. На основе двухэтапной измерительной процедуры разработан метод акустического анализа голосового источника импульсного типа. На первом этапе измерений предусмотрена фильтрация сигнала голосового возбуждения речевого тракта, а на втором этапе – преобразование отфильтрованного сигнала в конечную импульсную последовательность, синхронную с основным тоном речевого сигнала. Рассмотрен пример технической реализации разработанного метода, оценены его вычислительная сложность и быстродействие. Установлена способность метода к работе в режиме мягкого (с задержкой на сотые доли секунды) реального времени. С использованием авторского программного обеспечения поставлен и проведён натурный эксперимент. Показано, что для конечных интервалов вокализации речевого сигнала разработанный метод гарантирует устойчивость частоты повторения и формы импульсов возбуждения, что ценно с точки зрения точности измерений всех основных параметров голосового источника речи: от частоты основного тона до амплитудных возмущений (мерцаний) импульсов источника. Полученные результаты можно использовать при разработке новых и модернизации существующих алгоритмов и технологий синтеза речевых сигналов и цифровой передачи речи по низкоскоростным каналам связи, а также систем медицинской диагностики и голосовой терапии.
Об авторах
В. В. СавченкоРоссия
Владимир Васильевич Савченко
Нижний Новгород
Л. В. Савченко
Россия
Людмила Васильевна Савченко
Нижний Новгород
Список литературы
1. Ternström S. Special issue on current trends and future directions in voice acoustics measurement. Applied Sciences, 13(6), 3514, (2023). https://doi.org/10.3390/app13063514
2. Englert M., Latoszek B. B., Behlau M. Exploring the validity of acoustic measurements and other voice assessments. Journal of Voice, 38(3), 567–571 (2024). https://doi.org/10.1016/j.jvoice.2021.12.014
3. Degottex G., Kane J., Drugman T., Raitio T., Scherer S. COVAREP – A collaborative voice analysis repository for speech technologies. 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Florence, Italy, 2014, pp. 960–964. https://doi.org/10.1109/ICASSP.2014.6853739
4. Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов: Пер. с англ. Под ред. М. В. Назарова и Ю. Н. Прохорова. Москва, Радио и связь (1981).
5. Gibson J. D. Mutual information, the linear prediction model, and CELP voice codecs. Information, 10(5), 179 (2019). https://doi.org/10.3390/info10050179
6. Gibson J. D. Speech Compression. Information, 7(2), 32 (2016). https://doi.org/10.3390/info7020032
7. Савченко В. В., Савченко Л. В. Метод асинхронного анализа голосового источника речи на основе двухуровневой авторегрессионной модели речевого сигнала. Измерительная техника, 73(2), 55–62 (2024). https://doi.org/10.32446/0368-1025it.2024-2-55-62
8. Yanushevskaya I., Murphy A., Gobl C., Ní-Chasaide A. Global waveshape parameter Rd in signaling focal prominence: Perceptual salience in the absence of f0 variation. Frontiers in Communication, 7, 1026222 (2022). https://doi.org/10.3389/fcomm.2022.1026222
9. Cabral J. P., Meireles A. R. Transformation of voice quality in singing using glottal source features. Proc. Workshop of Speech, Music and Mind (SMM19), 31–35 (2019). https://doi.org/10.21437/SMM.2019-7
10. Zhang Z. The effect of vocal tract semi-occlusion on the voice source and implications for voice therapy. The Journal of the Acoustical Society of America, 154(4), A353 (2023). https://doi.org/10.1121/10.0023772
11. Liu S., Shao J. Current methods of acoustic analysis of voice: a review. Journal of Clinical Otorhinolaryngology Head and Neck Surgery, 36(12), 966–976 (2022). https://doi.org/10.13201/j.issn.2096-7993.2022.12.016
12. Zalazar I. A., Alzamendi G. A., Zañartu M. and Schlotthauer G. Maximum correntropy linear prediction for voice inverse filtering: theoretical framework and practical implementation. IEEE Transactions on Audio, Speech and Language Processing, 33, 152–162 (2025). https://doi.org/10.1109/TASLP.2024.3512187
13. Mishra J., Sharma R. K. Vocal tract acoustic measurements for detection of pathological voice disorders. Journal of Circuits, Systems and Computers, 33(10), 2450173 (2024). https://doi.org/10.1142/S0218126624501731
14. Palaparthi A., Titze I. R. Analysis of glottal inverse filtering in the presence of source-filter interaction. Speech Communication, 123(10), 98–108 (2020). https://doi.org/10.1016/j.specom.2020.07.003
15. Cabral J. P., Richmond K., Yamagishi J. and Renals S. Glottal spectral separation for speech synthesis. IEEE Journal of Selected Topics in Signal Processing, 8(2), 195–208 (2014). https://doi.org/10.1109/JSTSP.2014.2307274
16. Zhang Z. The influence of source-filter interaction on the voice source in a three-dimensional computational model of voice production. The Journal of the Acoustical Society of America, 154(4), 2462–2475 (2023). https://doi.org/10.1121/10.0021879
17. Wang Z., Gobl Ch. Contribution of the glottal flow residual in affect-related voice transformation. Proc. Interspeech 2022, Incheon, Korea, 5288–5292 (2022). https://doi.org/10.21437/Interspeech.2022-11038
18. Bharath K., Muthu R. K. New replay attack detection using iterative adaptive inverse filtering and high frequency band. Expert Systems with Applications, 195, 116597 (2022). https://doi.org/10.1016/j.eswa.2022.116597
19. Alku P., Murtola T., Malinen J., Kuortti J., Story B., Airaksinen M., Salmi M., Vilkman E., Geneid A. OPENGLOT – An open environment for the evaluation of glottal inverse filtering. Speech Communication, 107, 38–47 (2019). https://doi.org/10.1016/j.specom.2019.01.005
20. Python G., Demierre C., Bourqui M., Bourbon A., Chardenon E., Trouville R., Laganaro M., Fougeron C. Comparison of In-Person and Online recordings in the clinical teleassessment of speech production: A Pilot Study. Brain Sciences, 13(2), 342 (2023). https://doi.org/10.3390/brainsci13020342
21. Van der Woerd B., Wu M., Parsa V., Doyle P. C., Fung K. Evaluation of acoustic analyses of voice in nonoptimized conditions. Journal of Speech, Language, and Hearing Research, 63(12), 3991–3999 (2020). https://doi.org/10.1044/2020_JSLHR-20-00212
22. Song W., Yue Y., Zhang Ya-jie et al. Multi-speaker Multi-style Speech Synthesis with Timbre and Style Disentanglement. In: Zhenhua L., Jianqing G., Kai Y., Jia J. (eds). Man-Machine Speech Communication: NCMMSC-2022. Communications in Computer and Information Science, 1765, Springer, Singapore (2022). https://doi.org/10.1007/978-981-99-2401-1_12
23. Савченко В. В., Савченко Л. В. Метод кодирования голосового источника речи со сжатием данных на основе модели линейного предсказания. Измерительная техника, 74(3), 67–78 (2025). https://doi.org/10.32446/0368-1025it.2025-3-67-78
24. Савченко В. В. Метод сравнительного тестирования параметрических оценок спектра мощности: спектральный анализ через синтез временно́ го ряда. Измерительная техника, (6), 56–62 (2023). https://doi.org/10.32446/0368-1025it.2023-6-56-62
25. Савченко В. В., Савченко Л. В. Двухэтапный алгоритм спектрального анализа для систем автоматического распознавания речи. Измерительная техника, 73(7), 60–69 (2024). https://doi.org/10.32446/0368-1025it.2024-7-60-69
26. Савченко В. В. Гибридный метод спектрального анализа речевых сигналов на основе авторегрессионной модели и периодограммы Шустера. Измерительная техника, (3), 61–66 (2023). https://doi.org/10.32446/0368-1025it.2023-3-61-66
27. Kazuya Y., Ishikawa S., Koba Y., Kijimoto Sh. and Sugiki Sh. Inverse analysis of vocal sound source using an analytical model of the vocal tract. Applied Acoustics, 150, 89–103 (2019). https://doi.org/10.1016/j.apacoust.2019.02.005
28. Савченко В. В., Савченко Л. В. Субоптимальный алгоритм измерения частоты основного тона с использованием дискретного фурье-преобразования речевого сигнала. Радиотехника и электроника, 68(7), 660–668 (2023). https://doi.org/10.31857/S0033849423060128
29. Benesty J., Chen J., Huang Y. Linear Prediction. In: Benesty J., Sondhi M. M., Huang Y. A. (eds). Springer Handbook of Speech Processing. Springer, Berlin, Heidelberg (2008). https://doi.org/10.1007/978-3-540-49127-9_7
30. Marple S. L. Digital spectral analysis with applications. 2nd ed., Mineola, Dover Publications, New York (2019).
31. Савченко В. В. Мера различий речевых сигналов по тембру голоса. Измерительная техника, (10), 63–69 (2023). https://doi.org/10.32446/0368-1025it.2023-10-63-69
32. Савченко А. В., Савченко В. В. Метод измерений интенсивности потока гласных звуков речи для аудиовизуальных диалоговых информационных систем. Измерительная техника, (3), 65–72 (2022). https://doi.org/10.32446/0368-1025it.2022-3-65-72
33. Dzerjinsky R.I., Panov A.V., Sazonov A.I. Analysis and Forecasting of Microprocessor Performance Dynamics. In: Silhavy R., Silhavy P. (eds). Software engineering methods design and application. CSOC 2024. Lecture Notes in Networks and Systems, 1118, Springer, Cham. (2024). https://doi.org/10.1007/978-3-031-70285-3_55
Дополнительные файлы
Рецензия
Для цитирования:
Савченко В.В., Савченко Л.В. Метод акустического анализа голосового источника речи в режиме реального времени. Izmeritelʹnaya Tekhnika. 2025;74(4):64-73. https://doi.org/10.32446/0368-1025it.2025-4-64-73
For citation:
Savchenko V.V., Savchenko L.V. Method of a voice source acoustic analysis in real time. Izmeritel`naya Tekhnika. 2025;74(4):64-73. (In Russ.) https://doi.org/10.32446/0368-1025it.2025-4-64-73