

Метод тестирования устойчивости авторегрессионной модели речевого тракта и корректировки её параметров
https://doi.org/10.32446/0368-1025it.2024-5-54-63
Аннотация
В рамках традиционного направления исследований в области акустических измерений рассмотрена авторегрессионная модель речевого тракта как ключевого звена речевого аппарата человека. Указано на острую проблему обеспечения устойчивости авторегрессионной модели в системах с адаптацией параметров под наблюдаемый речевой сигнал небольшой длительности. Для преодоления указанной проблемы поставлена задача тестирования устойчивости авторегрессионной модели и корректировки её параметров по результатам тестирования. В основу исследования положена авторская методика формантного анализа гласных звуков речи через синтез рекурсивного формирующего фильтра в режиме свободных колебаний. Для решения поставленной задачи предложен метод тестирования устойчивости авторегрессионной модели речевого тракта и корректировки её параметров. Метод основан на двухэтапном алгоритме трансформации авторегрессионной модели речевого тракта. На первом этапе тестируют устойчивость авторегрессионной модели по импульсной характеристике формирующего фильтра. На втором этапе при нарушении устойчивости авторегрессионной модели модифицируют импульсную характеристику путем её поэлементного умножения на переменную экспоненциальную величину, которая асимптотически сходится к нулю. Разработан регулярный алгоритм перерасчёта модифицированной импульсной характеристики в откорректированный вектор авторегрессионных параметров на втором этапе трансформации. По результатам экспериментальной апробации предложенного метода сделан вывод о достижении гарантированной устойчивости авторегрессионной модели речевого тракта при её минимальных искажениях в частотной области. Полученные результаты полезны при разработке и модернизации систем автоматического распознавания речи, цифровой речевой связи, искусственного интеллекта и других информационных систем, использующих сжатие данных и кодирование речи на основе авторегрессионной модели речевого тракта при автоматической обработке речевого сигнала.
Об авторах
В. В. СавченкоРоссия
Владимир Васильевич Савченко, доктор технических наук, профессор
Нижний Новгород
Л. В. Савченко
Россия
Людмила Васильевна Савченко
Нижний Новгород
Список литературы
1. Ternström S. Special Issue on current trends and future directions in voice acoustics measurement. Applied Sciences, 13(6), 3514, (2023). https://doi.org/10.3390/app13063514
2. O’Shaughnessy D. Review of methods for coding of speech signals. Journal on Audio, Speech, and Music Processing, (8), (2023). https://doi.org/10.1186/s13636-023-00274-x
3. Савченко В. В. Мера различий речевых сигналов по тембру голоса. Измерительная техника, (10), 63–69 (2023). https://doi.org/10.32446/0368-1025it.2023-10-63-69
4. Rabiner L. R., Shafer R. W. Theory and Applications of Digital Speech Processing. Pearson, Boston (2010).
5. Gibson J. Mutual Information, the Linear Prediction Model and CELP Voice Codecs. Information, 10(5), 179 (2019). https://doi.org/10.3390/info10050179
6. Савченко В. В., Савченко Л. В. Метод асинхронного анализа голосового источника речи на основе двухуровневой авторегрессионной модели речевого сигнала. Измерительная техника, (2), 55–62 (2024). https://doi.org/10.32446/0368-1025it. 2024-2-55-62
7. Kim H. S. Linear predictive coding is all-pole resonance modeling, Center for Computer Research in Music and Acoustics, Stanford University (2023).
8. Савченко В. В. Метод сравнительного тестирования параметрических оценок спектра мощности: спектральный анализ через синтез временно́ го ряда. Измерительная техника, (6), 56–62 (2023). https://doi.org/10.32446/0368-1025it.2023-6-56-62
9. Savchenko V. V. Method for reduction of speech signal autoregression model for speech transmission systems on lowspeed communication channels. Radioelectronics and Communications Systems, 64, 592–603 (2021). https://doi.org/10.3103/S0735272721110030
10. Kathiresan Th., Maurer D., Suter H., Dellwo V. Formant pattern and spectral shape ambiguity in vowel synthesis: The role of fundamental frequency and formant amplitude. The Journal of Acoustical Society of America, 143(3), 1919–1920 (2018). https://doi.org/10.1121/1.5036258
11. Palaparthi A., Titze I. R. Analysis of glottal inverse filtering in the presence of source-filter interaction. Speech Communication, 123, 98–108 (2020). https://doi.org/10.1016/j.specom.2020.07.003
12. Venkatraman A. Algorithms and Software for Predictive and Perceptual Modeling of Speech. Springer Cham. (2011). https://doi.org/10.1007/978-3-031-01516-8
13. Alku P., Kadiri S. R., Gowda D. Refining a deep learning-based formant tracker using linear prediction methods. Computer Speech & Language, 81, 101515 (2023). https://doi.org/10.1016/j.csl.2023.101515
14. Fu M., Wang X., Wang J. Polynomial-Decomposition-Based LPC for Formant Estimation. IEEE Signal Processing Letters, 29, 1392–1396 (2022). https://doi.org/10.1109/LSP.2022.3181523
15. Candan С. Making linear prediction perform like maximum likelihood in gaussian autoregressive model parameter estimation. Signal Processing, 166, 107256 (2020). https://doi.org/10.1016/j.sigpro.2019.107256
16. Wei B., Gibson J. D. A new discrete spectral modeling method and an application to CELP coding, In: IEEE Signal Processing Letters, 10(4), 101–103 (2003). https://doi.org/10.1109/LSP.2003.808550
17. Sadhu S., Hermansky H. Radically Old Way of Computing Spectra: Applications in End-to-End ASR. Audio and Speech Processing (eess.AS); Sound (cs.SD). arXiv:2103.14129 [eess.AS] (2021). https://doi.org/10.48550/arXiv.2103.14129
18. Oh H. Recursively Adaptive Randomized Multi-Tree Coding (RAR MTC) of Speech with VAD/CNG. University of California, Santa Barbara, Theses and Dissertations (2023).
19. Marple S. L. Digital Spectral Analysis with Applications. 2nd ed., Dover Publications, Mineola, New York (2019).
20. Cui S., Li E., Kang X. Autoregressive Model Based Smoothing Forensics of Very Short Speech Clips. 2020 IEEE International Conference on Multimedia and Expo (ICME), London, UK, рр. 1–6 (2020). https://doi.org/10.1109/ICME46284.2020.9102765
21. Esfandiari M., Vorobyov S. A., Karimi M., New estimation methods for autoregressive process in the presence of white observation noise. Signal Processing, 171, 107480 (2020). https://doi.org/10.1016/j.sigpro.2020.107480
22. Савченко В. В., Савченко Л. В. Субоптимальный алгоритм измерения частоты основного тона с использованием дискретного фурье-преобразования речевого сигнала. Радиотехника и электроника, 68(7), 660–668 (2023). https://doi.org/10.31857/S0033849423060128
23. O’Shaughnessy D. Review of analysis methods for speech applications. Speech Communication, 151, 64–75 (2023). https://doi.org/10.1016/j.specom.2023.05.008
24. Ternström S., Pabon P. Voice Maps as a Tool for Understanding and Dealing with Variability in the Voice. Applied Sciences, 12, 11353 (2022). https://doi.org/10.3390/app122211353
25. Sun P., Mahdi A., Xu J., Qin J. Speech enhancement in spectral envelope and details subspaces. Speech Communication, 101, 57–69 (2018). https://doi.org/10.1016/j.specom.2018.05.006
26. Tohyama M. Spectral envelope and source signature analysis. In: Acoustic signals and hearing. Academic Press, 89– 110 (2020). https://doi.org/10.1016/B978-0-12-816391-7.00013-9
27. Савченко В. В. Метод авторегрессионного моделирования речевого сигнала с использованием огибающей периодограммы Шустера в качестве опорного спектрального образца. Радиотехника и электроника, 68(2), 138–145 (2023). https://doi.org/10.31857/S0033849423020122
28. El-Jaroudi A., Makhoul J. Discrete all-pole modeling. IEEE Transactions on Signal Processing, 39(2), 411–423 (1991). https://doi.org/10.1109/78.80824
29. Mustiere F., Bouchard M., Bolic M. All-Pole modeling of discrete spectral powers: a unified approach. IEEE Transactions on Audio Speech and Language Processing, 20(2), 705–708 (2012). https://doi.org/10.1109/TASL.2011.2163511
30. Савченко В. В., Савченко Л. В. Метод авторегрессионного моделирования речевого сигнала на основе его дискретного Фурье-преобразования и масштабно-инвариантной меры информационного рассогласования. Радиотехника и электроника, 66(11), 1100–1108 (2021). https://doi.org/10.31857/S0033849421110085
31. Vinay H., Lavanya P., Hippargi A. A., Purohith A., Lohith D. A comparative analysis on speech enhancement and coding techniques. In: 2021 International Conference on Recent Trends on Electronics, Information, Communication & Technology (RTEICT), Bangalore, India, 543–549 (2021). https://doi.org/10.1109/RTEICT52294.2021.9573847
32. Савченко В. В. Метод фонетического декодирования слов с подавлением фонового шума. Радиотехника и электроника, 62(7), 76–80 (2017). https://doi.org/10.7868/S0033849417070099
33. Palani S. Principles of digital signal processing. 2nd Edition. Springer Cham. (2022). https://doi.org/10.1007/978-3-030-96322-4
34. Nam S. H. Stabilizing discrete spectral modeling of audio signals. IEEE Signal Processing Letters, 9(9), 292–294 (2002). https://doi.org/10.1109/LSP.2002.803406
35. Magi C., Pohjalainen J., Backstrom T., Alku P. Stabilised weighted linear prediction. Speech Communication, 51(5), 401–411 (2009). https://doi.org/10.1016/j.specom.2008.12.005
36. Miran K. S., Pal P., Babadi B., Wu M. Sampling requirements for stable autoregressive estimation. IEEE Transactions on Signal Processing, 65(9), 2333–2347 (2017). https://doi.org/10.1109/TSP.2017.2656848
37. Kumar S., Singh S. K., Bhattacharya S. Performance evaluation of a ACF-AMDF based pitch detection scheme in realtime. International Journal of Speech Technology, 18, 521–527 (2015). https://doi.org/10.1007/s10772-015-9296-2
Дополнительные файлы
Рецензия
Для цитирования:
Савченко В.В., Савченко Л.В. Метод тестирования устойчивости авторегрессионной модели речевого тракта и корректировки её параметров. Izmeritelʹnaya Tekhnika. 2024;(5):54-63. https://doi.org/10.32446/0368-1025it.2024-5-54-63
For citation:
Savchenko V.V., Savchenko L.V. Method for testing the stability of an autoregressive model of the vocal tract and adjusting its parameters. Izmeritel`naya Tekhnika. 2024;(5):54-63. (In Russ.) https://doi.org/10.32446/0368-1025it.2024-5-54-63