Preview

Измерительная техника

Расширенный поиск
Доступ открыт Открытый доступ  Доступ закрыт Только для подписчиков

Метод тестирования устойчивости авторегрессионной модели речевого тракта и корректировки её параметров

https://doi.org/10.32446/0368-1025it.2024-5-54-63

Аннотация

В рамках традиционного направления исследований в области акустических измерений рассмотрена авторегрессионная модель речевого тракта как ключевого звена речевого аппарата человека. Указано на острую проблему обеспечения устойчивости авторегрессионной модели в системах с адаптацией параметров под наблюдаемый речевой сигнал небольшой длительности. Для преодоления указанной проблемы поставлена задача тестирования устойчивости авторегрессионной модели и корректировки её параметров по результатам тестирования. В основу исследования положена авторская методика формантного анализа гласных звуков речи через синтез рекурсивного формирующего фильтра в режиме свободных колебаний. Для решения поставленной задачи предложен метод тестирования устойчивости авторегрессионной модели речевого тракта и корректировки её параметров. Метод основан на двухэтапном алгоритме трансформации авторегрессионной модели речевого тракта. На первом этапе тестируют устойчивость авторегрессионной модели по импульсной характеристике формирующего фильтра. На втором этапе при нарушении устойчивости авторегрессионной модели модифицируют импульсную характеристику путем её поэлементного умножения на переменную экспоненциальную величину, которая асимптотически сходится к нулю. Разработан регулярный алгоритм перерасчёта модифицированной импульсной характеристики в откорректированный вектор авторегрессионных параметров на втором этапе трансформации. По результатам экспериментальной апробации предложенного метода сделан вывод о достижении гарантированной устойчивости авторегрессионной модели речевого тракта при её минимальных искажениях в частотной области. Полученные результаты полезны при разработке и модернизации систем автоматического распознавания речи, цифровой речевой связи, искусственного интеллекта и других информационных систем, использующих сжатие данных и кодирование речи на основе авторегрессионной модели речевого тракта при автоматической обработке речевого сигнала.

Об авторах

В. В. Савченко
Национальный исследовательский университет «Высшая школа экономики»
Россия

Владимир Васильевич Савченко, доктор технических наук, профессор

Нижний Новгород



Л. В. Савченко
Национальный исследовательский университет «Высшая школа экономики»
Россия

Людмила Васильевна Савченко

Нижний Новгород



Список литературы

1. Ternström S. Special Issue on current trends and future directions in voice acoustics measurement. Applied Sciences, 13(6), 3514, (2023). https://doi.org/10.3390/app13063514

2. O’Shaughnessy D. Review of methods for coding of speech signals. Journal on Audio, Speech, and Music Processing, (8), (2023). https://doi.org/10.1186/s13636-023-00274-x

3. Савченко В. В. Мера различий речевых сигналов по тембру голоса. Измерительная техника, (10), 63–69 (2023). https://doi.org/10.32446/0368-1025it.2023-10-63-69

4. Rabiner L. R., Shafer R. W. Theory and Applications of Digital Speech Processing. Pearson, Boston (2010).

5. Gibson J. Mutual Information, the Linear Prediction Model and CELP Voice Codecs. Information, 10(5), 179 (2019). https://doi.org/10.3390/info10050179

6. Савченко В. В., Савченко Л. В. Метод асинхронного анализа голосового источника речи на основе двухуровневой авторегрессионной модели речевого сигнала. Измерительная техника, (2), 55–62 (2024). https://doi.org/10.32446/0368-1025it. 2024-2-55-62

7. Kim H. S. Linear predictive coding is all-pole resonance modeling, Center for Computer Research in Music and Acoustics, Stanford University (2023).

8. Савченко В. В. Метод сравнительного тестирования параметрических оценок спектра мощности: спектральный анализ через синтез временно́ го ряда. Измерительная техника, (6), 56–62 (2023). https://doi.org/10.32446/0368-1025it.2023-6-56-62

9. Savchenko V. V. Method for reduction of speech signal autoregression model for speech transmission systems on lowspeed communication channels. Radioelectronics and Communications Systems, 64, 592–603 (2021). https://doi.org/10.3103/S0735272721110030

10. Kathiresan Th., Maurer D., Suter H., Dellwo V. Formant pattern and spectral shape ambiguity in vowel synthesis: The role of fundamental frequency and formant amplitude. The Journal of Acoustical Society of America, 143(3), 1919–1920 (2018). https://doi.org/10.1121/1.5036258

11. Palaparthi A., Titze I. R. Analysis of glottal inverse filtering in the presence of source-filter interaction. Speech Communication, 123, 98–108 (2020). https://doi.org/10.1016/j.specom.2020.07.003

12. Venkatraman A. Algorithms and Software for Predictive and Perceptual Modeling of Speech. Springer Cham. (2011). https://doi.org/10.1007/978-3-031-01516-8

13. Alku P., Kadiri S. R., Gowda D. Refining a deep learning-based formant tracker using linear prediction methods. Computer Speech & Language, 81, 101515 (2023). https://doi.org/10.1016/j.csl.2023.101515

14. Fu M., Wang X., Wang J. Polynomial-Decomposition-Based LPC for Formant Estimation. IEEE Signal Processing Letters, 29, 1392–1396 (2022). https://doi.org/10.1109/LSP.2022.3181523

15. Candan С. Making linear prediction perform like maximum likelihood in gaussian autoregressive model parameter estimation. Signal Processing, 166, 107256 (2020). https://doi.org/10.1016/j.sigpro.2019.107256

16. Wei B., Gibson J. D. A new discrete spectral modeling method and an application to CELP coding, In: IEEE Signal Processing Letters, 10(4), 101–103 (2003). https://doi.org/10.1109/LSP.2003.808550

17. Sadhu S., Hermansky H. Radically Old Way of Computing Spectra: Applications in End-to-End ASR. Audio and Speech Processing (eess.AS); Sound (cs.SD). arXiv:2103.14129 [eess.AS] (2021). https://doi.org/10.48550/arXiv.2103.14129

18. Oh H. Recursively Adaptive Randomized Multi-Tree Coding (RAR MTC) of Speech with VAD/CNG. University of California, Santa Barbara, Theses and Dissertations (2023).

19. Marple S. L. Digital Spectral Analysis with Applications. 2nd ed., Dover Publications, Mineola, New York (2019).

20. Cui S., Li E., Kang X. Autoregressive Model Based Smoothing Forensics of Very Short Speech Clips. 2020 IEEE International Conference on Multimedia and Expo (ICME), London, UK, рр. 1–6 (2020). https://doi.org/10.1109/ICME46284.2020.9102765

21. Esfandiari M., Vorobyov S. A., Karimi M., New estimation methods for autoregressive process in the presence of white observation noise. Signal Processing, 171, 107480 (2020). https://doi.org/10.1016/j.sigpro.2020.107480

22. Савченко В. В., Савченко Л. В. Субоптимальный алгоритм измерения частоты основного тона с использованием дискретного фурье-преобразования речевого сигнала. Радиотехника и электроника, 68(7), 660–668 (2023). https://doi.org/10.31857/S0033849423060128

23. O’Shaughnessy D. Review of analysis methods for speech applications. Speech Communication, 151, 64–75 (2023). https://doi.org/10.1016/j.specom.2023.05.008

24. Ternström S., Pabon P. Voice Maps as a Tool for Understanding and Dealing with Variability in the Voice. Applied Sciences, 12, 11353 (2022). https://doi.org/10.3390/app122211353

25. Sun P., Mahdi A., Xu J., Qin J. Speech enhancement in spectral envelope and details subspaces. Speech Communication, 101, 57–69 (2018). https://doi.org/10.1016/j.specom.2018.05.006

26. Tohyama M. Spectral envelope and source signature analysis. In: Acoustic signals and hearing. Academic Press, 89– 110 (2020). https://doi.org/10.1016/B978-0-12-816391-7.00013-9

27. Савченко В. В. Метод авторегрессионного моделирования речевого сигнала с использованием огибающей периодограммы Шустера в качестве опорного спектрального образца. Радиотехника и электроника, 68(2), 138–145 (2023). https://doi.org/10.31857/S0033849423020122

28. El-Jaroudi A., Makhoul J. Discrete all-pole modeling. IEEE Transactions on Signal Processing, 39(2), 411–423 (1991). https://doi.org/10.1109/78.80824

29. Mustiere F., Bouchard M., Bolic M. All-Pole modeling of discrete spectral powers: a unified approach. IEEE Transactions on Audio Speech and Language Processing, 20(2), 705–708 (2012). https://doi.org/10.1109/TASL.2011.2163511

30. Савченко В. В., Савченко Л. В. Метод авторегрессионного моделирования речевого сигнала на основе его дискретного Фурье-преобразования и масштабно-инвариантной меры информационного рассогласования. Радиотехника и электроника, 66(11), 1100–1108 (2021). https://doi.org/10.31857/S0033849421110085

31. Vinay H., Lavanya P., Hippargi A. A., Purohith A., Lohith D. A comparative analysis on speech enhancement and coding techniques. In: 2021 International Conference on Recent Trends on Electronics, Information, Communication & Technology (RTEICT), Bangalore, India, 543–549 (2021). https://doi.org/10.1109/RTEICT52294.2021.9573847

32. Савченко В. В. Метод фонетического декодирования слов с подавлением фонового шума. Радиотехника и электроника, 62(7), 76–80 (2017). https://doi.org/10.7868/S0033849417070099

33. Palani S. Principles of digital signal processing. 2nd Edition. Springer Cham. (2022). https://doi.org/10.1007/978-3-030-96322-4

34. Nam S. H. Stabilizing discrete spectral modeling of audio signals. IEEE Signal Processing Letters, 9(9), 292–294 (2002). https://doi.org/10.1109/LSP.2002.803406

35. Magi C., Pohjalainen J., Backstrom T., Alku P. Stabilised weighted linear prediction. Speech Communication, 51(5), 401–411 (2009). https://doi.org/10.1016/j.specom.2008.12.005

36. Miran K. S., Pal P., Babadi B., Wu M. Sampling requirements for stable autoregressive estimation. IEEE Transactions on Signal Processing, 65(9), 2333–2347 (2017). https://doi.org/10.1109/TSP.2017.2656848

37. Kumar S., Singh S. K., Bhattacharya S. Performance evaluation of a ACF-AMDF based pitch detection scheme in realtime. International Journal of Speech Technology, 18, 521–527 (2015). https://doi.org/10.1007/s10772-015-9296-2


Дополнительные файлы

Рецензия

Для цитирования:


Савченко В.В., Савченко Л.В. Метод тестирования устойчивости авторегрессионной модели речевого тракта и корректировки её параметров. Izmeritelʹnaya Tekhnika. 2024;(5):54-63. https://doi.org/10.32446/0368-1025it.2024-5-54-63

For citation:


Savchenko V.V., Savchenko L.V. Method for testing the stability of an autoregressive model of the vocal tract and adjusting its parameters. Izmeritel`naya Tekhnika. 2024;(5):54-63. (In Russ.) https://doi.org/10.32446/0368-1025it.2024-5-54-63

Просмотров: 114


ISSN 0368-1025 (Print)
ISSN 2949-5237 (Online)