Двухэтапный алгоритм спектрального анализа для систем автоматического распознавания речи

В. В. Савченко; Л. В. Савченко

doi:10.32446/0368-1025it.2024-7-60-69

Двухэтапный алгоритм спектрального анализа для систем автоматического распознавания речи

В. В. Савченко, Л. В. Савченко

https://doi.org/10.32446/0368-1025it.2024-7-60-69

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

В рамках динамично развивающегося направления исследований в области акустических измерений рассмотрена задача спектрального анализа речевых сигналов в системах автоматического распознавания речи. Отмечена низкая по сравнению с человеческим восприятием устной речи эффективность указанных систем в неблагоприятных условиях речепроизводства (шумы, недостаточная разборчивость звуков речи). Для повышения эффективности систем автоматического распознавания речи предложен двухэтапный алгоритм спектрального анализа речевых сигналов. Первый этап обработки речевого сигнала – параметрический спектральный анализ с использованием авторегрессионной модели голосового тракта условного диктора. Второй этап обработки – преобразование (модификация) полученной спектральной оценки по принципу частотно-избирательного усиления амплитуды основных формант внутрипериодного спектра мощности. Описана программная реализация предложенного алгоритма на базе вычислительной процедуры быстрого преобразования Фурье. С применением авторского программного обеспечения проведён натурный эксперимент: исследована аддитивная смесь гласных звуков речи контрольного диктора с белым гауссовым шумом. По результатам эксперимента сделан вывод об усилении на 10–20 дБ амплитуды основных формант речевого сигнала и, соответственно, существенном улучшении разборчивости звуков речи. Разработанный алгоритм можно применять в системах автоматического распознавания речи, основанных на обработке речевого сигнала в частотной области, в том числе, с использованием искусственных нейросетей.

Ключевые слова

речевой сигнал, спектральный анализ, голосовой тракт, авторегрессионная модель, искусственная нейронная сеть, аугментация данных

Об авторах

В. В. Савченко

Национальный исследовательский университет «Высшая школа экономики»
Россия

Владимир Васильевич Савченко

Нижний Новгород

Л. В. Савченко

Национальный исследовательский университет «Высшая школа экономики»
Россия

Людмила Васильевна Савченко

Нижний Новгород

Список литературы

1. Ternström S. Special issue on current trends and future directions in voice acoustics measurement. Applied Sciences, 13(6), 3514 (2023). https://doi.org/10.3390/app13063514

2. Mishra J., Sharma R. Vocal tract acoustic measurements for detection of pathological voice disorders. Journal of Circuits, Systems and Computers, 2450173 (2024). https://doi.org/10.1142/S0218126624501731

3. Li S. A., Liu Y. Y., Chen Y. C., Feng H. M., Shen P. K., Wu Y. C. Voice interaction recognition design in real-life scenario mobile robot applications. Applied Sciences, 13(5), 3359 (2023). https://doi.org/10.3390/app13053359

4. Савченко А. В., Савченко В. В. Метод измерений интенсивности потока гласных звуков речи для аудиовизуальных диалоговых информационных систем. Измерительная техника, (3), 65–72 (2022). https://doi.org/10.32446/0368-1025it.2022-3-65-72

5. O’Shaughnessy D. Trends and developments in automatic speech recognition research. Computer Speech and Language, 83(12) (2024). https://doi.org/10.1016/j.csl.2023.101538

6. Yu D., Deng L. Automatic speech recognition. A Deep Learning Approach. Vol. 1. Springer, London (2016). https://doi.org/10.1007/978-1-4471-5779-3

7. Савченко В. В. Дивергенция Итакуры-Саито как элемент информационной теории восприятия речи. Радиотехника и электроника, 64(6), 585–592 (2019). https://doi.org/10.1134/S0033849419060093

8. Kathiresan Th., Maurer D., Suter H., Dellwo V. Formant pattern and spectral shape ambiguity in vowel synthesis: The role of fundamental frequency and formant amplitude. The Journal of Acoustical Society of America, 143(3), 1919–1920 (2018). https://doi.org/10.1121/1.5036258

9. Fu M., Wang X., Wang J. Polynomial-Decomposition-Based LPC for Formant Estimation. IEEE Signal Processing Letters, 29, 1392–1396 (2022). https://doi.org/10.1109/LSP.2022.3181523

10. Савченко В. В. Мера различий речевых сигналов по тембру голоса. Измерительная техника, (10), 63–69 (2023). https://doi.org/10.32446/0368-1025it.2023-10-63-69

11. Tokuda I. The source–flter theory of speech. Oxford Research Encyclopedia of Linguistics (2021). https://doi.org/10.1093/acrefore/9780199384655.013.894

12. Kim H. S. Linear predictive coding is all-pole resonance modeling. Center for Computer Research in Music and Acoustics, Stanford University (2023). https://ccrma.stanford.edu/~hskim08/lpc/lpc.pdf

13. Butenko I., Slavnov N., Stroganov Yu., Kvasnikov A. Phonetic-acoustic database of trigrams for Russian dialects speech recognition. AIP Conference Proceeding, 2833(1) (2023). https://doi.org/10.1063/5.0151706

14. Shumway R. H., Stoffer D. S. Spectral analysis and fltering. In: Time series analysis and its applications. Springer Texts in Statistics. Springer, Cham (2017). https://doi.org/10.1007/978-3-319-52452-8_4

15. Marple S. L. Digital Spectral Analysis with Applications. 2-nd ed. Dover Publications, Mineola, New York (2019).

16. Савченко В. В., Савченко Л. В. Метод асинхронного анализа голосового источника речи на основе двухуровневой авторегрессионной модели речевого сигнала. Измерительная техника, 73(2), 55–62 (2024). https://doi.org/10.32446/0368-1025it. 2024-2-55-62

17. Савченко В. В., Савченко Л. В. Метод тестирования устойчивости и корректировки параметров авторегрессионной модели речевого тракта. Измерительная техника, 73(5), 54–63 (2024). https://doi.org/10.32446/0368-1025it.2024-5-54-63

18. Савченко В. В. Метод авторегрессионного моделирования речевого сигнала с использованием огибающей периодограммы Шустера в качестве опорного спектрального образца. Радиотехника и электроника, 68(2), 138–145 (2023). https://doi.org/10.31857/S0033849423020122

19. Savchenko V. V. Method for reduction of speech signal autoregression model for speech transmission systems on lowspeed communication channels. Radioelectronics and Communications Systems, 64(11), 592–603 (2021). https://doi.org/10.3103/S0735272721110030

20. Савченко В. В. Гибридный метод спектрального анализа речевых сигналов на основе авторегрессионной модели и периодограммы Шустера. Измерительная техника, (3), 61–66 (2023). https://doi.org/10.32446/0368-1025it.2023-3-61-66

21. Савченко В. В. Совершенствование методики измерения показателя точности авторегрессионной модели речевого сигнала. Измерительная техника, (10), 58–63 (2022). https://doi.org/10.32446/0368-1025it.2022-10-58-63

22. Rabiner L. R., Schafer R. W. Theory and Applications of Digital Speech Processing. Prentice Hall (2010).

23. Alku P., Kadiri S. R., Gowda D. Refning a deep learning-based formant tracker using linear prediction methods. Computer Speech & Language, 81, 101515 (2023). https://doi.org/10.1016/j.csl.2023.101515

24. Kuhn K., Kersken V., Reuter B., Egger N., Zimmermann G. Measuring the accuracy of automatic speech recognition solutions. ACM Transactions on Accessible Computing, 16(4), 1–23 (2024). https://doi.org/10.1145/3636513

25. Candan С. Making linear prediction perform like maximum likelihood in gaussian autoregressive model parameter estimation. Signal Processing, 166, 107256 (2020). https://doi.org/10.1016/j.sigpro.2019.107256

26. Боровков А. А. Математическая статистика. Дополнительные главы. Наука. Физматлит, Москва (1984).

27. Jolad B., Khanai R. An approach for speech enhancement with dysarthric speech recognition using optimization based machine learning frameworks. International Journal of Speech Technology, 26, 287–305 (2023). https://doi.org/10.1007/s10772-023-10019-y

28. Kolbæk M., Tan Z.-H., Jensen S. H., Jensen J. On Loss Functions for Supervised Monaural Time-Domain Speech Enhancement. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 28, 825–838 (2020). https://doi.org/10.1109/TASLP.2020.2968738

29. Савченко В. В., Савченко Л. В. Метод измерений показателя разборчивости речевого сигнала в информационной метрике Кульбака-Лейблера. Измерительная техника, (9), 59–64 (2019). https://doi.org/10.32446/0368-1025it.2019-9-59-64

30. Feng S., Halpern B. M., Kudina O., Scharenborg O. Towards inclusive automatic speech recognition. Computer Speech & Language, 84, 101567 (2024). https://doi.org/10.1016/j.csl.2023.101567

31. Esfandiari M., Vorobyov S. A., Karimi M. New estimation methods for autoregressive process in the presence of white observation noise. Signal Processing, 171, 107480 (2020). https://doi.org/10.1016/j.sigpro.2020.107480

32. Ngo Th., Kubo R., Akagi M. Increasing speech intelligibility and naturalness in noise based on concepts of modulation spectrum and modulation transfer function. Speech Communication, 135, 11–24 (2021). https://doi.org/10.1016/j.specom.2021.09.004

33. O’Shaughnessy D. Speech enhancement – a review of modern methods. IEEE Transactions on Human-Machine Systems, 54(1), 110–120 (2024). https://doi.org/10.1109/THMS.2023.3339663

34. Gustafsson Ph. U., Laukka P., Lindholm T. Vocal characteristics of accuracy in eyewitness testimony. Speech Communication, 146, 82–92 (2023). https://doi.org/10.1016/j.specom.2022.12.001

35. Alex A, Wang L, Gastaldo P., Cavallaro A. Data augmentation for speech separation. Speech Communication, 152, 102949 (2023). https://doi.org/10.1016/j.specom.2023.05.009

36. Aldarmaki H., Ullah A., Ram S., Zaki N. Unsupervised automatic speech recognition: a review. Speech Communication, 139, 76–91 (2022). https://doi.org/10.1016/j.specom.2022.02.005

37. Shahnawazuddin S. Developing children’s ASR system under low-resource conditions using end-to-end architecture. Digital Signal Processing, 146, 104385 (2024). https://doi.org/10.1016/j.dsp.2024.104385

38. Wei S., Zou S., Liao F. A comparison on data augmentation methods based on deep learning for audio classifcation. Journal of Physics: Conference Series, 1453(1), 012085 (2020). https://doi.org/10.1088/1742-6596/1453/1/012085

Дополнительные файлы

Рецензия

Для цитирования:

Савченко В.В., Савченко Л.В. Двухэтапный алгоритм спектрального анализа для систем автоматического распознавания речи. Измерительная техника. 2024;(7):60-69. https://doi.org/10.32446/0368-1025it.2024-7-60-69

For citation:

Savchenko V.V., Savchenko L.V. Two-stage algorithm of spectral analysis for automatic speech recognition systems. Izmeritel`naya Tekhnika. 2024;(7):60-69. (In Russ.) https://doi.org/10.32446/0368-1025it.2024-7-60-69

ISSN 0368-1025 (Print)
ISSN 2949-5237 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Измерительная техника

Двухэтапный алгоритм спектрального анализа для систем автоматического распознавания речи

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Дополнительные файлы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов