Метод измерений интенсивности потока гласных звуков речи для аудиовизуальных диалоговых информационных систем

А. В. Савченко; В. В. Савченко

doi:10.32446/0368-1025it.2022-3-65-72

Метод измерений интенсивности потока гласных звуков речи для аудиовизуальных диалоговых информационных систем

А. В. Савченко, В. В. Савченко

https://doi.org/10.32446/0368-1025it.2022-3-65-72

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Рассмотрено взаимодействие двух типов модальности системы обработки аудиовизуальной информации в задаче оценки эмоционального состояния пользователей диалоговых информационных систем. Для повышения точности оценки в режиме реального времени предложено использовать аудиомодальность с целью детектирования отрезков речи повышенной эмоциональности. В качестве показателя уровня речевой эмоциональности использована интенсивность потока гласных звуков в речевом сигнале пользователя на входе информационной системы. Разработан метод измерений этого показателя по эмпирической вероятности появления гласных звуков в речевом сигнале пользователя. Представлен пример практической реализации метода в режиме мягкого реального времени. С использованием авторского программного обеспечения поставлен и проведён натурный эксперимент. Показаны достоинства предложенного метода – быстродействие и высокая чувствительность к изменениям уровня речевой эмоциональности пользователей. Полученные результаты предназначены для разработчиков современных информационных системс аудиовизуальным пользовательским интерфейсом.

Ключевые слова

акустические измерения, акустика речи, эмоциональная речь, речевой сигнал, проблема малых выборок, искусственный интеллект, биометрия

Об авторах

А. В. Савченко

Национальный исследовательский университет «Высшая школа экономики»
Россия

Андрей Владимирович Савченко

Нижний Новгород

В. В. Савченко

Нижегородский государственный лингвистический университет
Россия

Владимир Васильевич Савченко

Нижний Новгород

Список литературы

1. Davis S. K., Morningstar M., Dirks M. A., Qualter P., Personality and Individ ual Differences, 2020, vol. 160, 109938. https://doi.org/10.1016/j.paid.2020.109938

2. Arana J. M., Gordillo F., Darias J., Mestas L., Computers in Human Behavior, 2020, vol. 104, 106156. https://doi.org/10.1016/j.chb.2019.106156

3. Савченко Л. В., Савченко А. В. Метод измерений показателя динамики эмоционального состояния пользователя по его речевому сигналу в режиме реального времени // Измерительная техника. 2021. № 4. С. 49–57. https://doi.org/10.32446/0368-1025it.2021-4-49-57

4. Shaqra F. A., Duwairi R., Al-Ayyoub M., Procedia Computer Science, 2019, vol. 151, pp. 37–44. https://doi.org/10.1016/j.procs.2019.04.009

5. Савченко А. В., Савченко В. В. Способ автоматического обновления биометрических персональных данных в режиме онлайн по речевому сигналу пользователя биометрической системы // Измерительная техника. 2021. № 11. С. 60–66. https://doi.org/10.32446/0368-1025it.2021-11-60-66

6. Srinivas N., Pradhan G., Kumar P. K., Integration, 2018, vol. 63, pp. 185–195 . https://doi.org/10.1016/j.vlsi.2018.07.005

7. Rammohan R., Dhanabalsamy N., Dimov V., Eidelman F. J., Journal of Allergy and Clinical Immunology, 2017, vol. 139, no. 2, ab250. https://doi.org/10.1016/j.jaci.2016.12.804

8. Akçay M. B., Oğuz K., Speech Communication, 2020, vol. 116, pp. 56–76. https://doi.org/10.1016/j.specom.2019.12.001

9. Bourguignon M., Molinaro N., Lizarazu M. et al., NeuroImage, 2020, vol. 216, 116788. https://doi.org/10.1016/j.neuroimage.2020.

10. Cardona D. B., Nedjah N., Mourelle L. M., Neurocomputing, 2017, vol. 265, pp. 78–90. https://doi.org/10.1016/j.neucom.2016.09.140

11. Cui S., Li E., Kang X., IEEE International Conference on Multimedia and Expo (ICME), 6–10 July 2020, London, UK, IEEE, 2020, pp. 1–6. https://doi.org/10.1109/ICME46284.2020.9102765

12. Kashani H. B., Sayadiyan A., Sheikhzadeh H., Speech

13. Communication, 2017, vol. 91, pp. 28–48. https://doi.org/10.1016/j.specom.2017.04.008

14. Yongda D., Fang L., Huang X., Computers & Electrical Engineering, 2018, vol. 72, pp. 443–454. https://doi.org/10.1016/j.compeleceng.2018.09.014

15. Akbulut F. P., Perros Harry G., Shahzad M., Computer Methods and Programs in Biomedicine, 2020, vol. 195, 105571. https://doi.org/10.1016/j.cmpb.2020.105571

16. Stasak B., Epps J., Goecke R., Computer Speech & Language, 2019, vol. 53, pp. 140–155. https://doi.org/10.1016/j.csl.2018.08.001

17. Asada T., Adachi R., Takada S. et al., Proceedings of International Conference on Artifi cial Life and Robotics, 13–16 January 2020, Beppu, Oita, Japan, 2020, ALife Robotics Corporation Ltd., 2020, vol. 2, pp. 398–402. https://doi.org/10.5954/ICAROB.2020.OS16-3

18. Juan D. S., Senoussaoui M., Granger E. et al., Multimodal Fusion with Deep Neural Networks for Audio-Video Emotion Recognition, 2019. https://arxiv.org/abs/1907.03196v1 [cs.CV]. 18. Боровков А. А. Математическая статистика. СПб.: Лань, 2010. 704 с.

19. Kumar A., Shahnawazuddin S., Pradhan G., Circuits Systems, Signal Process, 2017, vol. 36, pp. 2315–2340. https://doi.org/10.1007/s00034-016-0409-1

20. Savchenko V. V., Radioelectronics and Communications Systems, 2020, vol. 63, pp. 532–542. https://doi.org/10.3103/S0735272720100039

21. Savchenko A. V., Savchenko V. V., Savchenko L. V., Optimization Letters, 2021, no. 7. https://doi.org/10.1007/s11590-021-01790-5

22. Candan Ç., Signal Processing, 2020, vol. 166, 107256. https://doi.org/10.1016/j.sigpro.2019.107256

23. Савченко В. В. Решение проблемы множественных сравнений в задачах автоматического распознавания сигналов на выходе тракта речевой связи // Электросвязь. 2017. № 12. С. 22–27.

24. Савченко В. В., Савченко A. В. Критерий гарантированного уровня значимости в задаче автоматической сегментации речевого сигнала // Радиотехника и электроника. 2020. Т. 65. № 11. С. 1101–1108. https://doi.org/10.31857/S0033849420110157

25. Kullback S. Information Theory and Statistics, N.Y., Dover Publications, 1997, 432 p.

26. Савченко В. В. Дивергенция Итакуры-Саито как элемент информационной теории восприятия речи// Радиотехника и электроника. 2019. Т. 64. № 6. С. 585–592. https://doi.org/10.1134/S0033849419060093

27. Gray R. M., Buzo A., Gray A. H., Matsuyama Y., IEEE Transactions on Signal Processing, 1980, vol. 28, no. 4, pp. 367–377. https://doi.org/10.1109/TASSP.1980.1163421

28. Savchenko V. V., Savchenko А. V., Radioelectronics and Communications Systems, 2019, vol. 62, pp. 276–286. https://doi.org/10.3103/S0735272719050042

29. Marple S. L. Digital Spectral Analysis with Applications. 2nd ed. Mineola, NY, Dover Publications, 2019, 432 p.

30. Perepelkina O., Kazimirova E., Konstantinova M., Proceedings of International Conference on Speech and Computer (SPECOM 2018), 18–22 September 2018, Leipzig, Germany, Springer, Cham, 2018, pp. 501–510. https://doi.org/10.1007/978-3-319-99579-3_52

Рецензия

Для цитирования:

Савченко А.В., Савченко В.В. Метод измерений интенсивности потока гласных звуков речи для аудиовизуальных диалоговых информационных систем. Измерительная техника. 2022;(3):65-72. https://doi.org/10.32446/0368-1025it.2022-3-65-72

For citation:

Savchenko A.V., Savchenko V.V. Method for measuring the intensity of speech vowel sounds f ow for audiovisual dialogue information systems. Izmeritel`naya Tekhnika. 2022;(3):65-72. (In Russ.) https://doi.org/10.32446/0368-1025it.2022-3-65-72

JATS XML

ISSN 0368-1025 (Print)
ISSN 2949-5237 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Измерительная техника

Метод измерений интенсивности потока гласных звуков речи для аудиовизуальных диалоговых информационных систем

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов