

Метод измерений интенсивности потока гласных звуков речи для аудиовизуальных диалоговых информационных систем
https://doi.org/10.32446/0368-1025it.2022-3-65-72
Аннотация
Рассмотрено взаимодействие двух типов модальности системы обработки аудиовизуальной информации в задаче оценки эмоционального состояния пользователей диалоговых информационных систем. Для повышения точности оценки в режиме реального времени предложено использовать аудиомодальность с целью детектирования отрезков речи повышенной эмоциональности. В качестве показателя уровня речевой эмоциональности использована интенсивность потока гласных звуков в речевом сигнале пользователя на входе информационной системы. Разработан метод измерений этого показателя по эмпирической вероятности появления гласных звуков в речевом сигнале пользователя. Представлен пример практической реализации метода в режиме мягкого реального времени. С использованием авторского программного обеспечения поставлен и проведён натурный эксперимент. Показаны достоинства предложенного метода – быстродействие и высокая чувствительность к изменениям уровня речевой эмоциональности пользователей. Полученные результаты предназначены для разработчиков современных информационных системс аудиовизуальным пользовательским интерфейсом.
Об авторах
А. В. СавченкоРоссия
Андрей Владимирович Савченко
Нижний Новгород
В. В. Савченко
Россия
Владимир Васильевич Савченко
Нижний Новгород
Список литературы
1. Davis S. K., Morningstar M., Dirks M. A., Qualter P., Personality and Individ ual Differences, 2020, vol. 160, 109938. https://doi.org/10.1016/j.paid.2020.109938
2. Arana J. M., Gordillo F., Darias J., Mestas L., Computers in Human Behavior, 2020, vol. 104, 106156. https://doi.org/10.1016/j.chb.2019.106156
3. Савченко Л. В., Савченко А. В. Метод измерений показателя динамики эмоционального состояния пользователя по его речевому сигналу в режиме реального времени // Измерительная техника. 2021. № 4. С. 49–57. https://doi.org/10.32446/0368-1025it.2021-4-49-57
4. Shaqra F. A., Duwairi R., Al-Ayyoub M., Procedia Computer Science, 2019, vol. 151, pp. 37–44. https://doi.org/10.1016/j.procs.2019.04.009
5. Савченко А. В., Савченко В. В. Способ автоматического обновления биометрических персональных данных в режиме онлайн по речевому сигналу пользователя биометрической системы // Измерительная техника. 2021. № 11. С. 60–66. https://doi.org/10.32446/0368-1025it.2021-11-60-66
6. Srinivas N., Pradhan G., Kumar P. K., Integration, 2018, vol. 63, pp. 185–195 . https://doi.org/10.1016/j.vlsi.2018.07.005
7. Rammohan R., Dhanabalsamy N., Dimov V., Eidelman F. J., Journal of Allergy and Clinical Immunology, 2017, vol. 139, no. 2, ab250. https://doi.org/10.1016/j.jaci.2016.12.804
8. Akçay M. B., Oğuz K., Speech Communication, 2020, vol. 116, pp. 56–76. https://doi.org/10.1016/j.specom.2019.12.001
9. Bourguignon M., Molinaro N., Lizarazu M. et al., NeuroImage, 2020, vol. 216, 116788. https://doi.org/10.1016/j.neuroimage.2020.
10. Cardona D. B., Nedjah N., Mourelle L. M., Neurocomputing, 2017, vol. 265, pp. 78–90. https://doi.org/10.1016/j.neucom.2016.09.140
11. Cui S., Li E., Kang X., IEEE International Conference on Multimedia and Expo (ICME), 6–10 July 2020, London, UK, IEEE, 2020, pp. 1–6. https://doi.org/10.1109/ICME46284.2020.9102765
12. Kashani H. B., Sayadiyan A., Sheikhzadeh H., Speech
13. Communication, 2017, vol. 91, pp. 28–48. https://doi.org/10.1016/j.specom.2017.04.008
14. Yongda D., Fang L., Huang X., Computers & Electrical Engineering, 2018, vol. 72, pp. 443–454. https://doi.org/10.1016/j.compeleceng.2018.09.014
15. Akbulut F. P., Perros Harry G., Shahzad M., Computer Methods and Programs in Biomedicine, 2020, vol. 195, 105571. https://doi.org/10.1016/j.cmpb.2020.105571
16. Stasak B., Epps J., Goecke R., Computer Speech & Language, 2019, vol. 53, pp. 140–155. https://doi.org/10.1016/j.csl.2018.08.001
17. Asada T., Adachi R., Takada S. et al., Proceedings of International Conference on Artifi cial Life and Robotics, 13–16 January 2020, Beppu, Oita, Japan, 2020, ALife Robotics Corporation Ltd., 2020, vol. 2, pp. 398–402. https://doi.org/10.5954/ICAROB.2020.OS16-3
18. Juan D. S., Senoussaoui M., Granger E. et al., Multimodal Fusion with Deep Neural Networks for Audio-Video Emotion Recognition, 2019. https://arxiv.org/abs/1907.03196v1 [cs.CV]. 18. Боровков А. А. Математическая статистика. СПб.: Лань, 2010. 704 с.
19. Kumar A., Shahnawazuddin S., Pradhan G., Circuits Systems, Signal Process, 2017, vol. 36, pp. 2315–2340. https://doi.org/10.1007/s00034-016-0409-1
20. Savchenko V. V., Radioelectronics and Communications Systems, 2020, vol. 63, pp. 532–542. https://doi.org/10.3103/S0735272720100039
21. Savchenko A. V., Savchenko V. V., Savchenko L. V., Optimization Letters, 2021, no. 7. https://doi.org/10.1007/s11590-021-01790-5
22. Candan Ç., Signal Processing, 2020, vol. 166, 107256. https://doi.org/10.1016/j.sigpro.2019.107256
23. Савченко В. В. Решение проблемы множественных сравнений в задачах автоматического распознавания сигналов на выходе тракта речевой связи // Электросвязь. 2017. № 12. С. 22–27.
24. Савченко В. В., Савченко A. В. Критерий гарантированного уровня значимости в задаче автоматической сегментации речевого сигнала // Радиотехника и электроника. 2020. Т. 65. № 11. С. 1101–1108. https://doi.org/10.31857/S0033849420110157
25. Kullback S. Information Theory and Statistics, N.Y., Dover Publications, 1997, 432 p.
26. Савченко В. В. Дивергенция Итакуры-Саито как элемент информационной теории восприятия речи// Радиотехника и электроника. 2019. Т. 64. № 6. С. 585–592. https://doi.org/10.1134/S0033849419060093
27. Gray R. M., Buzo A., Gray A. H., Matsuyama Y., IEEE Transactions on Signal Processing, 1980, vol. 28, no. 4, pp. 367–377. https://doi.org/10.1109/TASSP.1980.1163421
28. Savchenko V. V., Savchenko А. V., Radioelectronics and Communications Systems, 2019, vol. 62, pp. 276–286. https://doi.org/10.3103/S0735272719050042
29. Marple S. L. Digital Spectral Analysis with Applications. 2nd ed. Mineola, NY, Dover Publications, 2019, 432 p.
30. Perepelkina O., Kazimirova E., Konstantinova M., Proceedings of International Conference on Speech and Computer (SPECOM 2018), 18–22 September 2018, Leipzig, Germany, Springer, Cham, 2018, pp. 501–510. https://doi.org/10.1007/978-3-319-99579-3_52
Рецензия
Для цитирования:
Савченко А.В., Савченко В.В. Метод измерений интенсивности потока гласных звуков речи для аудиовизуальных диалоговых информационных систем. Izmeritelʹnaya Tekhnika. 2022;(3):65-72. https://doi.org/10.32446/0368-1025it.2022-3-65-72
For citation:
Savchenko A.V., Savchenko V.V. Method for measuring the intensity of speech vowel sounds f ow for audiovisual dialogue information systems. Izmeritel`naya Tekhnika. 2022;(3):65-72. (In Russ.) https://doi.org/10.32446/0368-1025it.2022-3-65-72