Данные алгоритмы для разделения аудиопотока позволяют быстро, в течение нескольких минут вместо нескольких часов, разделять речь говорящих (пациент-терапевт), что значительно упрощает работу в исследованиях в области психотерапии.
26.10.2023
Большое депрессивное расстройство (БДР) является одной из основных причин инвалидности во всем мире. В число симптомов расстройства входят подавленное настроение, снижение интереса к привычным делам, потеря или увеличение веса и аппетита, бессонница или переизбыток сна, психомоторное возбуждение или заторможенность, усталость, чувство вины или бесполезности, снижение работоспособности и суицидальные мысли.
Несмотря на существование эффективных методов лечения (например, медикаментозное лечение) этого расстройства, они действуют на улучшение состояния лишь около половины пациентов. Это означает, что важно уже в самом начале терапии определить, какое эффективное лечение назначить пациенту, чтобы не привести к ухудшению его психического здоровья.
Исследователи Израильского Центра научных исследований данных Университета Хайфы использовали инструмент по автоматическому разделению аудиопотока (диалог врача и пациента), разработанный учеными ЛЭТИ, на записи терапевтических сессий врача с пациентами с БДР. Это действие необходимо для того, чтобы наблюдать за изменениями вокальной акустики, изменениями тембра голоса пациента.
Результаты исследования показывают, что уже после первого сеанса можно спрогнозировать симптоматические изменения на протяжении всего лечения, исходя из частот голоса пациента: в них выражены значительные затруднения в сдерживании эмоционального возбуждения.
«Специалисты Центра исследований данных Хайфского университета передали нам аудиозаписи диалогов с респондентами с шести психотерапевтических сессий. Наша задача заключалась в том, чтобы автоматизировать процесс деления аудио с помощью нейронных сетей на то, где говорит пациент, где говорит терапевт, а где – оба одновременно».
Выявление участков записи, необходимых для прогнозирования симптомов, ранее проводилось медиками вручную и занимало около восьми часов на один сеанс. Таким образом, например, на 50 пациентов с курсом лечения 8 сеансов тратилось примерно 3200 часов. Сейчас же на это может уходить несколько минут, благодаря специальному алгоритму диаризации.
Для разделения аудио по речи говорящего (пациент-терапевт) использовались нейросетевые модели, обученные на аудиозаписях терапевтических сеансов. По словам ученых, данная разработка работает с точностью в 82%.
«Стоит учесть, что наши модели могут работать с учетом плохого качества аудиозаписи и фоновых шумов», – отмечает научный сотрудник ИМЦ ФКТИ Сергей Алексеевич Романов.
Респондентами выступили взрослые мужчины и женщины с симптомами каких-либо депрессивных расстройств.
«После завершения работы мы передали алгоритм исследователям Израиля для работы с большим объемом данных с уже настоящими аудиозаписями терапевтических сессий. Мы считаем, что в перспективе созданный алгоритм позволит улучшить и ускорить качество терапии пациентов с БДР, а в дальнейшем и других заболеваний».
Результаты исследования опубликованы в научном журнале Journal of Consulting and Clinical Psychology. В проекте приняли участие ученые СПбГЭТУ «ЛЭТИ» и Центр научных исследований данных Университета Хайфы при поддержке гранта Израильского научного фонда, а также Общество психотерапевтических исследований.