一种基于大模型的多模态情感分析与交互调适方法及系统与流程

发布时间:2025-08-10 15:14

积极交流:与乐观的人多交往,模仿他们的态度 #生活技巧# #情绪调节技巧# #积极心态培养#

本发明公开一种基于大模型的多模态情感分析与交互调适方法及系统,涉及人工智能和自然语言处理。


背景技术:

1、随着人工智能技术的发展,智能对话系统已广泛应用于客服、医疗咨询、教育等领域。然而,现有对话系统主要依赖于单一的文本输入进行语义理解和生成回复,缺乏对用户情感状态的精准识别和动态调适的能力。这种局限性限制了智能对话系统的用户体验,特别是在需要理解用户多模态信息,如语言、表情、语音等,并进行情感分析与调适的复杂交互应用场景中,如智慧医疗、心理咨询等,显得尤为不足。

2、现有的情感分析方法通常使用单一模态的数据,容易导致在处理多模态数据时出现信息丢失或误判。此外,现有的情感分析技术往往缺乏调适过程就直接应用于智能对话系统,无法根据用户的实时情感状态进行动态调适,特别是在涉及到长时间交互或情感敏感的场景中,无法有效应对用户情绪的波动,导致用户体验不佳。

技术实现思路

1、本发明针对现有技术的问题,提供一种基于大模型的多模态情感分析与交互调适方法及系统,适用于增强智能对话系统的情感理解和响应能力。

2、本发明提出的具体方案是:

3、本发明提供一种基于大模型的多模态情感分析与交互调适方法,包括:

4、步骤1:采集对话视频数据,对视频数据进行预处理:分别提取与处理视频帧、音频和文本,

5、步骤2:分别根据视频帧、音频和文本进行图像特征提取、语音特征提取和文本特征提取,

6、步骤3:对于每种模态x,x表示文本特征t、语音特征a和图像特征i中的任一一种,生成对应的查询向量,键向量、值向量,通过如下公式表示:

7、;

8、;

9、;

10、是可学习的权重矩阵,是偏置项,基于交叉注意力机制进行任意两种模态之间的融合,其中文本特征t对应的(,,)和语音特征a对应的(,,)进行两种模态之间交叉注意力计算获得,文本特征t对应的(,,)和图像特征i对应的(,,)进行两种模态之间交叉注意力计算获得;语音特征a对应的(,,)和文本特征t对应的(,,)进行两种模态之间交叉注意力计算获得,语音特征a对应的(,,)和图像特征i对应的(,,)进行两种模态之间交叉注意力计算获得;图像特征i对应的(,,)和文本特征t对应的(,,)进行两种模态之间交叉注意力计算获得,图像特征i对应的(,,)和语音特征a对应的(,,)进行两种模态之间交叉注意力计算获得,

11、将文本特征与其他模态的交叉注意力结果进行拼接,获得,

12、将语音特征a与其他模态的交叉注意力结果进行拼接,获得,

13、将图像特征i与其他模态的交叉注意力结果进行拼接,获得,

14、对,和应用平均池化计算得到融合后的多模态特征表示,将多模态特征表示输入多层感知机mlp:

15、;

16、为输出的情感类别概率分布,获取最高概率对应的类别为情感标签识别结果;

17、步骤4:根据识别结果中情感标签,指定情感调适的要求,生成对应的对话策略,根据对话策略进行交互,同时根据情感标签的变化动态调整对话策略。

18、进一步,所述的一种基于大模型的多模态情感分析与交互调适方法的步骤1中对视频数据进行预处理:

19、提取与处理视频帧:从视频中以预设的帧率提取图像帧序列,

20、对提取的图像帧序列进行处理,调整分辨率为224×224,并对图像帧序列进行去噪、增强对比度的操作,

21、提取与处理音频:利用多媒体处理工具从视频中分离出音频轨道,根据音频轨道分离出音频数据,对音频数据进行降噪处理及语音增强的预处理操作,

22、提取与处理文本:将音频数据中语音数据转换为文本内容,将文本内容进行去除噪音词和重复词的操作。

23、进一步,所述的一种基于大模型的多模态情感分析与交互调适方法的步骤2中根据视频帧提取的图像帧序列进行图像特征提取:将预处理后的图像帧序列输入clip模型,利用clip模型的视觉编码器提取图像视觉特征,并根据时间序列应用平均池化生成全局图像视觉特征。

24、进一步,所述的一种基于大模型的多模态情感分析与交互调适方法的步骤2中根据音频进行语音特征提取:先对音频数据进行归一化处理,并以16khz的采样率对音频进行采样,将采样输入hubert模型中,计算所有时间步的特征平均值,根据特征平均值生成时间不变的全局语音特征,全局语音特征包括语音的内容信息和语音的情感特征,语音的情感特征包括语调、音量和语速。

25、进一步,所述的一种基于大模型的多模态情感分析与交互调适方法的步骤2中根据文本进行文本特征提取:将预处理后的文本输入到baichuan-7b模型中,利用baichuan-7b模型将文本分段,并对句子进行分词处理,获得每段文本的全局特征向量,再应用平均池化得到整个文本的文本特征。

26、进一步,所述的一种基于大模型的多模态情感分析与交互调适方法的步骤4中识别结果的情感标签涉及高兴、悲伤、愤怒、中性、恐惧、厌恶、惊讶,根据情感标签指定情感调适的要求,生成对应的对话策略,将对话策略嵌入到大模型的指令prompt 中,根据指令prompt进行交互,同时根据情感标签的变化动态调整对话策略。

27、进一步,所述的一种基于大模型的多模态情感分析与交互调适方法的步骤4中根据情感标签的变化,动态调整情感标签指定的情感调适要求,动态生成对应的对话策略,将对话策略嵌入到大模型的指令prompt 中,根据指令prompt进行交互。

28、本发明还提供一种基于大模型的多模态情感分析与交互调适系统,包括采集处理模块、特征提取模块、情感识别模块和交互调适模块,

29、采集处理模块采集对话视频数据,对视频数据进行预处理:分别提取与处理视频帧、音频和文本,

30、特征提取模块分别根据视频帧、音频和文本进行图像特征提取、语音特征提取和文本特征提取,

31、情感识别模块对于每种模态x,x表示文本特征t、语音特征a和图像特征i中的任一一种,生成对应的查询向量,键向量、值向量,通过如下公式表示:

32、;

33、;

34、;

35、是可学习的权重矩阵,是偏置项,基于交叉注意力机制进行任意两种模态之间的融合,其中文本特征t对应的(,,)和语音特征a对应的(,,)进行两种模态之间交叉注意力计算获得,文本特征t对应的(,,)和图像特征i对应的(,,)进行两种模态之间交叉注意力计算获得;语音特征a对应的(,,)和文本特征t对应的(,,)进行两种模态之间交叉注意力计算获得,语音特征a对应的(,,)和图像特征i对应的(,,)进行两种模态之间交叉注意力计算获得;图像特征i对应的(,,)和文本特征t对应的(,,)进行两种模态之间交叉注意力计算获得,图像特征i对应的(,,)和语音特征a对应的(,,)进行两种模态之间交叉注意力计算获得,

36、将文本特征与其他模态的交叉注意力结果进行拼接,获得,

37、将语音特征a与其他模态的交叉注意力结果进行拼接,获得,

38、将图像特征i与其他模态的交叉注意力结果进行拼接,获得,

39、对,和应用平均池化计算得到融合后的多模态特征表示,将多模态特征表示输入多层感知机mlp:

40、;

41、为输出的情感类别概率分布,获取最高概率对应的类别为情感标签识别结果;

42、交互调适模块根据识别结果中情感标签,指定情感调适的要求,生成对应的对话策略,根据对话策略进行交互,同时根据情感标签的变化动态调整对话策略。

43、本发明的有益之处是:

44、本发明将多模态数据,如文本、语音、图像等与大语言模型有效结合,可构建具有情感分析与调适能力的智能对话系统,将不同模态的数据进行有效融合,并进行动态情感调适,使得智能对话交互过程能够根据用户情感的变化及时调整交互策略,解决情感理解和交互调适不足的问题,从而提升智能对话过程中复杂人机交互场景下的自然性和用户体验。

网址:一种基于大模型的多模态情感分析与交互调适方法及系统与流程 https://klqsh.com/news/view/135139

相关内容

一种基于生物反馈的情绪调节音乐疗法系统及其方法
文本分析的三种方法:词频统计、主题建模与情感分析
社交加圈子的方法和系统与流程
情感分析在影视推荐系统中的角色
深入解析:NLP实战(5):基于LSTM的电影评论情感分析模型研究
基于心流理论的骨折复健类APP交互设计分析
一种单兵心理调适仪系统的制作方法
一种减压塔塔顶抽真空系统及其减压方法与流程
站在DeepSeek肩膀上,小红书开源首款多模态模型:看懂表情包与数学题,一手实测
包含人与宠物互动内容的电子相册制作方法、装置及设备与流程

随便看看