(相关资料图)
近日,第48届IEEE声学、语音与信号处理国际会议(IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023) 公布了论文入选名单,奇富科技(原360数科)论文《基于多粒度Transformer的多模态情绪识别》(MultilevelTransformerforMultimodal EmotionRecognition)被大会接收。
ICASSP由IEEE主办,是全世界最大的、也是最全面的信号处理及其应用方面的顶级学术会议,具有权威、广泛的学界及工业界影响力,备受AI领域研究学者关注。此次入选,显示奇富科技在音频领域的技术实力达到国际领先水平。
凭借在音频技术领域的积累创新,奇富科技也不断将前沿领域研究成果应用于实践。为用户提供优质的服务一直是奇富科技运营的重中之重。相比于以往只通过文本识别用户的情绪,从用户音频中解读的情感信息更加直接和丰富,更有利于指导户交互策略、提升客户体验。而偏主观的情绪判断导致标注任务格外困难,数据标注数量较少、标注结果存在的不一致性都是情绪识别所面临的挑战。考虑到预训练模型的成功和语言表达细粒度的特征,奇富科技引入了一种新的multi-granularity的模型,可以有效融合多模态细粒度的表征和预训练的全局表征,来解决这极具价值而又充满挑战的任务。
该项技术已帮助奇富科技大幅度提升用户服务体验,有效应用在质检服务中,降低客户投诉率4%。而对于基于语音通话,通过捕捉的情绪信号,应用在用户经营、坐席指导中的探索和尝试,也一直在进行,用户的情绪表征可以帮助奇富科技更全面的理解用户,服务用户。
“随着ChatGPT在公司内的实验和落地,我们已经极大提升了对于用户在文本上的理解能力,更好的识别和挖掘音频中的信息表征已经从幕后走向台前,成为进一步提升用户理解能力的关键手段。公司在音频技术上,一直坚持投入、坚持自研,这也是我们不断进步的基石,未来我们会有更多的技术成果分享给业界。”奇富科技首席算法科学家费浩峻表示。
据介绍,奇富科技在评价情绪过程中引入了三个主要创新点:
第一,对于多模态细粒度的表征,提出multilevel transformer模型,探索不同的方式来结合音素表征和单词表征。特别地,该方法并不需要借助外部信息来进行语音和文字的对齐,而是借鉴transformer TTS的框架,把文本和语音信息,有效地结合在一起。
第二,为了充分发挥预训练模型的优势,奇富科技提出multi-granularity模型,直接把multilevel transformer模型和Bert有效结合,使细粒度信息和全局信息得到了充分的融合,模型效果有了更进一步的提升。
第三,奇富科技的multilevel transformer模型在公开数据集上取得了SOTA效果,multi-granularity模型在此基础上,又有了更大幅度的提升。
在实际业务上,奇富科技利用论文中的方法,通过自主研发的实时感知情绪模型,对潜在投诉进行及时预警和安抚,结果表明投诉率低于对照组4%。
关键词: