medRxiv preprint 2026-05-30 Score 70

VoiceFM：迈向临床语音生物标志物的基础模型

新模型VoiceFM通过对比学习整合临床元数据，在多种疾病和录音环境中实现通用语音表征。

研究人员推出了VoiceFM，一种用于学习通用临床语音表征的对比学习模型。该模型将微调的Whisper large-v2编码器与处理44项临床元数据的表格变换器相结合，旨在克服传统语音生物标志物在单一疾病和特定录音环境下泛化能力有限的瓶颈。

VoiceFM基于Bridge2AI-Voice数据集进行训练和验证，该数据集包含来自5个学术医疗中心的984名成年参与者，共计40056条录音，总时长176小时。其中846名参与者的数据用于训练，138名作为时间分离验证队列，确保了模型评估的可靠性。

研究结果表明，VoiceFM在多种疾病状态和录音条件下均能有效学习具有临床意义的语音表征，为开发更普适的语音生物标志物奠定了基础。该研究目前以预印本形式发布，尚未经过同行评审。

voice biomarkersclinical AIcontrastive learning