以上案例主要可在视觉任务中取得应用,类似地,在语音任务中,为了获取语音分类的半监督数据,我们采用对比学习的方式,将音频特征空间和视觉特征空间对齐,从而间接的对齐音频和文本特征空间,这样可以实现通过文本搜索音频的方式来扩充训练数据。以未成年人保护项目中的年龄识别任务为例,现有年龄识别模型使用的训练数据集包含的类型、场景、风格有限,而且具有明显的长尾分布,中间年龄数据多,两端年龄数据少,严重制约了年龄识别模型的训练效果。同时,加强了对新型有害内容的分析和识别能力,采用灵活、敏捷的算法来适应不断变化的挑战。