
前沿资讯
1726214646更新
0
Symphonic Labs开发了一款新型人工智能读唇工具“Read Their Lips”,该工具可以将视频中说话者的唇部动作转换为文本信息。
该技术使用了大量的数据训练和复杂的算法模型。研究团队首先使用已知的嘴唇运动动作及其对应的文本内容来训练 AI 模型,然后通过面部检测技术识别视频中嘴唇的位置,并提取嘴唇的几何特征,包括形状、开合程度和运动轨迹等。最后,模型会分析嘴唇在说话过程中的动态变化,并将这些变化与训练数据中的特征进行匹配,从而识别出说话内容。
在实际测试中,Readtheirlips展现出了令人印象深刻的性能。例如,在一段采访中,即使说话者的表情丰富,或者在说话时有其他动作,Readtheirlips依然能够准确地识别出说话内容。然而,这款软件也存在一些限制。例如,如果视频中的人物不是全程正脸对着镜头,或者说话速度过快,Readtheirlips的识别准确率就会显著降低。此外,目前该工具支持的视频时长限制为3分钟以内,对于更长的视频内容,软件还无法处理。
开发团队表示,他们正在积极改进技术,并计划在未来延长视频时长限制。这家初创公司于今年4月份成立,团队成员不到10人,但已经展现出了强大的技术实力和创新能力。他们的另一款产品Symphonic也是一款通过阅读唇语来完成实时文本转录的软件,同样受到了市场的欢迎。
这项技术仍处于早期阶段,当前的模型在区分相似的唇部运动时会遇到困难,准确性也会显著降低。例如,“F”和“V”或“B”、“M”和“P”等声音在发音时可能看起来几乎相同。随着更多数据的添加和模型的改进,这些问题可能会逐步减少,从而提高准确性。
人类读唇者也会遇到同样的问题,在区分看起来相似的音素方面也会遇到困难。许多声音的产生伴随着非常相似的嘴型,在没有额外语境和肢体语言的帮助下,人类读唇者的平均准确率通常较低。有数据显示,大多数人平均只能正确读对一句唇语的十分之一,在专业的唇读环境中,即使是经验丰富的人类读唇专家,在测试中的正确率也仅为12.4%。
Readtheirlips可以应用于多个领域,比如在嘈杂的环境中帮助听障人士理解对话内容,或者在安全监控领域提高语音识别的准确性。然而,这项技术也引发了对隐私保护的担忧。毕竟,如果AI能够轻易地读懂人们的唇语,那么在公共场合的私密对话就可能被轻易窃取。