读唇专家汗颜，人工智能读唇工具强势登场，以后说悄悄话要注意捂着嘴-AI前沿快讯-AI工具导航

读唇专家汗颜，人工智能读唇工具强势登场，以后说悄悄话要注意捂着嘴

Symphonic Labs开发了一款新型人工智能读唇工具“Read Their Lips”，该工具可以将视频中说话者的唇部动作转换为文本信息。

该技术使用了大量的数据训练和复杂的算法模型。研究团队首先使用已知的嘴唇运动动作及其对应的文本内容来训练 AI 模型，然后通过面部检测技术识别视频中嘴唇的位置，并提取嘴唇的几何特征，包括形状、开合程度和运动轨迹等。最后，模型会分析嘴唇在说话过程中的动态变化，并将这些变化与训练数据中的特征进行匹配，从而识别出说话内容。

在实际测试中，Readtheirlips展现出了令人印象深刻的性能。例如，在一段采访中，即使说话者的表情丰富，或者在说话时有其他动作，Readtheirlips依然能够准确地识别出说话内容。然而，这款软件也存在一些限制。例如，如果视频中的人物不是全程正脸对着镜头，或者说话速度过快，Readtheirlips的识别准确率就会显著降低。此外，目前该工具支持的视频时长限制为3分钟以内，对于更长的视频内容，软件还无法处理。

开发团队表示，他们正在积极改进技术，并计划在未来延长视频时长限制。这家初创公司于今年4月份成立，团队成员不到10人，但已经展现出了强大的技术实力和创新能力。他们的另一款产品Symphonic也是一款通过阅读唇语来完成实时文本转录的软件，同样受到了市场的欢迎。

这项技术仍处于早期阶段，当前的模型在区分相似的唇部运动时会遇到困难，准确性也会显著降低。例如，“F”和“V”或“B”、“M”和“P”等声音在发音时可能看起来几乎相同。随着更多数据的添加和模型的改进，这些问题可能会逐步减少，从而提高准确性。

人类读唇者也会遇到同样的问题，在区分看起来相似的音素方面也会遇到困难。许多声音的产生伴随着非常相似的嘴型，在没有额外语境和肢体语言的帮助下，人类读唇者的平均准确率通常较低。有数据显示，大多数人平均只能正确读对一句唇语的十分之一，在专业的唇读环境中，即使是经验丰富的人类读唇专家，在测试中的正确率也仅为12.4%。

Readtheirlips可以应用于多个领域，比如在嘈杂的环境中帮助听障人士理解对话内容，或者在安全监控领域提高语音识别的准确性。然而，这项技术也引发了对隐私保护的担忧。毕竟，如果AI能够轻易地读懂人们的唇语，那么在公共场合的私密对话就可能被轻易窃取。