九游会资讯
发布日期:2026-02-16 00:18 点击次数:171

IT之家 1 月 17 日音信,科技媒体 New Atlas 今天(1 月 17 日)发布博文,报说念称哥伦比亚大学创意机器践诺室(Creative Machines Lab)研发名为 EMO 的机器东说念主面部系统,措置仿东说念主机器东说念主“恐怖谷”效应中的舛错一环:唇形与语音的无缺同步。
{jz:field.toptypename/}
不同于传统预编程的机器东说念主,EMO 具备自我学习才气,大致通过不雅察东说念主类行径来优化本人的面部抒发,让其交互体验更接近《西部宇宙》中的科幻设定。
EMO 并未遴选刚性外壳,而是隐匿了一层柔滑的硅胶皮肤,质感接近信得过东说念主类。在这层皮肤之下,接头团队精密部署了 26 个袖珍电机(致动器)。
这些电机通过不同组合的协同运作,nba比赛外围下注app大致细密牵引皮肤,从而呈现出微妙的面部神情并禁止唇形变化。这种硬件架构为 EMO 提供了极高的解放度,让其大致模拟出从含笑到诧异等多种复杂状貌。
为了让 EMO 掌抓禁止面部的手段,接头团队引入了“视觉-看成”(Vision-to-Action, VLA)语言模子。得当初期,九游会j9团队将 EMO 置于镜前,让其就地进行数千次面部知晓。
EMO 通过录像头不雅察镜中的我方,分析电机提示与最终面部神情之间的因果相关。这一历程一样于东说念主类婴儿通过效法和不雅察自我来学习禁止肌肉,使机器东说念主配置了里面的本色感官模子。
配置基础知晓模子后,EMO 投入了进阶得当阶段。该机器东说念主不雅看了数小时的东说念主类语言和唱歌的 YouTube 视频,系统通过分析视频中的音频特征与对应的口型变化,映射听觉信号与视觉信号。
纠合此前配置的 VLA 模子,EMO 最终杀青了在发出合谚语音的同期,及时生成高度吻合的唇部看成,以致能在发声前几毫秒预判并退换口型。
尽管 EMO 现在在处理“B”和“W”等闭唇音时仍存在渺小污点,但其中枢架构已展现出渊博的后劲。接头东说念主员指出,跟着得当数据的加多,这些问题将冉冉获取措置。将来,团队谈判将 EMO 与 ChatGPT 或 Gemini 等先进的对话式 AI 整合。
IT之家附上参考地址
A Robot Learns to Lip Sync
Learning realistic lip motions for humanoid face robots
Lip-syncing robot watches your face to speak like you