英伟达推全新视觉AI语音模型 可以直接看图聊天

言西百科 879

现在AI大时代,国际各大巨子都有自己的特征AI产品方案,日前据英伟达官方消息,英伟达联合 Georgia Tech、UMD 和 HKPU 的研讨团队推出了全新的视觉言语模型 ——NVEagle。

英伟达推全新视觉AI语音模型 能够直接看图谈天

据悉,NVEagle 能够了解杂乱的实际场景,经过视觉输入进行更好的解读和回应。它的规划中心在于将图画转化为视觉符号,再与文本嵌入相结合,从而提升了对视觉信息的了解。

NVEagle包含了三个版别:Eagle-X5-7B、Eagle-X5-13B 以及 Eagle-X5-13B-Chat。其间,7B 和13B 版别首要用于一般的视觉言语使命,而13B-Chat 版别则专门针对对话式 AI 进行了微调,能够更好地进行依据视觉输入的互动。

NVEagle 的一个亮点在于采用了混合专家(MoE)机制,能够依据不同使命动态挑选最合适的视觉编码器,这极大提升了对杂乱视觉信息的处理才能。该模型已在 Hugging Face 上发布,便利研讨人员和开发者运用。

英伟达推全新视觉AI语音模型 能够直接看图谈天