🆕最新资讯🆕
ChatGPT的出现引爆了2023年的基于大语言模型的AI浪潮。随后,各种开源大语言模型陆续问世,包括Flan-T5、Vicuna、LLaMA、Alpaca等。为了模拟多模态的世界,研究者们将纯语言的大模型扩展到处理语言之外的多模态大语言模型,如支持图像类的MiniGPT-4、BLIP-2、Flamingo、InstructBLIP等,支持视频类的Video-LLaMA、PandaGPT等,以及支持声音类的SpeechGPT等等。然而,现有的多模态大语言模型仍然离真正的人类级AGI有所差距。新加坡国立大学的NExT++实验室的华人团队率先开源了一款支持任意模态输入到任意模态输出的通用多模态大模型NExT-GPT。NExT-GPT的代码已经开源,并且上线了Demo系统。NExT-GPT能够准确理解用户输入的各种组合模态下的内容,并准确灵活地返回用户所需的多模态内容。它统一了大部分跨模态领域的常见任务,实现了真正意义上的任意模态的通用理解能力。NExT-GPT的实现原理非常简单,通过连接现有的开源语言模型、多模态编码器和各种模态解码器,构成了整体框架。它由编码端、推理中枢和解码器构成。编码端利用开源的编码器对各种输入模态进行编码,然后通过投影层将这些特征投影为类似语言的表征。推理中枢利用开源语言模型处理输入信息,进行语义理解和推理。多模生成阶段利用各种开源的图像、声音和视频扩散模型,根据指令信号生成相应的模态内容。NExT-GPT的开源将进一步推动多模态学习的研究和应用,为AI领域带来更多可能性。
来源:https://www.jiqizhixin.com/
原文链接:https://aixinjiyuan.com/1050.html,转载请注明出处~~~
评论0