?最新资讯?
在生成细节丰富和精确的图像描述方面,GPT-4 展现出了强大的能力,标志着一个新的语言和视觉处理时代的到来。类似于 GPT-4 的多模态大型语言模型(MLLM)近来受到关注,成为一个炙手可热的新兴研究领域。为了创造出好用的MLLM,需要使用大规模的配对的图像-文本数据以及视觉-语言微调数据来训练冻结的LLM和视觉表征之间的连接器。最近的研究表明,少量高质量的遵循指令数据可以为大型语言模型带来满意的结果。上海交通大学和里海大学的研究团队设计了一个数据选择器,能够自动识别并过滤低质量的视觉-语言数据,确保模型训练使用的都是最相关和信息最丰富的样本。研究者使用该选择器在3400个原始数据中选出了仅有200个高质量的数据子集,通过使用MiniGPT-4相同的训练配置对这些数据进行微调,得到了一个新模型:InstructionGPT-4。实验结果表明,InstructionGPT-4在多个多模态任务上表现出优越性。这项研究为多模态大型语言模型的微调提供了一个更有效的新方法。
来源:https://www.jiqizhixin.com/
原文链接:https://aixinjiyuan.com/450.html,转载请注明出处~~~
评论0