所有分类
  • 所有分类
  • 未分类

智源开放3亿条语义向量模型训练数据,BGE持续迭代更新

🆕最新资讯🆕
伴随着大模型开发和应用的火热发展,Embedding作为大模型核心基础组件的重要性愈发凸显。智源发布的开源可商用中英文语义向量模型BGE在社区受到高度关注,当前BGE推出1.5版本并公布多项更新,其中首次开放了3亿条大规模训练数据,为推动该领域技术发展打下了基础。BGE的出色能力很大程度上源于其大规模、多样化的训练数据。此次更新中,智源首次将BGE的训练数据向社区开放,详细细节请参考Data Hub。MTP为迄今开源的最大规模中英文关联文本对数据集,为训练中英文语义向量模型提供重要基础。响应开发者社区,BGE功能升级基于社区反馈,BGE在其1.0版本之上进行了进一步优化,具体升级如下:模型更新,新增模型,新增功能。智源联合Hugging Face发布了一篇技术报告,报告提出用C-Pack增强中文通用语义向量模型。BGE发布自以来受到大模型开发者社区关注,累计下载量达到数十万,且已被知名开源项目集成。FlagOpen致力于打造大模型时代的AI技术基础设施,未来将持续向学术界和产业界开源更为完整的大模型全栈技术。
来源:https://juejin.cn/ai

原文链接:https://aixinjiyuan.com/985.html,转载请注明出处~~~
0
广告位招租

评论0

请先
暂时无公告
显示验证码
没有账号?注册  忘记密码?