智源开放3亿条语义向量模型训练数据，BGE持续迭代更新

🆕最新资讯🆕
伴随着大模型开发和应用的火热发展，Embedding作为大模型核心基础组件的重要性愈发凸显。智源发布的开源可商用中英文语义向量模型BGE在社区受到高度关注，当前BGE推出1.5版本并公布多项更新，其中首次开放了3亿条大规模训练数据，为推动该领域技术发展打下了基础。BGE的出色能力很大程度上源于其大规模、多样化的训练数据。此次更新中，智源首次将BGE的训练数据向社区开放，详细细节请参考Data Hub。MTP为迄今开源的最大规模中英文关联文本对数据集，为训练中英文语义向量模型提供重要基础。响应开发者社区，BGE功能升级基于社区反馈，BGE在其1.0版本之上进行了进一步优化，具体升级如下：模型更新，新增模型，新增功能。智源联合Hugging Face发布了一篇技术报告，报告提出用C-Pack增强中文通用语义向量模型。BGE发布自以来受到大模型开发者社区关注，累计下载量达到数十万，且已被知名开源项目集成。FlagOpen致力于打造大模型时代的AI技术基础设施，未来将持续向学术界和产业界开源更为完整的大模型全栈技术。
来源：https://juejin.cn/ai

原文链接：https://aixinjiyuan.com/985.html，转载请注明出处~~~

评论0

升级VIP

全屏浏览

夜间模式

返回顶部

智源开放3亿条语义向量模型训练数据，BGE持续迭代更新

猜你喜欢

评论0

升级VIP

全屏浏览

夜间模式

返回顶部