所有分类
  • 所有分类
  • 未分类

智源发布全球最大中英文向量模型训练数据集,规模达3亿文本对

🆕最新资讯🆕
智源研究院在北京人工智能产业峰会暨中关村科学城科创大赛颁奖典礼上发布了全球最大的中英文向量模型训练数据集,包含3亿个文本对。该数据集具有规模巨大、主题丰富、数据质量高的特点,可推动解决中文模型训练数据集缺乏的问题。智源的BGE语义向量模型在该数据集上训练得到,并在性能上领先于同类别模型。该数据集的开放对于大模型训练具有重要意义,尤其是用于训练基础模型的开源数据集在大模型发展中具有重大价值。智源还提到了其之前推出的全球最大语料库WuDaoCorpora和中文开源指令数据集COIG,这些开源数据集为全球的大模型研究提供了支持。智源的BGE语义向量模型在开发者社区中备受关注,并已被知名开源项目集成。智源还不断优化更新BGE模型,新增了BGE-reranker交叉编码器模型和一些功能,以提升模型的性能和相关性。智源致力于打造FlagOpen飞智大模型技术开源体系,引领共建共享大模型时代的开源开放生态。
来源:http://weixin.sogou.com/weixin?type=1&s_from=input&query=%E6%96%B0%E6%99%BA%E5%85%83

原文链接:https://aixinjiyuan.com/989.html,转载请注明出处~~~
0
广告位招租

评论0

请先
暂时无公告
显示验证码
没有账号?注册  忘记密码?