所有分类
  • 所有分类
  • 未分类

阿里云PAI BladeLLM推理引擎:超长上下文、更高性能

🆕最新资讯🆕
BladeLLM是阿里云PAI平台提供的大模型推理引擎,旨在实现高性能、低成本的大语言模型服务。BladeLLM通过深度优化和工程优化,确保不同模型在不同设备上都能达到最佳性价比。除了在常规上下文长度下进行的性能优化外,BladeLLM还突破了现有LLM推理系统的上下文长度极限,能够支持更长的输入和生成长度。这使得LLM能够在更多的应用场景中发挥作用,并且在超长上下文情况下仍然保持卓越的性能。本文将重点介绍BladeLLM在超长上下文方面的优势,包括支持的最大上下文长度和超长上下文的推理性能。随着相关应用场景的不断扩展,支持超长上下文的模型不断涌现,例如支持84K上下文的MPT StoryWriter、200K上下文的Claude 2以及256K上下文的LongLLaMA等。然而,现有的LLM推理引擎在处理超长上下文信息方面面临着挑战,存储和计算策略的限制会限制模型的最大输入输出长度。此外,推理时间的增加也导致了成本上升和用户体验下降的问题。因此,BladeLLM采用了一些技术方案来解决这些问题,如RaggedAttention和DNN-based AutoTuner。RaggedAttention是对Transformer Multi Head Attention计算的一种改进,通过在不连续的显存空间中存储连续的keys和values,实现了更高效的计算。
来源:https://juejin.cn/ai

原文链接:https://aixinjiyuan.com/1030.html,转载请注明出处~~~
0
广告位招租

评论0

请先
暂时无公告
显示验证码
没有账号?注册  忘记密码?