阿里云PAI BladeLLM推理引擎：超长上下文、更高性能

🆕最新资讯🆕
BladeLLM是阿里云PAI平台提供的大模型推理引擎，旨在实现高性能、低成本的大语言模型服务。BladeLLM通过深度优化和工程优化，确保不同模型在不同设备上都能达到最佳性价比。除了在常规上下文长度下进行的性能优化外，BladeLLM还突破了现有LLM推理系统的上下文长度极限，能够支持更长的输入和生成长度。这使得LLM能够在更多的应用场景中发挥作用，并且在超长上下文情况下仍然保持卓越的性能。本文将重点介绍BladeLLM在超长上下文方面的优势，包括支持的最大上下文长度和超长上下文的推理性能。随着相关应用场景的不断扩展，支持超长上下文的模型不断涌现，例如支持84K上下文的MPT StoryWriter、200K上下文的Claude 2以及256K上下文的LongLLaMA等。然而，现有的LLM推理引擎在处理超长上下文信息方面面临着挑战，存储和计算策略的限制会限制模型的最大输入输出长度。此外，推理时间的增加也导致了成本上升和用户体验下降的问题。因此，BladeLLM采用了一些技术方案来解决这些问题，如RaggedAttention和DNN-based AutoTuner。RaggedAttention是对Transformer Multi Head Attention计算的一种改进，通过在不连续的显存空间中存储连续的keys和values，实现了更高效的计算。
来源：https://juejin.cn/ai

原文链接：https://aixinjiyuan.com/1030.html，转载请注明出处~~~

评论0

升级VIP

全屏浏览

夜间模式

返回顶部

阿里云PAI BladeLLM推理引擎：超长上下文、更高性能

猜你喜欢

评论0

升级VIP

全屏浏览

夜间模式

返回顶部