理想L8速度

232条内容

NE时代

关注

千亿级的这种大模型的这种训练里，PTM它其实在整个训练速度和效率上，其实目前我们达到了还算不错的效果。目前在基座的这个训练阶段，训练速度我们用像TOKEN/秒或者是sample/秒来评估的话，那么在适配的相同的模型架构以后，在相同的训练集下，训练过程中的速度就像图中所示，那么是HF的transformer的5.12倍，高于DeepSpeed的transformer的1.6倍和ColossalAI的相对于HF的3.25倍，就是相对来说我们对于HF transformer的这个效果的相对的提升来说，也是最高的。

在SFT阶段整个训练速度，在适配的相同模型结构以后，在相同训练集下面，整个训练的过程也如图所示，它是这个目前行业里面就是最好开源能力的3倍以上；在强化学习RHF训练速度上面是DeepSpeed大概3.1倍左右；从吞吐力上，在适配的相同模型结构以后，在相同训练集下面TFlOPS相比DeepSpeed也要快一些。这是在整个训练的过程中，其实整个对标的情况。

当然就这块我觉得不管是目前开源的社区，还是各个公司大家自己预训练的平台上，整个进步都是非常快的。我们这块其实整个的这种迭代速度也在持续的根据我们的模型结构做更深入的进行训练的这种优化和定制。

我们其实也在做这个大模型落地应用的推理的工作，那么最核心的其实就是这个自研了LisaRT-LLM大模型的推理引擎，这一块的话其实就可以完成像百亿千亿级的参数量大模型的落地。

首先就是对于GPT这种结构的模型，我们其实跟进了一些这个行业先进的一些推理加速的方案，比如说像FusedMHA或FlashAttention这样的方案，把核心算子优先加速起来，同时就是为了提升整个吞吐力的话，我们其实使用了Continuous Batching这样的方式去提升整个服务的并发量，然后最后再通过像tppp这种结合的方式，实现整个单卡或多卡的这种模型的并行，然后来应对这种千亿级参数量的这种大模型最终的落地。

我们也结合了我们MindGPT的业务场景和英伟达在英伟达这个 SRT-LLM的这个团队，我们做了非常深入的合作，进一步来提升了这个性能，然后降低推理成本。

我们主要做的工作就包括了三部分。

第一个就是说我们就是设定了比较明确的优化目标，就是能够在产品性能要求的情况下，一般来说我们就是整个Prefill延迟大概控制在了500 500毫秒以内，然后然后我们解码的速度控制在了20~30token/秒左右，然后尽量的去把我们的服务吞吐量去撑上。

第二件事其实就是我们也在围绕MindGPT的业务场景做了定制的优化，比如说现在缓存通用的一些泡沫的结果，做一些像Prefuse的一些catch什么的，然后根据这个生成的文本长度和性能要求，针对不同的垂域去选择对应的调度优化的策略。

第三个其实就跟英伟达SRT-LLM团队的这种合作，在一些核心算子，我们可以用TRT-LLm的这个能力直接来实现，那么这块其实对我们的助力也非常大。

通过这个上述的LisaRT-LLM的优化方案以后，其实我们在2023年Q4完成MindGPT推理服务的成功的落地。这块也是伴随着整个OTA在李想同学中这个MindGPT的上线来一起完成的。这块当时我们也在跟业界的优秀的开源的LLM的推理引擎做了性能的对比，那么测试的方法其实就是使用了线上的真实数据，然后固定QPS来做压测，然后在Prefill在500毫秒以内，然后解码速度在20Token/秒以上，这样的性能要求下，大概去测试一下整个推理服务最大的吞吐量。

展开查看更多

来源于文章

鬼斗车

关注

鬼斗车观点：这份榜单上有几个看点，首先是新势力势头越来越猛，其次，豪华中大型SUV整体表现相对稳定，受冲击的速度相对较慢。此外，燃油SUV的压力越来越大。

展开查看更多

来源于文章

理想L8速度

相关推荐