solidot新版网站常见问题,请点击这里查看。

苹果与英伟达合作改进大模型文本生成速度

苹果 人工智能
Wilson (42865)发表于 2024年12月19日 15时50分 星期四

来自天渊
苹果工程师在官方博客上透露与英伟达合作改进了大模型生成文本的速度。苹果今年早些时候开源了 Recurrent Drafter(ReDrafter) 技术,ReDrafter 代表了一种使用大模型生成文本的新方法,速度更快,它结合了束搜索(beam search)和动态树注意力(dynamic tree attention)。苹果与英伟达合作将 ReDrafter 应用于生产中,ReDrafter 被集成到在英伟达 GPU 上运行大模型的工具 NVIDIA TensorRT-LLM 中。基准测试显示,使用 ReDrafter 能显著减少延迟,使用更少的 GPU 消耗更少的电力。


https://machinelearning.apple.com/research/redrafter-nvidia-tensorrt-llm
https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/