英伟达Groq推理芯片聚焦LPUs，三星3nm良率成关键

英伟达正评估采用Groq推理芯片设计，并关注三星3nm工艺良率。该技术通过将解码任务转移至LPUs，旨在降低AI推理延迟，优化能耗与成本。此举对OpenAI等潜在客户意义重大，但也面临内存限制和供应链挑战。

英伟达（NVIDIA）正考虑采用Groq的推理芯片设计，并将重心放在三星3nm工艺的良率上。该设计旨在通过将解码（decode）任务转移到专门的线性处理单元（LPUs）来显著降低推理延迟。

**关键技术洞察：预填充（Prefill）与解码（Decode）的权衡**

将预填充阶段的任务部署在GPU上，而将解码阶段的任务交给LPUs，这一策略的目的是为了在负载增加时，降低用户感知的延迟，并优化尾部延迟表现。分析机构DA Davidson指出，Groq类设计可能会受到内存容量的限制，因此性能的提升效果会因模型大小和并发处理需求的不同而有所差异。

**市场动态与潜在风险**

此举可能对OpenAI等客户产生直接影响。同时，三星3nm工艺的良率是影响供应链和推理单元经济性的重要因素。与台积电（TSMC）相比，三星在代工厂的生产准备度和客户信任度方面面临挑战。在规模化应用中，推理延迟、每token成本以及每查询的能耗成为衡量其竞争力的核心指标。

**架构演进：分离预填充与解码**

将预填充与解码阶段分离，为推理芯片的设计提供了一个清晰的框架：保留对带宽要求高的序列初始化工作在GPU上进行，而将占据运行时间主导地位的、串行化的token生成循环转移到LPUs。Bernstein分析师强调，这种架构上的分离是当前推理技术的核心发展趋势。

**预期效益与经济性考量**

此架构优化有望带来更低的尾部延迟和更高的每查询能耗效率。在解码阶段占据大部分运行时间的场景下，成本效益将得到显著提升。WisdomAI公司指出，随着推理需求的增长速度超过训练需求，这些单元的经济性将直接决定平台的市场竞争力。

**关于英伟达Groq推理芯片的常见问题解答**

**问：OpenAI是否已确认成为英伟达Groq推理芯片的首批客户？若属实，OpenAI将获得哪些优势？**

答：目前OpenAI尚未得到官方确认。不过，有报道称，如果解码任务能够成功转移到LPUs，OpenAI有望实现更低的延迟和更优的单元经济性。

**问：预填充与解码阶段如何映射到GPU与LPUs？哪些模型或工作负载最能从中受益？**

答：GPU主要负责预填充阶段，而LPUs则针对解码阶段进行优化。对延迟敏感的助手应用和流式token生成场景最有可能从中受益，但具体效果仍取决于内存容量和模型大小的限制。

{{userData.name}}已认证