Cerebras推出全球最快AI推理

发布时间：2024-08-31 09:33:21 来源：

标签：

导读 CerebrasSystems推出了全球最快的AI推理解决方案CerebrasInference，为AI行业树立了新标杆。这一突破性解决方案为Llama3 18B提供了前所未有

CerebrasSystems推出了全球最快的AI推理解决方案CerebrasInference，为AI行业树立了新标杆。这一突破性解决方案为Llama3.18B提供了前所未有的1,800个代币每秒的速度，为Llama3.170B提供了450个代币每秒的速度，比超大规模云中基于NVIDIAGPU的解决方案快20倍。CerebrasInference的起价仅为每百万个代币10美分，为AI工作负载提供了100倍的性价比。

人工智能推理：无与伦比的速度和准确性

CerebrasInference脱颖而出，在保持最先进精度的同时提供最快的性能。与其他为了速度而牺牲精度的解决方案不同，Cerebras在整个推理过程中都保持在16位域中。这确保开发人员可以在不牺牲AI模型质量的情况下实现高速性能。

关键要点

全球最快的人工智能推理解决方案

Llama3.18B每秒1,800个代币

Llama3.170B每秒450个代币

比基于NVIDIAGPU的解决方案快20倍

每百万个代币起价10美分

性价比高100倍

以16位精度保持最先进的准确度

提供免费、开发者和企业级版本

CerebrasInference已通过人工智能分析验证，在Llama3.18B上输出令牌的速度超过每秒1,800个，在Llama3.170B上输出令牌的速度超过每秒446个。这些速度在AI推理基准中创下了新纪录，使得CerebrasInference对于具有实时或高容量要求的AI应用程序开发人员来说特别具有吸引力。

价格与供货

CerebrasInference有三个价格极具竞争力的层级：

免费套餐：为所有登录的用户提供免费的API访问和宽松的使用限制。

开发者层：此层专为灵活的无服务器部署而设计，为用户提供API端点，成本仅为市场上替代品的一小部分。Llama3.18B和70B型号的价格分别为每百万代币10美分和60美分。

企业级：提供精细调整的模型、定制服务水平协议和专门支持。非常适合持续的工作负载，企业可以通过Cerebras管理的私有云或在客户场所访问CerebrasInference。企业定价可根据要求提供。

战略伙伴关系和未来前景

Cerebras正在与Docker、Nasdaq、LangChain、LlamaIndex、Weights&Biases、Weaviate、AgentOps和Log10等行业领导者合作，推动AI的未来发展。这些合作伙伴关系旨在通过在每个阶段提供一系列专用工具(从开源模型巨头到支持快速开发的框架)来加速AI开发。

CerebrasInference由Cerebras-3系统及其业界领先的AI处理器WaferScaleEngine3(WSE-3)提供支持。与迫使客户在速度和容量之间做出权衡的图形处理单元不同，-3可提供一流的每用户性能，同时提供高吞吐量。WSE-3的内存带宽是NvidiaH100的7,000倍，解决了生成式AI的基本技术挑战：内存带宽。

开发人员可以轻松访问CerebrasInferenceAPI，该API与OpenAIChatCompletionsAPI完全兼容，只需几行代码即可实现无缝迁移。对于那些有兴趣探索更多有关AI进步的人来说，AI驱动的网络管理、实时AI应用程序和AI开发框架等主题可能会引起他们的兴趣。这些领域正在迅速发展，为创新和增长提供了令人兴奋的机会。

通过提供无与伦比的速度、准确性和成本效益，CerebrasInference将改变AI格局，使开发人员能够构建需要复杂、多步骤、实时执行任务的下一代AI应用程序。

猜你喜欢

最新文章