CerebrasSystems推出了全球最快的AI推理解决方案CerebrasInference,为AI行业树立了新标杆。这一突破性解决方案为Llama3.18B提供了前所未有的1,800个代币每秒的速度,为Llama3.170B提供了450个代币每秒的速度,比超大规模云中基于NVIDIAGPU的解决方案快20倍。CerebrasInference的起价仅为每百万个代币10美分,为AI工作负载提供了100倍的性价比。
人工智能推理:无与伦比的速度和准确性
CerebrasInference脱颖而出,在保持最先进精度的同时提供最快的性能。与其他为了速度而牺牲精度的解决方案不同,Cerebras在整个推理过程中都保持在16位域中。这确保开发人员可以在不牺牲AI模型质量的情况下实现高速性能。
关键要点
全球最快的人工智能推理解决方案
Llama3.18B每秒1,800个代币
Llama3.170B每秒450个代币
比基于NVIDIAGPU的解决方案快20倍
每百万个代币起价10美分
性价比高100倍
以16位精度保持最先进的准确度
提供免费、开发者和企业级版本
CerebrasInference已通过人工智能分析验证,在Llama3.18B上输出令牌的速度超过每秒1,800个,在Llama3.170B上输出令牌的速度超过每秒446个。这些速度在AI推理基准中创下了新纪录,使得CerebrasInference对于具有实时或高容量要求的AI应用程序开发人员来说特别具有吸引力。
价格与供货
CerebrasInference有三个价格极具竞争力的层级:
免费套餐:为所有登录的用户提供免费的API访问和宽松的使用限制。
开发者层:此层专为灵活的无服务器部署而设计,为用户提供API端点,成本仅为市场上替代品的一小部分。Llama3.18B和70B型号的价格分别为每百万代币10美分和60美分。
企业级:提供精细调整的模型、定制服务水平协议和专门支持。非常适合持续的工作负载,企业可以通过Cerebras管理的私有云或在客户场所访问CerebrasInference。企业定价可根据要求提供。
战略伙伴关系和未来前景
Cerebras正在与Docker、Nasdaq、LangChain、LlamaIndex、Weights&Biases、Weaviate、AgentOps和Log10等行业领导者合作,推动AI的未来发展。这些合作伙伴关系旨在通过在每个阶段提供一系列专用工具(从开源模型巨头到支持快速开发的框架)来加速AI开发。
CerebrasInference由Cerebras-3系统及其业界领先的AI处理器WaferScaleEngine3(WSE-3)提供支持。与迫使客户在速度和容量之间做出权衡的图形处理单元不同,-3可提供一流的每用户性能,同时提供高吞吐量。WSE-3的内存带宽是NvidiaH100的7,000倍,解决了生成式AI的基本技术挑战:内存带宽。
开发人员可以轻松访问CerebrasInferenceAPI,该API与OpenAIChatCompletionsAPI完全兼容,只需几行代码即可实现无缝迁移。对于那些有兴趣探索更多有关AI进步的人来说,AI驱动的网络管理、实时AI应用程序和AI开发框架等主题可能会引起他们的兴趣。这些领域正在迅速发展,为创新和增长提供了令人兴奋的机会。
通过提供无与伦比的速度、准确性和成本效益,CerebrasInference将改变AI格局,使开发人员能够构建需要复杂、多步骤、实时执行任务的下一代AI应用程序。