(原标题:又一颗芯片,要吊打英伟达)
公众号记得加星标,第一时间看推送不会错过。
近年来,围绕着下一代人工智能的竞争正在涌现新的战线,而处于核心地位的是一家名为 Positron AI 的初创公司,其雄心勃勃的计划正在半导体行业引起广泛关注。随着各大公司争相控制人工智能系统不断飙升的能源需求,Positron 和少数几家挑战者押注,截然不同的芯片架构可能会削弱英伟达等行业巨头的控制力,并重塑人工智能硬件格局。
Positron 日前宣布,公司已经完成超额认购的5160万美元A轮融资,,使其今年的融资总额超过7500万美元。这笔新资金将支持Positron AI第一代产品 Atlas 的持续部署,并加速其第二代产品在 2026 年的推出。
Positron AI 首席执行官 Mitesh Agrawal 表示:“我们创立 Positron 是为了满足现代人工智能的需求:旨在以最低的单位tokens生成成本和最高内存容量运行前沿模型。我们高度优化的芯片和内存架构允许在单个系统中运行超级智能,我们的目标是每个系统运行多达 16 万亿个参数的模型,这些模型包含数千万个上下文长度的tokens,或内存密集型视频生成模型。”
Positron AI是谁?
Positron AI由首席技术官 Thomas Sohmers 和首席科学家 Edward Kmett 于 2023 年共同创立,前 Lambda 首席运营官 Mitesh Agrawal 加入担任首席执行官,以扩大公司的商业运营规模。在短短 18 个月内,该团队仅用 1250 万美元的种子资金就将 Atlas 推向市场。在完成 A 轮融资之前,他们验证了产品性能,获得了早期企业客户,并在部署环境中完善了产品。
现在,随着采用率的不断提高和产品路线图的清晰,Positron AI正在开发定制 ASIC,以解锁推理的更高水平的性能、功率效率和部署规模。
据该公司在领英介绍。Positron AI为企业和研究团队提供了供应商自由度和更快的推理速度,允许他们使用专为生成式语言模型 (LLM) 和大型语言模型 (LLM) 全新设计的硬件和软件。Positron AI凭借更低的功耗和大幅降低的总体拥有成本 (TCO),让您能够运行热门的开源 LLM,以高tokens率和长上下文长度为多用户提供服务。Positron AI还在设计自己的 ASIC,以将推理和微调功能扩展到支持训练和其他并行计算工作负载。
该公司团队表示,其创立 Positron AI的初衷很简单:通过最佳性价比和功耗比的生成式 AI 推理系统,让每个人都能拥有超级智能。
据Positron AI所说,我们花了足够多的夜晚来应对臃肿的 GPU,深知必须做出改变。GPU是一个很好的起点——但长期的 Nvidia 短缺、巨大的功耗和内存瓶颈正在扼杀我们大规模有效部署 Transformer 模型的能力。
“我们厌倦了眼睁睁地看着计算周期(和预算)因 GPU 效率低下而消失。因此,我们决定自己动手,创建了专门用于高效运行 Transformer 推理工作负载的方案。”Positron AI团队介绍。如他们所说,其方案具备以下特征:
内存带宽利用率超过 90%(而 GPU 约为 30%);
每个推理机架的功耗降低 66%;
不再受供应商锁定或 GPU 短缺的困扰。
PositronAI的第一代产品 Atlas 现已上市,我们很高兴地宣布,Positron 的第二代产品将于 2026 年上市。Positron致力于最大限度地提升 Terachip 的内存带宽和内存容量(每个芯片最高可达 2TB 内存)。
先用FPGA打开局面
相关资料显示,在该公司成立仅 18 个月后就一直在向客户交付其基于 FPGA 的 LLM 推理系统。今年年初,他们也向其二级 CSP 客户交付了首批价值数百万美元的订单系统。
据该公司CEO Sohmers 所说,目前另有 20 家潜在客户正在直接或远程评估 Positron 基于 FPGA 的 AI 设备 Atlas。Positron 的客户包括运行本地或主机托管基础设施的企业,以及二级云服务提供商 (CSP)。
Sohmers 补充道:“我们进行的大部分对话,尤其是关于更大规模部署的对话,都是与那些本身就是 CSP 的公司或提供大规模网络服务的公司进行的。”
“当我们创立 Positron 时,我们专注于只有两件事很重要:从基于 Nvidia 的系统获得完全无缝的体验,而我们看到许多 AI 芯片初创公司的失败点是他们花了太长时间和太多时间才进入市场,”Sohmers 表示,并指出虽然该公司正在开发自己的 AI 推理加速器 ASIC,但其第一代和第二代 Atlas 系统都是基于 FPGA 的。
他说,FPGA 无法提供 GPU 或 ASIC 解决方案的 FLOPS,但它们具有其他优势。Sohmers 表示,公司的设备基于 Altera 的 Agilex-7M FPGA,配备 32GB HBM。
“在我们完全确定产品与市场契合之前,我们不想在构建 ASIC 上投入大量的时间和金钱,”Sohmers 说道。“虽然其他 AI 芯片公司各自都有独特的问题,但它们都存在产品与市场契合的问题,尤其是在第一代设备上。采用 FPGA 使我们能够进行非常快速的迭代,并在客户参与的情况下启动迭代。”
据报道,Positron AI 的 Atlas 以 2000 瓦的功耗搭配 BF16 计算能力运行 Llama 3.1 8B ,可实现每位用户每秒约 280 个tokens的交付。而根据 Positron AI 自己进行的比较,在相同场景下,8 路 Nvidia DGX H200 服务器每位用户每秒仅能交付约 180 个tokens,同时功耗高达 5900 瓦。这意味着 Atlas 的每瓦性能和每美元性能比是 Nvidia DGX H200 系统的三倍。当然,此说法需要第三方验证。
当前版本的 Atlas 是一个 4U 系统,在 PCIe 卡上使用四块 FPGA。它被设计为一款交钥匙设备,可以零步骤(无需重新编译)从 HuggingFace 或客户专有模型中提取二进制文件。
下一代平台将采用 Positron 的定制模块尺寸(类似于 Nvidia SXM),将四 FPGA 系统缩小至 2U 空间,并显著扩展 DDR 内存。
按照Positron AI所说,公司团队之所以能实现如此高的内存带宽利用率,关键在于其核心 IP;Sohmers 表示,为了最大限度地提高矩阵乘法 (matmul) 阵列及其连接内存的互连密度,Positron 的工作层级低于 Altera 的 Quartus 工具。Positron 的初始原型基于上一代搭载 HBM 的 Stratix 器件,实现了理论峰值内存带宽的 65% 至 70%。但升级到 Agilex 意味着团队可以利用 Altera 全新的强化 Fabric NoC(片上网络),该 NoC 旨在支持 FPGA 存储器之间的快速传输,而无需依赖芯片其他可编程逻辑资源所使用的通道。新的 NoC 拥有从 HBM 到可编程逻辑阵列中任意位置的 SRAM 块的专用路径。
下一代产品:ASIC
前面有讲到,Positron AI 的下一代产品是ASIC 硬件。据了解,该芯片将在台积电位于亚利桑那州的 Fab 21 工厂生产的(即采用 N4 或 N5 工艺技术),而且这些卡也在美国组装,这使得它们几乎完全是美国制造的。不过,由于该 ASIC 配备了 32GB HBM 内存,它采用了先进的封装技术,因此很可能是在台湾组装的。
Positron AI 的 Asimov AI 加速器将为每个 ASIC 配备 2 TB 内存,并且根据该公司发布的图片,它将不再使用 HBM,而是使用其他类型的内存。该 ASIC 还将配备 16 Tb/s 的外部网络带宽,以便在机架级系统中更高效地运行。Titan 基于八个 Asimov AI 加速器,总内存为 16 GB,预计能够在单台机器上运行高达 16 万亿个参数的模型,从而显著扩展大规模生成式 AI 应用的上下文限制。据 Positron AI 称,该系统还支持同时执行多个模型,从而消除了每个 GPU 只能运行一个模型的限制。
Sohmers 表示:“LPDDR 5X 和 6 能够以每 GB 成本的四分之一获得比 HBM 更高的容量。封装将采用常规的有机基板,这将大幅降低产品成本。”
他表示,虽然 LPDDR 的速度不如 HBM,但使用 Positron 的 IP 来接近理论峰值内存带宽足以弥补这一缺陷。Positron 还可以直接控制 DDR 上的内存刷新,这使得该公司能够比 HBM 更接近理论峰值性能,而无需承担 HBM 带来的功耗或成本开销。
随着竞争日趋激烈,分析师警告称,单靠提高芯片效率不足以应对AI工作负载的爆炸式增长。从历史上看,硬件性能的提升很快就会被新的用例和日益强大的模型所吞噬。
尽管如此,凭借新的资金、主要客户的关注以及高度专注的设计,Positron 已将自己定位于关于 AI 基础设施未来的关键辩论的中心。它(或其任何竞争对手)能否兑现承诺,将决定未来几年世界如何构建、驱动和支付 AI 的费用。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4109期内容,欢迎关注。
加星标第一时间看推送,小号防走丢
求推荐
倍顺网配资-配资合作网-场内股票配资-配资证券提示:文章来自网络,不代表本站观点。