芯东西(公众号:aichip001)
编译 | ZeR0
裁剪 | 漠影
芯东西2月11日音书,据外媒本日报说念,一家由00后创办的深奥英国AI芯片创企Olix,已赢得2.2亿好意思元(约合东说念主民币15亿元)融资,估值越过10亿好意思元(约合东说念主民币69亿元),踏进独角兽企业。
Olix(此前名为Flux Computing)斥地于2024年3月,总部位于英国伦敦,由James Dacombe创办,缱绻斥地比英伟达GPU更快、更低廉的AI芯片。
James Dacombe本年25岁,同期亦然英国脑监测创企CoMind的独创东说念主兼CEO。CoMind是他18岁时创立的,并已融资1亿好意思元(约合东说念主民币7亿元)。
▲James Dacombe
针对AI推理需求,Olix正在打造一种新式AI芯片,筹划是高浑沌量和高交互性,以搪塞最惨酷的推理职责负载,而况不受面前AI芯片的架构和供应链闭幕。
Olix光学张量处理单位(OTPU)是一款遴荐新式存储器和互连架构的光学数字处理器。
其团队信服,将SRAM架构与光子学相都集,不错在每兆瓦浑沌量和总领有资本方面卓越基于HBM的架构,而况在交互性和延长方面显赫优于纯硅SRAM架构。
该公司已累计赢得2.5亿好意思元(约合东说念主民币17亿元)融资。据知情东说念主士裸露,Olix但愿最早来岁向客户委派首批居品。这家初创公司拒却就其融资事宜置评。
Vertex Ventures等闲联合东说念主、前Facebook基础要领高管Jonathan Heiliger以为,AI推理需要对芯片的制造形势进行透顶的从头念念考,系统级架构的大限制重构极其艰辛,“James和他的团队的奉行速率比领有十倍资源的公司还要快。”
面前英国芯片公司的融资限制远远过期于好意思国。另一家英国AI芯片创企Fractile昨日秘书,缱绻在改日三年投资1亿英镑(约合东说念主民币9亿元),以扩大在其在英国脉土的业务。
Olix在官网共享了其芯片想象念念路:
现存GPU架构已接近物理极限,刻下硬件从根蒂上来说无法同期为每个用户提供快速推理。
这种衡量弃取是自TPUv2和V100以来通盘主流加快器所遴荐的内存架构固有的——一个大型逻辑芯片放手在中介层上,傍边是堆叠的HBM内存。
独一将巨额用户的数据批量处理,充分运用计较资源,并将模子权重通过HBM传输到巨额输出token的能耗分管,才能兑现每个XPU和每兆瓦的高浑沌量。
但无数目处理势必会加多每个用户的延长,诽谤交互性,迫使用户作念出重荷衡量。
推感性能受限于数据传输。因此,逻辑后果(FLOPs/W)和浑沌量(每个封装的FLOP)的抓续擢升带来的收益递减。数据传输时候的缩小受到内存墙以及封装互连范畴长度和封装尺寸闭幕的制约。
固然从HBM2到HBM4的过渡在能效和浑沌量密度方面都取得了显赫擢升,但要再次兑现如斯巨大的校阅需要近十年时候,而况需要愈加复杂和尽力的制造本事。
HBM性能擢升带来的能效擢升有限,不成幸免闭幕了每个token传输KV cache所需的 pJ/bit 能量,从而也闭幕了刻下架构中token总能耗的下限。
夙昔十年,这种架构膨胀擢升了系统的举座性能,但进一步膨胀无法同期兑现高浑沌量和高交互性。从英伟达Hopper到Rubin Ultra,封装尺寸梗概增长了4倍。再增长4倍将接近晶圆级封装的极限。
更大的封装不错缩小数据传输时候并提高交互性,但无法诽谤固定数据传输延长。因此,阿姆达尔定律闭幕了改日通过进一步增大封装尺寸来擢升交互性的可能性。
数据从HBM进程中介层插足计较单位的物理旅途并未发生根人性转换,但跟着跨光罩高带宽接口的引入,其复杂性却日益加多。
因此,以每次缓存掷中或未掷中时候猜度的数据传输延长已接近或达到极限,并逐步成为每个token延长中越来越热切的构成部分。
固然不错通过更大层的张量并行性进一步缩小每层的数据传输时候,但这会加多功耗和互连延长。
此外,高浑沌量编码决策也会引入编码妥协码延长,进一步提高每个token的最低延长,并闭幕可兑现的交互性。
要是不错通过限制、集成或奉行来惩办这一衡量问题,那么面前计较生态系统的中枢企业将是作念这件事的主体。由于预支了数十亿好意思元以确保赢稳健先的逻辑节点、HBM和先进封装才能,这类公司将在软件、系统集成和供应链方面领有巨大的护城河。
每一代都加倍强化这种要领。系统限制越来越大,集成度越来越高,筹划也越来越宏大。饱胀性能抓续擢升,但底层闭幕却持久不变,因此仍然无法同期兑现高交互性和高浑沌量。
粗略同期提供高浑沌量和高交互性的硬件,必须同期惩办大限制数据传输后果和延长问题。任何仅改善其中一个维度的要领都仅仅转换了衡量的本色。
Olix团队以为,从供应链和制造角度来看,新的架构必须根除高密度金属薄膜(HBM)、先进封装或其他任何受现存厂商供应链闭幕的本事。即就是最大的超大限制数据中心运营商都难以确保产能,初创公司根蒂无法与之竞争。
从兼容性角度来看,硬件必须支援现存模子。它不应强制条款现存模子具备量子算术才能/物理表面才能,也不应条款遴荐新的热力学神经拟态架构,即使这种架构答应在表面上有所校阅。
从想象角度来看,兑现这一筹划需要系统级念念考,从光罩级和晶圆级想象转向机架级计较和数据传输的协同想象,将其行为一个单一的长入系统。
这个领域不乏资金淳朴的挑战者,但他们都堕入了相似的两种失败样貌。
有些芯片仍然遴荐逻辑芯片-中介层-HBM架构范式,而况在与新一代GPU/TPU竞争时,仍濒临相似的交互性-浑沌量衡量,而这些GPU/TPU遴荐的是老一代低端HBM和逻辑芯片。
另一些则作念得不够。他们订立到需要一种新的范式,试图从头塑造交互性的衡量弃取,但无法解脱这种衡量弃取,仍然受到仅限硅基要领的局限性的制约。
Olix团队但愿解脱这些闭幕开云官网登录入口,创造前沿AI的下一个范式。