首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

1000亿美元宇宙级豪赌!微软OpenAI打造星际之门AI超算,电力能耗惊人

  • 25-01-18 15:24
  • 4718
  • 12078
blog.csdn.net

图片

  来源 |  新智元   ID  |  AI-era

就在刚刚,又有大消息曝出。

据外媒The Information报道,微软和OpenAI正计划建设一个名为「星际之门」(Stargate)的特殊数据中心,为后者提供强大的计算支持。

具体来说:

  • 微软高层计划最快在2028年启动该项目

  • 这台超算对电力的需求将前所未有地高

  • OpenAI将在明年初发布下一次重大升级

图片

这个「星际之门」超算,会配备数百万专用的服务器芯片!项目的成本,预计高达1150亿美元。

而如此庞大的资金支出,将由微软买单。

据悉,「星际之门」推出的时间预计在2028年,并且2030年之前会进一步扩建。

最终,它所需要的电力,很可能高达5千兆瓦。

就在本周三,我们刚刚报道过OpenAI把微软电网搞崩的消息。当时微软工程师曝出,为GPT-6部署10万个H100训练集群时,整个电网发生了崩溃。

如今看来,这个十万卡集群,很可能就是「星际之门」的早期雏形。

GPT-5不断延期,微软能回本吗?

与当今一些最大规模的数据中心相比,「星际之门」的成本直接高出100倍!

在微软和OpenAI未来六年计划建设的一系列超算设施中,它是最大的一个。

而敢砸这么多钱,也反应出微软和OpenAI对AI前景的巨大信心。

在十年内,这将是双方最关键、最重大的合作。

不过话说回来,毕竟是1000亿美元的巨额投资,微软确定能「回本」吗?

此前,微软已经向OpenAI投资超过130亿美元,让OpenAI能用微软的数据中心跑ChatGPT。

而作为回报,微软得到的是对OpenAI技术核心的访问权限,并且可以将该技术独家提供给摩根士丹利之类的云计算客户。另外,Office、Teams、Bing的AI Copilot中,也可以整合OpenAI的技术。

图片

接下来,「星际大门」能否如期推进,就看GPT-5的性能究竟能有多大的提升了。

传说中的GPT-4.5、GPT-5,多次被传要来,最终却还是一场空。

这也让OpenAI对微软「如期交付新模型」的承诺,打了水漂。

部分人士表示灰心:看来AI的发展前景难以预测。

然而Sam Altman坚决否认:绝非如此!在他看来,制约GPT-5发展的主要障碍,就是缺乏足够的服务器。

电力+芯片,耗资惊人

如果「星际之门」成真,那它提供的算力,将远超现在的微软凤凰城数据中心。

图片

微软凤凰城数据中心

而电力和芯片上的投入,也都将是一笔巨资。

经初步计算,「星际之门」要想运转,需要的是至少数千兆瓦的电力,相当于目前几个大型数据中心所需的电力。

另外,芯片的采购也是一个大成本。

开弓没有回头箭,如此耗费巨大的投入,能得到什么样的结果?

当然是AGI。

Digital Realty的首席技术官Chris Sharp指出,如果是为了实现AGI,这种投资规模的项目绝对是必要的。

虽然项目的规模令人咋舌,闻所未闻,但一旦这种超算建成,人们就会接受它的巨额成本。

AI超算第五阶段:「星际之门」

Altman与微软的员工们把AI超算的发展划分为五个阶段,而最终阶段就是星际之门。

这个名字灵感来自于一部科幻电影,其中科学家发明了一台能够实现星系间旅行的装置。

当然了,这个代号虽然是由OpenAI提出的,但它并不会被微软正式采用。

图片

在「星际之门」之前,需要的资金相对较少,但依然远超当前数据中心的建设成本。

目前来说,微软和OpenAI还处于第三阶段。

但第四阶段的超算已经破土动工,并且预计将在2026年左右推出。

据报道,微软光扩建数据中心就要耗资10亿美元,而最终造价可能将高达100亿美元。

其中,计划采用的英伟达AI芯片,将会是开销的大头。

对此业内人士分析称,当前正在建设的以AI为重点的数据中心,其芯片成本通常要占到总投资的一半。

图片

总体而言,想要最终完成「星际之门」计划,可能会需要消耗超过1150亿美元——这一数字是微软去年在服务器等设备上支出的3倍还多。

而基于2023年下半年公布的资本支出速度,微软2024年的支出预计将达到约500亿美元。

Altman:芯片不够用,谷歌算力都比我们多

之所以如此下本,是因为Altman对于自己手里的算力,非常不满。

他不仅公开表示现有的AI服务器芯片数量严重不足,而且还在私下里表示,作为主要竞争对手之一的谷歌,将会在短期内拥有比OpenAI更多的算力。

图片

随着对英伟达GPU的需求急剧上升,像微软和OpenAI这样的客户,都不得不面临成本上涨的问题。

而这也是Altman为什么想要创办公司,并开发出能媲美英伟达GPU的芯片的的原因之一。

除了控制成本外,微软支持Altman开发替代芯片还有其他潜在的考虑。

GPU市场的繁荣让英伟达成为了一个关键的决策者,它不仅可以决定哪些客户能够获得更多的芯片,并且还会支持一些与微软竞争的小型云服务供应商。甚至,连英伟达自己也开始向客户卖云服务了。

图片

而「星际之门」的提出,便是让微软和OpenAI有了除英伟达之外的选择,比如AMD的GPU,或者微软最近推出的自研AI芯片。

技术难题:芯片过热、网络电缆,还有能源

「星际之门」的设想虽然宏大,但要真的实现,还得攻克多项技术难题。

比如,其中一个设计方案,是在单个机架中安装比微软以往更多的GPU,来提升芯片的工作效率和性能。

然而,这无疑会增加GPU的密集度,因此微软就需要设计出有效的冷却方案,来避免芯片过热。

另外,如何连接数以百万计的GPU也是个难题。

这就涉及到选择合适的网络电缆,它对迅速传输大量数据至关重要。

目前,微软在超算中使用的是英伟达专有的InfiniBand。但我们都知道,OpenAI一直在努力摆脱对英伟达依赖。

图片

因此,OpenAI希望「星际之门」能采用更通用的以太网电缆。

图片

另外,在能源这块,据项目内部人士透露,公司们考虑过采用替代能源,比如核能,来满足其能源需求。

值得一提的是,亚马逊近期购入了一个位于宾夕法尼亚州、能够接入核能源的数据中心地块。据了解,微软也对这一地块表现出了兴趣,并曾参与过相关竞标。

Altman个人认为,要实现超级智能的开发,很可能需要在能源领域取得重大突破。

显然,在追求高级人工智能的道路上,能源创新将扮演关键角色,而核能,很可能会成为实现这一目标的重要一环。

图片

总之,跟传统计算相比,AI计算的成本和复杂度都不是一个量级的。

这就是为什么,各大公司对AI数据中心的细节抠得无比严格。GPU如何连接和冷却,一个细节的差异就可能导致巨大的成本损耗。

老黄也早就预测说,为了应对未来对AI计算的需求,在未来四到五年内,全球需要投资1万亿美元来建设新的数据中心!

而芯片过热、网络电缆和能源的问题,在短时间内都没有解决的可能性。

图片

此外,「星际之门」会建在一个数据中心内,还是由多个数据中心紧密相连呢?

它会具体建在什么位置?

目前这些问题也都没有答案。

不过有从业者表示,当GPU集群位于同一个数据中心时,效率会更高。

图片

其实,OpenAI早已逼着微软突破了自己的极限。

自2019年向OpenAI投资以来,微软的数据中心在一直不停地惊人进化。

为了满足OpenAI日益增长的算力需求,微软咬牙造了第一台GPU超算,其中包含数千个英伟达GPU。

才几年时间,这台超算就让微软烧掉了12亿美元。

而在今年和明年,微软即将为OpenAI提供的新服务器,将包含数十万个GPU!

下一个里程碑:GPT-5

微软和OpenAI的雄心壮志,几乎完全取决于OpenAI是否能在「超级智能」上取得重大进展。

如果OpenAI能解决癌症、核聚变、全球变暖或火星殖民这种级别的问题,金主当然愿意源源不断地投钱。

然而,这样的成就,目前还遥不可及。

尽管ChatGPT和Sora在全球拥有了无数用户,但如何用它们带来显著收入,OpenAI目前还都没有解决。变现所需的时间,可能比预期的更长。

图片

也正因如此,亚马逊和谷歌已经降低了对AI产品的销售预期。

部分原因就是,成本实在太高了!而且,在大型企业中部署百万级用户的应用,需要耗费大量的工作。

Altman在上个月曾表示,当研究人员投入更多的算力时,AI模型会变得「可预见地更好」。对此,OpenAI称之为对话式AI的「缩放定律」(scaling law)。

据知情人士透露,OpenAI计划在明年初之前发布其下一代LLM。

而在那之前,可能会推出一些小幅改进版本。

而拥有更多的服务器,无疑会增加OpenAI的底气,坚信AI模型会取得下一层级的突破。

例如传闻中的Q*,据说能解决之前未经训练的数学问题。而且,它是用合成数据训练的。在人类数据即将耗尽之际,这一点至关重要。

此外,传闻这些模型还能识别出现有模型,如GPT-4的缺陷,并提出技术改进,换句话说,就是自我完善的AI。

听起来,OpenAI离AGI是越来越近了。

参考资料:

https://www.theinformation.com/articles/microsoft-and-openai-plot-100-billion-stargate-ai-supercomputer?rc=epv9gi

注:本文转载自blog.csdn.net的lqfarmer的文章"https://blog.csdn.net/lqfarmer/article/details/137193665"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接
复制链接
相关推荐
发表评论
登录后才能发表评论和回复 注册

/ 登录

评论记录:

未查询到任何数据!
回复评论:

分类栏目

后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2492) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

热门文章

125
微软技术
关于我们 隐私政策 免责声明 联系我们
Copyright © 2020-2025 蚁人论坛 (iYenn.com) All Rights Reserved.
Scroll to Top