ag百家乐九游会 你的位置:ag百家乐网站 > ag百家乐九游会 > ag百家乐苹果版下载 亚马逊通过从APACHE SPARK迁徙到RAY省俭数百万好意思元

ag百家乐苹果版下载 亚马逊通过从APACHE SPARK迁徙到RAY省俭数百万好意思元

发布日期:2024-12-07 13:30    点击次数:147

来源:云云众生sag百家乐苹果版下载

将数据湖表压缩责任从Apache Spark变调到基于Python的Ray后,亚马逊发现其效果提高了82%。 ATO 2024叙述。

译自Amazon to Save Millions Moving From Apache Spark to Ray,作家 Joab Jackson。

译自Amazon to Save Millions Moving From Apache Spark to Ray,作家 Joab Jackson。

关于像亚马逊这么的大型电商公司来说,即使是狭窄的性能进步也能带来可不雅的省俭。

通过在2024年第一季度将数据湖表压缩任务从Apache Spark迁徙到基于Python的Ray,该公司发现不错提高82%的效果。

鉴于压缩是其里面交易智能就业的必备功能,这家电商公司梗概能够省俭进步22万年的EC2 vCPU意想时辰。从典型的AWS客户的角度来看,这极度于每年省俭约1亿好意思元的亚马逊EC2按需R6g实例用度。

是的,亚马逊在里面使用了大批的BI。

张开剩余84%

亚马逊首席工程师在All Things Open 2024会议(上周在北卡罗来纳州罗利举行)上照拂了其迁徙到Ray。

他的信息是?Ray不单是用于构建机器学习管说念;这是它现在最受接待的用途。

“Ray的中枢是一个相等通用的散布式意想框架,我觉得它险些不错胜任任何你决定放大并讨好防护力的散布式系统界限,”Ames说,他亦然Ray项观念孝敬者。

压缩的必要性

迁徙到Ray加速了亚马逊最崇高操作之一——压缩的速率。每当像Apache Iceberg或Apache Hudi这么的数据湖表姿色提供写时复制或读时团结功能时,最终它将使用压缩来妥洽对表的更新。

当年,Apache Spark负责这项责任。

在他的演讲中,Ames姿色了亚马逊怎样从2016年使用大型Oracle数据仓库调换为运行其我方的统统可延伸的EB级数据湖仓,同期保握ACID一致性。其理念是将存储与意想解耦,以便数据库表不错存储在S3存储桶中,用户不错自带查询引擎。

源流,表是通过仅追加语句更新的,很快,即使是最高大的平台也难以处理它们。

因此,他们让Spark启动去除调换项,事实解释,这项责任极度毒手。

“从表面上讲,查找调换项是一个很肤浅的问题,但当你的数据启动增长到PB级以至更大时,它就会变得有点毒手,你无法再将其放入单个节点中,”Ames说。

亚马逊里面的交易数据时刻部门随后寻求Ray以进一步优化。

与Spark一样,Ray也来自加州大学伯克利分校。一些参与Ray接续的学者自后创立了Anyscale,该公司为该平台提供交易维持。

由于其Pythonic API和处理大型数据集的智力,Ray仍是在亚马逊数据科学家群体中找到了我方的位置。Pandas相等相宜单节点数据集,但Ames解释说,为TB级数据构建数据管说念可能很繁重。

这等于Ray的用武之地。

基本上,你不错秉承任何不错并行化的Python利用法子,为其添加散布式函数和散布式类的任务凝视,然后你不错将该代码部署到纵情大的集群中,它将为你赓续大批的集群延伸,”Ames解释说念。

交易数据时刻怎样使用Ray成立集群(亚马逊)。

Ames说,在亚马逊,这项时刻将来有可能成为亚马逊所绝顶据管说念中“合资”的意想框架。

亚马逊BI

亚马逊的里面数据湖领有“数万用户”,不仅来自AWS交易分析师,也来自协作伙伴。

亚马逊的Ray压缩器现在每天运行进步25000个功课,每天需要大要150万个EC2 vCPU。每天团结约40PB的Apache Arrow数据,本钱约为0.59好意思元/TB。

里面客户按破钞的数据量(字节)付费,ag百家乐网站这笔用度用于爱戴数据目次。令东说念主惊诧的是,本钱最大的变化来自数据压缩。

“是以咱们一直在往Spark上参预资金,数据集也越来越大,”Ames说,并补充说念这不是“最优雅的惩办决策”。

团队接续了Ray,发现它很有远景,并再行瞎想了其压缩算法以在该平台上运行。他们还接续了Ray的数据科学用具怎样匡助提高数据质料。亚马逊的大批代码库是用Java编写的,因此作念了大批责任来创建与Ray的Python API的贯穿。

迄今为止,亚马逊一直在并交运行Spark和Ray压缩功课以确保一致性。然而,本年Spark将被淘汰,扫数操作齐将迁徙到Ray。

使用Ray的戒指

早期戒指流露Ray具有显着的性能上风。

业务部门发现,Spark在一个Amazon Web Services的EC2实例上压缩1GB数据大要需要半分钟。但Ray只需要十分之一分钟,确认2024年第一季度的数据,Ames将其姿色为82%的效果进步。

Ray与Spark的效果对比(亚马逊)。

关于这些功课,他们还发现Ray压缩器破钞了集群总可用内存的大要55%,Ames承认这并非最好情景,他更但愿将其提高到80%摆布。每个就业器集群所有提供约36TB的可用内存。

一个令东说念主担忧的方面是可靠性,这可能会像Ames所说的那样,“挫伤你的本钱上风”,因为需要额外本钱再交运行功课。源流,在2023年10月,Ray第一次尝试压缩表仅奏凯了85%的时辰。

一样,这也不是理念念情景,但到2024年2月,团队将其提高到99.15%,这更接近Spark的99.91%。

Ray与Spark的可靠性对比(亚马逊)。

迁徙完成后,预测每年将减少约220,000年的vCPU时辰意想需求,按照典型的AWS客户的Amazon EC2按需R6g实例收费意想,这极度于大要1亿好意思元。

Ray的改日

Ames回来说念,Spark仍然具有一些上风。它仍然比Ray领有更多通用的数据处理功能。举例,Ray仍然莫得肤浅的SQL接口。因此,一些定制仍然不可幸免。

“你不行只是将Spark功课放到Ray上,然后生机取得这种性能进步,”Ames说。

方法团队还蓄意调治压缩算法以用于Apache Iceberg,他们但愿在2025年发布。

“若是你们中有任何东说念主在使用Apache Flink编写Iceberg表,然后尝试使用Spark或其他用具读取它们,这应该会大大改善这个经过,”Ames说。

但总的来说,关于大限度数据操作,Ray值得端庄探讨。

“Ray中枢迷漫活泼,不错让你为相等具体的问题瞎想相等优化的惩办决策,”Ames说。“若是你能专注于你组织中一个超过繁重且崇高的问题,那么这可能是一个好界限——若是你的企业风物与你沿途投资——将Ray的放大镜瞄准这个问题。”

本文在云云众生(https://yylives.cc/)首发ag百家乐苹果版下载,接待宇宙打听。

本文在云云众生(https://yylives.cc/)首发,接待宇宙打听。

发布于:北京市

Powered by ag百家乐网站 @2013-2022 RSS地图 HTML地图