荣格工业资源APP
了解工业圈,从荣格工业资源APP开始。
PB级云数据仓库服务Amazon Redshift发布近十年之际,Amazon Science采访了亚马逊云科技数据分析副总裁Rahul Pathak和亚马逊云科技高级首席工程师Ippokratis Pandis,他们分享了Amazon Redshift的起源、过去近十年的成长及其未来展望。
十年前,时任亚马逊云科技高级副总裁的Andy Jassy(现任Amazon CEO)在首届亚马逊云科技re:Invent大会上宣布推出Amazon Redshift预览版。与昂贵、缺乏弹性并需要投入大量的运营人力和资金的传统本地数据仓库解决方案相比,Amazon Redshift有了质的飞跃。
亚马逊首席技术官Werner Vogels在2012年11月28日的博文里表示:"我们很高兴推出了Amazon Redshift预览版,这是一个高性能、全托管的PB级云数仓服务。该服务的性能将显著提升客户的数据分析效率。Amazon.com的数据仓库团队一直在试用Amazon Redshift,他们对规模高达20亿行的数据集进行了一系列的典型查询,并将Amazon Redshift与本地数据仓库进行比较,结果显示Amazon Redshift将速度提高了10-150倍!"
这也是为何当时还是高级产品经理的Rahul Pathak以及整个Amazon Redshift团队,在该服务宣布推出之日充满信心。Rahul Pathak现任亚马逊云科技数据分析副总裁,他回忆:"我们没料到的是它会这么受客户欢迎。在提供预览版时,我们先让客户注册,了解他们的数据量和工作负载。约三天左右,我们就发现客户对Amazon Redshift的需求量比原先预计的整年需求量还多10倍。于是,我们在re:Invent一结束就迅速增加硬件订单,以确保在2013年初Amazon Redshift正式可用时能有充足的数据中心硬件支持。还好提前提供了预览版,否则我们将应接不暇。"
从那时起,Amazon Redshift团队一直加紧创新,满足客户不断增长的各种需求。如今,数以万计的客户每天使用Amazon Redshift处理EB级的数据,为高性能商业智能(BI)报告、仪表板应用程序、数据探索和实时分析等分析工作负载提供支持。
关于Redshift的起源
Rahul:在Amazon Redshift推出的前几年,我们的很多客户就已经把除了数据仓库之外的所有工作负载迁移到了云端。数据仓库常常是客户在企业本地运行的最后一个应用,而且他们仍面临如成本高昂、带有惩罚性质的许可费、难以扩展,并且无法分析所有数据等重重挑战。客户的诉求之一便是希望在云中大规模地运行具备足够性价比的数据仓库来分析所有数据,同时兼顾性能。
随后,我们开始着手构建、运营一个代号为Cookie Monster的全新项目。当时,客户数据量正在爆炸式增长,这些数据不仅来自关系型数据库,还包括各种各样的数据源。客户试用了Redshift的一个早期测试版,发现结果返回速度快得惊人,比他们之前使用的系统快了10到20倍,以至于他们还以为系统出现了问题。当然,我们也收到一些客户对某些早期功能不满意的反馈。我们及时与这些客户取得联系,了解他们面临的挑战、反馈,并在2013年2月该服务正式上线之前进行了调整。
当我们推出Amazon Redshift,并宣布定价为每年1000美元/TB时,人们简直不敢相信我们推出了一个性价比如此之高的服务。我们在几分钟内而不是几个月就能为客户提供一个数据仓库,这吸引了所有人的关注,被业界称为一个真正的游戏规则改变者。
Ippokratis:当时,我在IBM研究院从事数据库技术工作,我们意识到,以云服务的方式提供数据仓库将颠覆游戏规则。使用客户的本地系统通常需要几天或几周时间才能解决的问题,使用像Redshift这样的云数据仓库则只需要几分钟,应用云服务明显加快了创新的速度。
就传统的本地数据仓库而言,通常需要花费几个月甚至几年时间才能将新功能更新到最新的软件版本中;而在云端,新功能可以在几周内推出,客户无需改变其应用程序中的任何一行代码。Amazon Redshift的发布是一个拐点,让我对云和云数据仓库产生了真正的兴趣,并选择加入了亚马逊云科技。[Ippokratis于2015年10月作为首席工程师加入Amazon Redshift团队]。