一边阿里巴巴砸7个亿美元收购德国数据公司,一边马云在杭州开了个酒吧_风闻
观察者网用户_244308-2019-01-09 14:22
一边收购,一边唱歌
据欧洲外媒Deutsche Startups报道,阿里巴巴集团以1.030亿美元(9000万欧元)的价格收购了总部位于柏林的初创公司Data Artisans。而阿里方面也已经承认了收购的事实,不过对具体金额没有作出回应。
Data Artisans的官网也发公告表示庆贺。
两家公司在声明中称,阿里巴巴自 2016 年以来一直在与 data Artisans 合作,通过支持和开源工作来协助改进软件的架构和性能。data Artisans 在两轮融资中筹集了 650 万美元资金,创下了纪录,最近一次是 2016 年由 Intel Capital 领投的 A 轮。
这边忙着收购,那一边,马云跑到了杭州,开了一个酒吧。1月7日凌晨,马云在杭州创办的音乐酒吧“HHB平头哥”正式开业,
马云在现场介绍这家酒吧的名字“HHB MUSIC HOUSE”指的是HHB平头哥,网上也有猜测称HH两个字母是来自于阿里巴巴的“Double H”战略,即快乐(Happiness)和健康(Health)。
马云还在现场说:“我就是想搞一个给大家能够有好酒、好音乐、好朋友的地方,不以挣钱为目的,所有人都不能(以挣钱为目的),大家纯粹是帮助好音乐、好酒、好朋友聚的地方,这就是我们的出发点。”
划重点,不以挣钱为目的哦。
不过你确定“HHB”的意思不是“还花呗”?
据网友发布的视频,开业典礼的嘉宾阵容十分豪华,包括汪涵、高晓松、蔡康永、马东、主持人李晨、大S、汪小菲、于和伟等明星,其中不少嘉宾都在现场献唱。
马云自己也在现场和一位女士合唱起了《广岛之恋》——对,就是那个“你早就该拒绝我 / 不该放任我的追求”的《广岛之恋》。
看来,阿里这边的发展势头不错,马云根本就不用操心。
Data Artisans
说起阿里巴巴收购的这家德国数据公司Data Artisans,据官网介绍,成立于2014年,是开源流处理框架ApacheFlink的创建者。公司共有六位联合创始人,他们大多曾在柏林技术大学担任学生研究助理职务,该公司现任CEO Kostas Tzoumas早期曾在微软工作。
据Data Artisans官网介绍,其dA平台由Apache Flink和dA Application Manager组成,“包括与容器编排、持续集成/持续交付(CI/CD)、日志记录、度量指标和状态存储整合的随时可用的功能,为公司客户提供了单一视图,以便了解所有的数据流处理应用。”其客户包括荷兰国际集团(ING)、Netflix、优步、Lyft、阿里巴巴、eBay、康卡斯特、华为和King等。
阿里与Flink
阿里巴巴计算平台事业部资深技术专家莫问在云栖大会的演讲时表示随着人工智能时代的降临,数据量的爆发,在典型的大数据的业务场景下数据业务最通用的做法是:选用批处理的技术处理全量数据,采用流式计算处理实时增量数据。在绝大多数的业务场景之下,用户的业务逻辑在批处理和流处理之中往往是相同的。但是,用户用于批处理和流处理的两套计算引擎是不同的。
因此,用户通常需要写两套代码。
毫无疑问,这带来了一些额外的负担和成本。阿里巴巴的商品数据处理就经常需要面对增量和全量两套不同的业务流程问题。
所以阿里巴巴搜索专家蒋晓伟就在想,我们能不能有一套统一的大数据引擎技术,用户只需要根据自己的业务逻辑开发一套代码。这样在各种不同的场景下,不管是全量数据还是增量数据,亦或者实时处理,一套方案即可全部支持。
当时听到蒋晓伟对于“流式计算引擎”的描述后,团队里的老大王峰惊呼“卧槽”。对于一个合格技术宅来说,一个好的技术构想比萌妹子更能让他动心。
蒋晓伟和王峰一合计,事情很简单:脚踩两只船,那基本没戏。要么就趁早死心,放弃新引擎研发;要么就大家就把旧工作完全交出去,破釜沉舟干票大的。
但他们仍然决定,干!
王峰回忆,领导们觉得很不可思议。因为交出原有的业务,北京这个小团队相当于“失业”了。而新的研究——流式计算引擎——当时只是个构想,连技术方向也没有,代码更是一行都还没写。对于王峰来说,这相当于一次破釜沉舟的内部创业,前途未卜,凶险异常。
事实也证明,别人的担心都是对的。一开始团队努着劲儿写了三个月代码,仍然没办法达到蒋晓伟理想中的通用性,连他本人都有点心虚。
焦急之中,已经到了 2015 年夏天,蒋晓伟突然在业内著名的大数据峰会 Hadoop Sumit 的论坛上看到有人发表了一个惊悚的评论:感觉 Flink 出来之后,Hadoop 就显得不怎么需要了。。。
Hadoop 是当年最火的大数据分布式架构,这个 Flink 是个神马,根本没听过啊。但是当蒋晓伟、王峰和团队研究完技术资料之后突然发现,这种“用流式计算来等效一切计算”的理念不就和我们想开发的那套引擎一模一样吗?
蒋晓伟仰天长啸:
真是天助我也!既然已经有开源的技术,那么我们只要在此之上继续开发流计算引擎就好了啊!
2015年的时候,这个logo是一只眼睛里有故事的小松鼠的Flink 刚刚“出道”一年,几乎没有人知道,更没有人大规模使用。就像一个刚刚毕业的大学生,看上去很有潜力,但“稳定性”和“实用性”都缺乏事实验证。
就这样,这帮阿里巴巴的技术专家,成为了全球第一批使用 Flink 框架做大数据引擎研发的人,蒋晓伟一瞬间就给自己的引擎起好了名字——“Blink”。这是英文眨眼的意思。”一眨眼,所有东西都计算好了!“
这就是阿里选择Flink的背景和初衷。
Flink与未来
在大数据开源社区,通常把Hadoop和Hive为代表的大数据引擎称之为第一代大数据处理系统,以Spark为代表的称之为第二代大数据处理系统。
Apache
Flink超越了前述两代大数据系统,其底层架构完全面向实时大数据计算场景,具备低时延、大吞吐、状态管理、集群容错以及exactly-once处理语义等技术特点,这些使得Flink系统处理流式数据更加得心应手。除此之外,Flink系统同样具备批处理、迭代计算、图计算、机器学习的等计算能力,上述功能让Flink处理大数据更加普适性,促使Apache Flink成为完整的大数据处理软件栈,成为第三代大数据处理系统代表。
Flink作为一个低延迟、高吞吐、统一的大数据计算引擎,在阿里巴巴的生产环境中,Flink的计算平台可以实现毫秒级的延迟情况下,每秒钟处理上亿次的消息或者事件。同时Flink提供了一个Exactly-once的一致性语义。保证了数据的正确性。这样就使得Flink大数据引擎可以提供金融级的数据处理能力。
解决通用大数据计算需求,批流融合的计算引擎,长远来看,这是阿里决定用Flink的首要原因。
现在很多大数据计算的需求和数据量都是在支持很火爆的AI场景,所以在Flink流批生态完善的基础上,将继续往上走,完善上层Flink的Machine Learning算法库,同时Flink往上层也会向成熟的机器学习,深度学习去集成。比如可以做Tensorflow On Flink, 让大数据的ETL数据处理和机器学习的Feature计算和特征计算,训练的计算等进行集成,让开发者能够同时享受到多种生态给大家带来的好处。
目前Flink已经是一个主流的流计算引擎,很多互联网公司已经达成了共识:Flink是大数据的未来,是最好的流计算引擎。下一步很重要的工作是让Flink在批计算上有所突破。在更多的场景下落地,成为一种主流的批计算引擎。然后进一步在流和批之间进行无缝的切换,流和批的界限越来越模糊。用Flink,在一个计算中,既可以有流计算,又可以有批计算。
对于未来,阿里巴巴还是要立足于Flink的本质,去做一个全能的统一大数据计算引擎。将它在生态和场景上进行落地。
Flink的生态上有更多语言的支持,不仅仅是Java,Scala语言,甚至是机器学习下用的Python,Go语言。
非常期待能用更多丰富的语言来开发Flink计算的任务,来描述计算逻辑,并和更多的生态进行对接。