UC Berkeley AMPLab 简介
UC Berkeley 全称是:University of California, Berkeley,加利福尼亚大学伯克利分校,简称伯克利。AMPLab是旗下的大数据实验室,AMP的缩写代表着"Algorithms, Machines, and People"。
1、AMPLab 诞生背景
在大数据的背景下,我们对这个世界的理解越发的变成了理解数据,并将数据转化成有用的信息。于是,很多大数据相关的技术也就应运而生了,例如机器学习,数据挖掘,数据库技术,信息检索,自然语言处理等,这些技术帮助我们看到了原本看不到的世界。聪明的数据科学家们不仅仅满足于此,更多的新技术正在不断涌现。所有这些无论已经比较成熟的技术,还是新出现的挑战都需要跨学科的专业队伍。所以,AMPLab的出现和发展也就顺应了时代的需求。AMP的缩写代表着"Algorithms, Machines, and People"。选择这样的名字也印证了实验室对未来的设想:
"...a world where massive data, cloud computing, communication and people resources can be continually, flexibly and dynamically be brought to bear on a range of hard problems by people connected to the cloud via devices of increasing power and sophistication."
2、AMPLab 明星产品
AMPLab身兼实验室和孵化器的双重身份,成为了学术界与工业界跨界典范。它有Spark、Alluxio、Mesos等熠熠生辉的孵化成果。
2.1、Spark
Spark于2009年诞生于伯克利,最初只是一个研究性项目。在2013年,Spark发展成为了Apache基金项目,并在同年开发Apache Spark的团队成立了Databricks公司。由于发家于AMPLab,Spark从不一开始就打上了学术的烙印。Spark的核心RDD(resilient distributed datasets),以及流处理,SQL智能分析,机器学习等功能无不来自实验室学生的一篇篇学术论文。Spark提供的基于RDD的一体化解决方案,将MapReduce、Streaming、SQL、Machine Learning、Graph Processing等模型统一到一个平台下,并以一致的API公开,并提供相同的部署方案,使得Spark的工程应用领域变得更加广泛。
2.2、Alluxio
Alluxio是一个基于内存的分布式文件系统,它是架构在底层分布式文件系统和上层分布式计算框架之间的一个中间件,主要职责是以文件形式在内存或其它存储设施中提供数据的存取服务。Alluxio的前身为Tachyon。
在大数据领域,最底层的是分布式文件系统,如Amazon S3、Apache HDFS等,而较高层的应用则是一些分布式计算框架,如Spark、MapReduce、HBase、Flink等,这些分布式框架,往往都是直接从分布式文件系统中读写数据,效率比较低,性能消耗比较大。而如果我们将其架构与底层分布式文件系统与上层分布式计算框架之间,以文件的形式在内存中对外提供读写访问服务的话,那么Alluxio可以为那些大数据应用提供一个数量级的加速,而且它只要提供通用的数据访问接口,就能很方便的切换底层分布式文件系统。
作为世界上首款以内存为中心的虚拟分布式存储系统,Alluxio能够统一数据访问并成为连接计算框架和底层存储系统的桥梁,应用程序只需要连接Alluxio便能够访问底层任意存储系统中的数据,除此之外,Alluxio以内存为中心的架构使得数据访问比现有的解决方案能快若干个数量级。
Alluxio(前Tachyon)起源于李浩源读博期间在 UC Berkeley AMPLab实验室的一个研究项目,那时候Spark和Mesos正在快速发展,人们见证了Spark和Mesos分别在计算、资源管理方面的强大能力,但同时也意识到它们在存储方面的不足,基于此,李浩源和他的研究团队便开始探索如何使高速内存数据能够跨应用共享。
2.3、Mesos
AMPLab孵化出来的“孩子”可谓是各有特长,有长于计算的Spark,也有善于存储的Alluxio,还有在资源管理方面有强项的Mesos。
Mesos是一个开源的集群管理框架,它可以将数据中心/集群放在一台电脑里运行,对外提供简单的API,同时隐藏内部的很多复杂架构。它由UCB AMPLab的Benjemin Hinderman,Andy Konwinski和Matei Zaharia开发,后来在Twitter里发展成熟,并很快成为Apache基金会的顶级项目。除了Twitter,部署Mesos的公司还有Airbnb、eBay、Netflix等。