深度剖析CloudFoundry的架构设计

VMware在今年4月份突然发布了业内第一个开源的PaaS——CloudFoundry。发布至今的这几个月里,笔者一直关注它的演进,并从它的架构设计中获益良多,觉得有必要写出来与大家分享一下。

本文会分为两个部份:第一部份主要介绍CloudFoundry的架构设计,从它所包含的模块介绍起,到各部份的消息流向,各模块如何协调合作;第 二部份会在第一部份的基础上,以如何在你的数据中心里面用CloudFoundry部署一个私有PaaS为目标,把第一部分介绍到的架构知识使用起来。 阅读全文

Cloud Foundry – 开源PaaS平台

Cloud Foundry是一个开源的平台即服务,它提供给开发者自由度去选择云平台,开发框架和应用服务。Cloud Foundry最初由 VMware 发起,得到了业界广泛的支持,它使得开发者能够更快更容易的开发,测试,部署和扩展应用。Cloud Foundry是一个 开源项目 ,用户可以使用多种私有云发行版,也可以使用公共云服务,包括 CloudFoundry.com.

什么是开源的PaaS平台?

每一代计算都会开创一个新的应用平台。在云计算时代,应用平台将会作为一种服务来发布, 通常我们称之为PaaS(平台即服务)。PaaS使得部署,运行和横向扩展应用变得非常容易。 阅读全文

从招聘信息看Hadoop工程师需要具备的知识

【搜狗】Hadoop工程师

1. 熟练使用java集合类,IO,并发编程;
2. 熟悉jvm运行机制及内存管理;
3. 熟悉Linux/Unix操作系统,熟悉脚本编程(Shell/Perl/Python其中一种);
4. 了解HADOOP原理,对于分布式系统有一定了解;
5. 有优秀的学习能力,具有强烈的主观能动性;

 

奇虎360

1. 计算机基础知识扎实、善于沟通、理解能力强
2. 1年以上Hadoop或Hbase开发经验,熟悉Map/Reduce编程
3. 熟悉Linux环境下的Java编程,对coding保持浓厚兴趣
4. 热爱探索和钻研,参与过开源软件开发或者给某个开源项目提过BUG
5.     有Shell、PHP、Python语言开发经验优先

 

北京艾德思奇科技有限公司

1. 计算机、统计学、数学等相关专业
2. 具有统计学、数学、人工智能、和数据挖掘知识基础
3. 具有2年以上数据挖掘实际项目工作经验
4. 熟悉流行数据挖掘各种算法模型,比如:关联规则、时间序列、变量分析、逻辑回归、决策树、神经网络、聚类模型;熟悉数据挖掘项目过程
5. 至少熟练使用主流关系数据库(Oracle、Mysql、DB2、SqlServer)中的一种,熟悉SQL优化,熟悉PL/SQL编程
6. 熟悉Unix/Linux操作系统,具有一定的Shell编程经验
7. 具有一定的业务理解能力和逻辑分析能力,以及基本的项目文档撰写规范
8. 具有以下条件者优先:互联网广告行业挖掘项目经验、海量数据分析项目经验、数据仓库项目经验、SEM从业经验
9. 熟悉Debian和hadoop者优先

 

360buy京东商城

1. 熟悉java、shell、SQL编程,熟悉hadoop和hive,有MapReduce分布式编程经验 ;
2. 熟悉hadoop集群的搭建,管理及调优;
3. 对实时解决方案,如Hbase有经验者更佳;
4. 性格积极乐观,诚信,有较强的语言表达能力;具备强烈的进取心、求知欲及团队合作精神。
上海盛大网络发展有限公司

1. 计算机、数学或统计等相关专业本科及以上学历;
2. 1年以上云计算平台的应用开发经验,有数据仓库开发经验者优先;
3. 良好的编程开发能力,掌握至少一门主流编程语言,如Java,Python等;
4. 熟悉hadoop、hbase、hive等软件,至少精读过其中某一个的源码;
5. 熟悉主流数据库,具备优秀的SQL编写和调优能力;
6. 对数据敏感,了解SPSS/SAS等数据挖掘软件;
7. 熟练掌握Linux常规命令与工具,能编写一定难度的Shell脚本;
8. 对新技术敏感,有一定技术研究能力。
淘宝
1、预研、开发、测试hdfs/mapreduce/hive/hbase/zookeeper/avro的功能、性能和扩展;
2、对有助于提升集群处理能力/高可用性/高扩展性的各种解决方案进行跟踪和落地;
3、解决海量数据不断增长面临的挑战,解决业务需求;

 

品友互动信息技术有限公司

1、本科以上学历,3年以上相关工作经验;
2、对数据结构、算法有深刻理解;
3、熟悉linux开发环境;
4、熟悉python、shell、perl中的一种;
5、有hadoop集群部署和开发经验;
6、熟悉pig,hive,hbase, spooq,flume,scribe(优先考虑);
7、熟悉java开发(精通优先考虑)

VMware已发布Spring Hadoop

VMware最近宣布,他们已经开始提供Spring Hadoop,这个项目整合了Spring框架和Apache Hadoop平台。该项目提供了一种方便的机制,让我们可以通过Spring容器来配置、创建和执行各种各样的服务和工具,像MapReduceHivePigCascading作业等。此外,该项目还通过JVM脚本语言——像Groovy、JRuby、Jython和Rhino——提供了对HDFS数据访问的支持,为HBase提供了声明式配置的支持,以及对Hadop工具(包括FS ShellDistCp)提供了声明和编程的支持。

可能更有意义的是,工具还为基于Spring的应用程序提供了一种便利方式,可以使用Hadoop作为数据分析工具,而这些数据可能来自多个源,像Spring Integration和Spring Batch,以及传统的关系型数据库等等。“例如,你可以让Hadoop作业成为Spring Batch环境中的tasklet,从而我们可以开始对其进行调整,并在作业完成时拥有触发器,”SpringSource的CTO,Adrian Colyer告诉InfoQ。 阅读全文

Spring Hadoop简介

Spring Hadoop 1.0.0.M1刚刚发布,它属于Spring Data的一部分,是为了使得开发基于Hadoop的应用更好的与Spring生态圈结合而产生。Spring Hadoop继续坚持Spring哲学提供一种更为简单的编程模型,并为编写处理大数据应用的开发者提供了强大的工具。

Spring Hadoop 支持:

l  Hadoop 配置

l  MapReduce, Streaming Jobs and Tool

l  HBase 配置

l  Hive server and thrift client

l  Pig configuration

l  Embedded API for Hadoop FsShell and DistCp 阅读全文

2011年最具影响力的16个开源项目

OpenLogic近日发布了2011年度开源软件趋势分析报告,Openlogic报告重点分析了现今流行以及活跃的用于企业基础架构中的核心应用程序。同时报告将热门的开源项目主要分为了Web应用和应用服务器、应用程序框架以及数据库和大数据三大类别。以下为OpenLogic评选出的2011年度最具影响力的16个开源项目。

1.HBase

HBase是一款开源的非关系数据库,主要基于Google BigTable分布式数据库并使用Java语言编写,并运行在HDFS(Hadoop Distributed Filesystem)之上。HBase作为Apache软件基金会的一部分得到了众多开发者的支持。

2.Node.js

Node.js是为编写高度扩展的互联网应用软件而设计的,特别是Web服务器。由于基于事件驱动I/O伺服端JavaScript环境可最大限度的减少开销,提高扩展性。目前Node社区热度很高,同时具有上千个开源的Node.js模块。

3.Nginx 阅读全文

2011开源软件流行趋势榜

在过去的2011年,很多开源项目在逐渐流行并被广泛 应用,由OpenLogic针对web和应用服务器、应用框架和数据库及大数据领域所进行的调查统计,总结出以下榜单:

2011五大开源项目

  1. HBase,一个构建于Hadoop之上的分布式的、基于列的数据库系统
  2. Node.js,一个用Javascript编写高扩展性的互联网应用的平台
  3. Nginx,一个高并发、低内存消耗的web服务器和反向代理软件
  4. Hadoop,一个在集群中分布式处理大数据集的框架
  5. Rails,高扩展性的web应用框架 阅读全文

怎样向妻子解释MapReduce

印度Java程序员Shekhar Gulati在自己的博客发表了“How I explained MapReduce to my Wife?”一文,比较通俗地阐述了MapReduce的概念。

以下为博客内容:

昨天,我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利,听众们都能够理解MapReduce的概念(根据他们的反馈)。我成功地向技术听众们(主要是Java程序员,一些Flex程序员和少数的测试员)解释了MapReduce的概念,这让我感到兴奋。在所有辛勤的工作之后,我们在Xebia印度办公室享用了丰盛的晚餐,然后我径直回了家。 阅读全文

淘宝Hadoop数据分析实践

  • 1. 淘宝Hadoop数据分析实践淘宝 数据平台与产品部周敏(周忱)
  • 2. 数据分析选型历程Hadoop简介系统架构集群介绍近期对Hadoop的改造实践主要内容
  • 3. 淘宝数据分析选型历程webalizer awstat 般若 & OracleAtpanel & Oracle RAC 日志最高达250GB/天最高达约50道作业每天运行20小时以上Oracle RAC集群最多20个节点HadoopHive
  • 4. Hadoop是什么
  • 5. 目前架构天网调度系统Oracle 备库爬虫数据MySQL备库日志系统TimeTunnelDataExchangeDataSyncGateway ServersHadoop Cluster:云梯1Map Reduce Java JobsStreaming JobsHive Jobs数据平台搜索支付宝B2B云梯2口碑广告BI数据魔方量子统计淘数据推荐系统搜索排行…
  • 6. 规模总容量27.79PB, 利用率51.06%总共1600+台机器约6.6千万个文件每台机器12 TB/24TB约40000道作业/天扫描数据约1.7PB/天产生数据约255 TB/天用户数820人, 用户组67个

阅读全文

基于Eclipse和hadoop平台应用开发入门手册

  • 1. 基于Eclipse和Hadoop平台应用开发入门手册西铭(李振华)2010-4-121
  • 2. 目录2
  • 3. 1.你准备好了吗?操作系统 Linux 64bit 运行Hadoop Windows 用于运行Eclipse Java SE Development Kit(JDK)下载:http://java.sun.com/javase/downloads/widget/jdk6.jsp需要下载Windows 32bit和Linux64bit 2个版本Cygwin(Linux开发环境忽略)下载: http://cygwin.com/ Ant下载:http://ant.apache.org/bindownload.cgi需要下载Linux系统上 Eclipse Galileo版下载:http://www.eclipse.org/downloads/需要下载Eclipse IDE for Java Developers For Windows 32bit和Linux64bit 2个版本Hadoop 0.19.2官方版下载:http://www.apache.org/dyn/closer.cgi/hadoop/core/3
  • 4. 2.Windows环境搭建-WorkDir注:本案例以Hadoop0.19.2进行安装演示,与官方版本的配置区别会提示说明。工作目录(workdir)=D:SearchCenterJwork将下载的windows版本的JDK1.6、Eclipse、Hadoop0.19.2放到工作目录下4 阅读全文
Next page