Skip to content

Latest commit

 

History

History
25 lines (22 loc) · 778 Bytes

hadoop_01_overview.md

File metadata and controls

25 lines (22 loc) · 778 Bytes

Apache™ Hadoop®

  • 分布式系统基础架构;
  • 实现了一个分布式文件系统HDFS,适合超大数据集,可以流式访问数据;
  • 核心设计:HDFS(海量存储)和MapReduce(计算);
  • 受Google的MapReduce和GFS启发;
  • 特点:
    • 高可靠性
    • 高扩展性
    • 高效性
    • 高容错性
    • 低成本

子项目

  • HDFS:分布式文件系统
  • MapReduce: 并行计算框架
  • HBASE: 分布式NoSQL列数据库,类似BigTable
  • Hive:数据仓库工具
  • ZooKeeper:分布式锁服务
  • Avro:数据序列化格式与传输工具
  • Pig:大数据分析平台
  • Ambari: Hadoop管理工具,可以快捷的监控、部署和管理集群
  • Sqoop:于Hadoop与传统数据库间进行数据的传递