首页
作品
资讯
专题
果动
登录
注册
首页
作品
大数据入门指南
大数据入门指南
HelloWorld
大数据
54.6
万字
开始阅读
取消订阅
现在订阅
简介
本书面向初学者介绍了常用大数据框架的使用。
作者的话
公众号:程序员星球s
博客:https://blog.csdn.net/m0_37809146
目录
前 言
大数据学习路线
大数据常用软件安装指南
Linux下安装JDK
Linux下安装Python
虚拟机静态IP及多IP配置
一、Hadoop
Hadoop分布式文件系统——HDFS
分布式计算框架——MapReduce
Hadoop单机版环境搭建
集群资源管理器——YARN
Hadoop集群环境搭建
HDFS 常用 shell 命令
基于ZooKeeper搭建Hadoop高可用集群
HDFS Java API
二、Hive
Linux环境下Hive的安装
Hive简介及核心概念
Hive CLI和Beeline命令行的基本使用
Hive 常用 DDL 操作
Hive分区表和分桶表
Hive 视图和索引
Hive 常用DML操作
Hive数据查询详解
三、Spark
Spark简介
Spark开发环境搭建
基于ZooKeeper搭建Spark高可用集群
弹性式数据集RDDs
Transformation 和 Action 常用算子
Spark部署模式与作业提交
Spark 累加器与广播变量
Spark SQL
Spark SQL 的 DataFrame和Dataset
Spark SQL 外部数据源
Spark SQL 常用聚合函数
Spark SQL JOIN 操作
Spark Streaming 简介
Spark Streaming 基本操作
Spark Streaming 整合 Flume
Spark Streaming 整合 Kafka
四、Storm
Storm和流处理简介
Storm 核心概念详解
Storm单机版本环境搭建
Storm集群环境搭建
Storm 编程模型
五、Flink
Flink 核心概念综述
Flink 开发环境搭建
Flink Data Source
Flink Transformation
Flink Sink
Flink Windows
Flink 状态管理
Flink Standalone 集群部署
六、HBase
HBase 简介
Hbase系统架构及数据结构
HBase基本环境搭建
HBase集群环境配置
Hbase 常用 Shell 命令
HBase Java API 的基本使用
Hbase 过滤器详解
Hbase 协处理器
Hbase容灾与备份
Hbase的SQL中间层——Phoenix
Spring/Spring Boot 整合 Mybatis + Phoenix
七、Kafka
Kafka简介
基于Zookeeper搭建Kafka高可用集群
Kafka生产者详解
Kafka消费者详解
深入理解Kafka副本机制
八、Zookeeper
Zookeeper简介及核心概念
Zookeeper常用Shell命令
Zookeeper Java 客户端 ——Apache Curator
Zookeeper ACL
Zookeeper单机环境和集群环境搭建
九、Flume
Flume 简介及基本使用
Linux下Flume的安装
Flume 整合 Kafka
十、Sqoop
Sqoop 简介与安装
Sqoop基本使用
十一、Azkaban
Azkaban简介
Azkaban 3.x 编译及部署
Azkaban Flow 1.0 的使用
Azkaban Flow 2.0的使用
十二、Scala
Scala 简介及开发环境配置
Scala 基本数据类型和运算符
Scala 流程控制语句
Scala 数组相关操作
Scala 集合
Scala List & Set
Scala Map & Tuple
Scala 类和对象
Scala 继承和特质
Scala 函数和闭包
Scala 模式匹配
Scala 类型参数
Scala 隐式转换和隐式参数
其它
大数据应用常用打包方式
资料分享与工具推荐