大数据入门指南_HelloWorld_匠果

大数据入门指南

大数据入门指南 HelloWorld

大数据

54.6 万字

开始阅读现在订阅

简介

本书面向初学者介绍了常用大数据框架的使用。

作者的话

公众号：程序员星球s
博客：https://blog.csdn.net/m0_37809146

目录

前言

大数据学习路线

大数据常用软件安装指南

Linux下安装JDK

Linux下安装Python

虚拟机静态IP及多IP配置

一、Hadoop

Hadoop分布式文件系统——HDFS

分布式计算框架——MapReduce

Hadoop单机版环境搭建

集群资源管理器——YARN

Hadoop集群环境搭建

HDFS 常用 shell 命令

基于ZooKeeper搭建Hadoop高可用集群

HDFS Java API

二、Hive

Linux环境下Hive的安装

Hive简介及核心概念

Hive CLI和Beeline命令行的基本使用

Hive 常用 DDL 操作

Hive分区表和分桶表

Hive 视图和索引

Hive 常用DML操作

Hive数据查询详解

三、Spark

Spark简介

Spark开发环境搭建

基于ZooKeeper搭建Spark高可用集群

弹性式数据集RDDs

Transformation 和 Action 常用算子

Spark部署模式与作业提交

Spark 累加器与广播变量

Spark SQL

Spark SQL 的 DataFrame和Dataset

Spark SQL 外部数据源

Spark SQL 常用聚合函数

Spark SQL JOIN 操作

Spark Streaming 简介

Spark Streaming 基本操作

Spark Streaming 整合 Flume

Spark Streaming 整合 Kafka

四、Storm

Storm和流处理简介

Storm 核心概念详解

Storm单机版本环境搭建

Storm集群环境搭建

Storm 编程模型

五、Flink

Flink 核心概念综述

Flink 开发环境搭建

Flink Data Source

Flink Transformation

Flink Sink

Flink Windows

Flink 状态管理

Flink Standalone 集群部署

六、HBase

HBase 简介

Hbase系统架构及数据结构

HBase基本环境搭建

HBase集群环境配置

Hbase 常用 Shell 命令

HBase Java API 的基本使用

Hbase 过滤器详解

Hbase 协处理器

Hbase容灾与备份

Hbase的SQL中间层——Phoenix

Spring/Spring Boot 整合 Mybatis + Phoenix

七、Kafka

Kafka简介

基于Zookeeper搭建Kafka高可用集群

Kafka生产者详解

Kafka消费者详解

深入理解Kafka副本机制

八、Zookeeper

Zookeeper简介及核心概念

Zookeeper常用Shell命令

Zookeeper Java 客户端 ——Apache Curator

Zookeeper ACL

Zookeeper单机环境和集群环境搭建

九、Flume

Flume 简介及基本使用

Linux下Flume的安装

Flume 整合 Kafka

十、Sqoop

Sqoop 简介与安装

Sqoop基本使用

十一、Azkaban

Azkaban简介

Azkaban 3.x 编译及部署

Azkaban Flow 1.0 的使用

Azkaban Flow 2.0的使用

十二、Scala

Scala 简介及开发环境配置

Scala 基本数据类型和运算符

Scala 流程控制语句

Scala 数组相关操作

Scala 集合

Scala List & Set

Scala Map & Tuple

Scala 类和对象

Scala 继承和特质

Scala 函数和闭包

Scala 模式匹配

Scala 类型参数

Scala 隐式转换和隐式参数

其它

大数据应用常用打包方式

资料分享与工具推荐