首页
课程中心
专家团队
新闻中心
精彩活动
关于我们

课程中心

主流大数据系统的性能监控及分析

  • 课程时间:6月12日-6月14日
  • 主讲老师:杨老师
  • 公开课费用:5900元
  • 课程地点:北京
随着互联网、移动互联网和物联网的发展,我们已经切实地迎来了一个大数据的时代。如何对海量数据进行挖掘和分析,已经成为一个非常重要且紧迫的需求。从2008年Natural正式定义“大数据”开始,以Hadoop为代表的大数据处理和分析工具,以其可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流数据分析平台。大数据相关技术最近几年出现了井喷的趋势,众多技术纷纷出现,典型的系统包括Hadoop、Spark、SparkSQL、Hive、HBase、Kafka、Streaming、Parquet、ElasticSearch、Mahout、MLlib、Docker等,涵盖网络数据爬取、日志采集、分布式消息订阅、大数据分析挖掘等方面,涉及离线批处理、实时处理、流式处理等多种处理方式。面对如此众多的新技术,如何利用这些流行的大数据产品,构成一个大数据系统,如何监控其性能,性能指标如何分析,性能问题如何定位和解决,成为一个紧迫的亟待解决的问题。

互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论,成为了海量信息的多种形式。当数据以成百上千TB不断增长的时候,我们在内部交易系统的历史信息之外,需要一种基于大数据分析的决策模型和技术支持。

大数据处理技术涉及各行各业,包含离线批处理、实时处理、流式处理等多种处理方式,大数据处理和分析工具,对系统的可伸缩性、健壮性、计算性能和成本上有不同的要求,这导致了大数据技术必须涵盖网络数据爬取、日志采集、分布式消息订阅、大数据分析挖掘等方面,目前典型的系统包括Hadoop、Spark、SparkSQL、Hive、HBase、Kafka、SparkStreaming、Parquet、ElasticSearch、Mahout、MLlib、Docker等,这些技术来源于国外不同的著名大公司和科研院校,且大都开源方式公开,用于解决不同的应用需求,涉及面广,技术要求高,交叉知识范围广,知识内容更新频繁,要厘清其中的关系,从中发现最适合本单位的技术,成为了目前各单位技术专家的一个难点。

本课程教学过程中还从国内外经典大数据应用中,提取了大量的案例分析来帮助学员了解大数据前沿相关新技术,并介绍了从海量数据中发现有价值的信息的关键,目标是协助各单位研究人员,对前沿主流大数据技术有一个Overview,在此基础上帮助各单位技术专家准确定位和发现相关的大数据平台和工具。

本课程不是一个泛泛的理论性、概念性的介绍课程,而是针对问题讨论解决方案的深入课程。教师对于上述领域有深入的理论研究与实践经验,在课程中将会针对这些问题与学员一起进行研究,在关键点上还会搭建实验环境进行实践演练,加深对于这些解决方案的理解。通过本课程学习,希望推动大数据应用开发上升到一个新水平。

 

培训目标

1、全面了解主流大数据系统的性能监控技术的相关知识。

2、学习主流大数据系统的性能监控方法以及应用特征。

3、学习使用主流大数据系统以及在数据分析中的使用。

4、了解主流大数据系统的技术融合。

 

证书

培训结束,颁发中科院计算所职业培训中心“主流大数据系统的性能监控及分析”结业证书。

 

本课程有企业内训形式,授课老师、课程内容、教学方式均依据企业的培训需求灵活设置。

 

本网站内容包括并不限于课程介绍、课程大纲、上课照片、老师介绍等等资料及信息,未经允许不得抄袭和转载。

培训对象

1,系统架构师、系统分析师、高级程序员、资深开发人员。

2,牵涉到主流大数据系统分析建模的数据中心运行、规划、设计负责人。

3,政府机关,金融保险、移动和互联网等大数据来源单位的负责人。

4,高校、科研院所牵涉到主流大数据系统应用的项目负责人。

5,对大数据系统性能监控及分析感兴趣的人员。

学员基础

1,对IT系统设计有一定的理论与实践经验。

2,对大数据分析和数据处理方法有一定的基础知识。

3,对Hadoop/Spark等大数据技术有一定的了解。

第一讲 大数据技术基础

1)大数据应用需求及潜在价值分析

2)大数据与数据库解决方案的对比

3)国内外主流的大数据解决方案

4)开源的大数据生态系统平台剖析

5)大数据下的技术选型与架构设计

第二讲 批处理大数据平台Hadoop

1)Hadoop及其运行架构

2)HDFS分布式文件系统

3)MapReduce计算模型

4)HBase大表管理技术

5)Hadoop平台使用和实操

6) Hadoop性能监控及分析

第三讲 快速大数据平台Spark

1) Spark快速处理技术

2)弹性分布式数据集RDD

3) Spark分布式计算框架

4) Spark的BDAS生态系统

5) Spark平台使用和实操

6)Spark性能监控及分析

第四讲 流式实时大数据平台Streaming

1) 实时流数据处理工具Streaming

2) Spark Streaming原理

3) Spark Streaming架构

4) Spark Streaming实例

5) Spark Streaming性能监控及分析

第五讲 云数据处理工具HBase

1) NoSQL技术及云数据库介绍

2) HBase列数据存储机制

3) HBase数据处理机制分析

4) HBase高并发读/写实现及案例

5) HBase性能监控及分析

第六讲 Hive及大数据中的SQL工具

1) 大数据中的类SQL工具

2) Hive设计目标和数据模型

3) Hive关键性技术分析

4) Hive数据操作和案例

5) Hive性能监控及分析

第七讲 SparkSQLSQL工具

1) Spark SQL和BDAS数据分析栈

2) SparkSQL设计目标和数据模型

3) Spark SQL数据操作

4) SparkSQL关键性技术和案例

5) SparkSQL性能监控及分析

第八讲 分布式消息订阅工具Kafka

1) Kafka应用介绍

2) Kafka平台架构

3) Kafka集群部署与配置

4) Kafka应用案例实操

5) Kafka性能监控及分析

第九讲 大数据存储格式Parquet

1) 大数据存储格式的要求

2) Parquet文件格式介绍

3) Parquet的组成分析

4) Parquet的应用情况

5) Parquet性能监控及分析

第十讲 大数据分析挖掘工具

1)大数据挖掘及知识模型的发现

2)大数据挖掘工具Mahout和MLlib

3)推荐方法及MLlib电影推荐案例

4)分类方法及Mahout新闻分类案例

5)聚类方法及K-Means聚类案例

第十一讲 Elasticsearch搜索分析工具

1) 全文检索与Elasticsearch工具

2) Elasticsearch索引及检索

3) Elasticsearch信息扩展索引结构

4) ELK和Elasticsearch集群

5) Elasticsearch性能监控及分析

第十二讲 资源虚拟化工具Docker

1)虚拟化和容器技术

2)LXC和Docker的发展

3)Docker架构及特性

4)镜像、容器和仓库

5)Docker的执行及其案例实操

第十三讲 大数据技术展望

1)大数据分析技术展望

2)大数据平台的发展展望

3)大数据挖掘的应用展望

接受现金、汇款、支票、刷卡

名  称:北京市海淀区中科院计算所职业技能培训学校

开户行:北京银行中关村支行

帐  号:01090302900120105445661

京公网安备 11010802025851号

 京ICP备14030124号-1  

QQ咨询

免费电话

010-82661221

微信咨询

微信客服

在线报名

返回顶部