基于Python Spark的大数据分析

  • A+

课程介绍:

一、pyspark环境篇

①python2.7+pycharm环境配置

②anaconda环境配置

③python数据结构及函数使用

④Spark2.x环境配置

2、pyspark基础篇

①配置pyspark模块到pycharm

②基于pyspark编程实现wordcount(词频统计)

③spark-submit提交spark application

④案例:基于pyspark电商网站数据分析

⑤深入理解pyspark内部工作原理

3、pyspark进阶篇

①基于pyspark的sparksql编程(sql和dsl)

②案例:淘宝用户数据分析(集成hive使用)

③如何定义、注册和使用udf

④基于pyspark的sparkstreaming实时计算

⑤案例:实时销售额统计和商品点击趋势分析

4、pyspark项目篇

①实战项目:美国宇航局肯尼迪航天中心web日志

②数据统计:数据总览、http响应状态相关统计分析、客户端相关访问统计分析、uri访问相关统计分析

5、bigdata实战篇

①使用hbase的pyton api访问数据

②实战:爬取电子商务网站的图片和商品信息

③python的爬虫(beautifulsoap和mechnize)

④数据存储hbase表及分析

课程截图:

课程下载:

输入密码查看加密内容:

sulindong

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: