本来是打算介绍 Spark(python)
中的 RDD
的,但是,这部分有很多类似于 Python
中包 Pandas
的用法,故而,索性将 Python 中的 pandas 一起写了,但是很多 pandas 又基于包 numpy
,所以先写 numpy。
这样一来,Python 相关的就会占据一个大的模块,然后大数据算一个模块。大数据模块将使用 docker 搭建集群,所以,环境搭建完,基本也就学会 docker 的大部分知识了。所以分出一个 docker 模块出来,docker 搭建在 Linux 系统上,所以将会有一个 Linux 系统模块。
计划将有的模块为软件体系架构(这是一个比较大的模块,里面可能做细分)、
Python 数据科学
- nump
- pandas
- 数据可视化
- 机器学习
Linux
docker
大数据
- 环境搭建(基于 Docker)
- Hbase
- Spark
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于