Skip to content

Latest commit

 

History

History
97 lines (54 loc) · 5.74 KB

File metadata and controls

97 lines (54 loc) · 5.74 KB

零、前言

数据科学是一个令人兴奋的新领域,各种组织都在使用它来执行数据驱动的决策。 它是技术知识,数学和商业的结合。 数据科学家必须戴着各种帽子来处理数据并从中获得一些价值。 Python 是数据科学家使用的所有语言中最受欢迎的语言之一。 这是一种简单易学的语言,仅用于 Web 开发,脚本编制和应用开发等用途。

使用 Python 执行数据科学的能力非常强大,因为它有助于从原始级别清除数据,从而创建高级的机器学习算法,以预测零售公司的客户流失。 本书以结构化的方式解释了数据科学的各种概念,并将这些概念应用于数据以了解如何解释结果。 这本书为理解数据科学的高级主题以及如何将其应用于实际场景中提供了良好的基础。

这本书涵盖的内容

第 1 章,“原始数据入门”教给您处理无组织数据的技术。 您还将学习如何从不同来源提取数据,以及如何清理和处理数据。

第 2 章,“推断统计”超出了描述统计,您将在其中了解推断统计的概念,例如分布,不同的统计检验,统计检验中的错误以及置信区间 。

第 3 章,“在干草堆中找针”解释了什么是数据挖掘以及如何利用它。 数据中包含很多信息,但是找到有意义的信息是一门艺术。

第 4 章,“通过高级可视化来了解数据”,教您如何创建不同的数据可视化。 可视化是数据科学不可或缺的一部分; 它有助于传达无法通过查看原始数据看到的模式或关系。

第 5 章,“揭秘机器学习”,向您介绍机器学习的不同技术以及如何应用它们。 机器学习是业界新的流行语。 它用于 Google 的无人驾驶汽车等活动,并预测营销活动的有效性。

第 6 章,“使用线性回归执行预测”可帮助您建立简单的回归模型,然后建立多个回归模型以及测试模型有效性的方法。 线性回归是当今业界用于模型构建的最流行技术之一。

第 7 章,“估计事件的可能性”教您如何建立逻辑回归模型以及评估它的不同技术。 使用逻辑回归,您将能够学习如何估计事件发生的可能性。

第 8 章,“通过协同过滤生成建议”教您创建并应用推荐模型。 它类似于网站(例如 Amazon),该网站能够建议您可能会在其页面上购买的商品。

第 9 章,“使用集成模型推展边界”使您熟悉集成技术,该技术用于组合多个模型的功能以增强预测的准确率。 这样做是因为有时单个模型不足以估计结果。

第 10 章,“将分段与 K 均值聚类一起应用”教您有关 K 均值聚类及其使用方法。 细分在行业中广泛用于将相似的客户分组在一起。

第 11 章,“使用文本挖掘分析非结构化数据”,教您处理非结构化数据并弄清它们。 世界上非结构化数据比结构化数据更多。

第 12 章,“在大数据世界中利用 Python”在本章中教您将 Hadoop 和 Spark 与 Python 一起使用来处理数据。 随着数据规模的不断增长,已经出现了大数据技术来处理此类数据。

这本书需要什么

本书需要以下软件:

  • Ubuntu OS,最好是 14.04
  • Python 2.7
  • Pandas 0.16.2 库
  • NumPy 1.9.2 库
  • SciPy 0.16 库
  • IPython 4.0
  • SciKit 0.16.1 模块
  • statsmodels 0.6.1 模块
  • Matplotlib 1.4.3 库
  • 带有 MRv1(MapReduce 版本 1)的 Apache Hadoop CDH4(Cloudera Hadoop 4)
  • Apache Spark 1.4.0

这本书适合谁

如果您是想要掌握数据科学领域的 Python 开发人员,那么这本书适合您。 假定您已经具有一些数据科学知识。

约定

在本书中,您会发现许多可以区分不同类型信息的文本样式。 以下是这些样式的一些示例,并解释了其含义。

文本,数据库表名称,文件夹名称,文件名,文件扩展名,路径名,虚拟 URL,用户输入和 Twitter 句柄中的代码字显示如下:“json.load()函数将数据加载到 Python 中。”

任何命令行输入或输出的编写方式如下:

$ pig ./BigData/pig_sentiment.pig

新术语重要词以粗体显示。

注意

警告或重要提示会出现在这样的框中。

提示

提示和技巧如下所示。

读者反馈

始终欢迎读者的反馈。 让我们知道您对这本书的看法-您喜欢或不喜欢的东西。 读者反馈对于我们开发您真正能充分利用的标题非常重要。

要向我们发送一般性反馈,只需将电子邮件发送到<[feedback@packtpub.com](mailto:feedback@packtpub.com)>,然后通过您的邮件主题提及书名。

如果您有专业知识的主题,并且对写作或撰写书籍感兴趣,请参阅这个页面的作者指南。

客户支持

既然您是 Packt 书的骄傲拥有者,我们可以通过很多方法来帮助您从购买中获得最大收益。

下载示例代码

您可以从这个页面下载从帐户购买的所有 Packt 图书的示例代码文件。 如果您在其他地方购买了此书,则可以访问这个页面并注册以将文件直接通过电子邮件发送给您。

该代码包中提供的代码同时适用于 IPython 笔记本和 Python 2.7。 在本章中,遵循了 Python 约定。

下载本书的彩色图像

我们还提供了一个 PDF 文件,其中包含本书中使用的屏幕截图/图表的彩色图像。 彩色图像将帮助您更好地了解输出中的变化。 您可以从以下位置下载此文件