Skip to content

Files

Latest commit

8db93a3 · Jul 17, 2020

History

History
72 lines (39 loc) · 6.17 KB

File metadata and controls

72 lines (39 loc) · 6.17 KB

零、前言

Pandas 是一种流行的 Python 包,用于实际的实际数据分析。 它提供了高效,快速和高性能的数据结构,使数据探索和分析变得非常容易。 本学习指南将帮助您了解 pandas 库提供的一组全面功能,以执行有效的数据操作和分析。

本书涵盖的内容

第 1 章,“Pandas 和数据分析”是对 Pandas 关键功能的动手介绍。 本章旨在为在统计和数据科学领域中使用 Pandas 提供一些背景。 本章将探讨数据科学中的几个概念,并展示 Pandas 如何支持它们。 这将为后续各章设置背景,并提到每章都与数据科学和数据科学过程相关。

第 2 章,“启动和运行 Pandas”指导读者获取和安装 Pandas,并介绍一些 Pandas 的基本概念。 我们还将研究如何使用 iPython 和 Juypter 笔记本呈现示例。

第 3 章,“用序列表示单变量数据”,引导读者逐步使用 pandas 序列,该序列提供一维索引数据表示。 读者将了解如何创建序列对象以及如何操作其中包含的数据。 他们还将学习数据的索引和对齐方式,以及如何使用序列来切片数据。

第 4 章,“用数据帧表示表格和多元数据”引导读者了解 pandas 数据帧的基本用法,该方法提供并索引了多元数据表示形式。 本章将指导读者使用各种静态数据集创建数据帧对象,以及如何执行其中特定列和行的选择。 现在,下一章将处理复杂的查询,操作和索引编制。

第 5 章,“数据帧对象的操作和索引”在上一章中进行了扩展,并指导您如何执行对数据帧的更复杂的操作。 我们首先学习如何添加,删除和删除列和行; 修改数据帧中的数据(或创建修改后的副本); 对其中的数据进行计算; 创建分层索引; 并根据数据帧内容计算常见的统计结果。

第 6 章,“索引数据”显示了如何将数据从外部源加载和保存到序列和数据帧对象中。 本章还介绍了来自多个源的数据访问,例如文件,http 服务器,数据库系统和 Web 服务。 还介绍了 CSV,HTML 和 JSON 格式的数据处理。

第 7 章,“类别数据”指导读者如何使用 Pandas 提供的各种工具来管理脏数据和缺失数据。

第 8 章,“数值和统计方法”涵盖了各种用于组合,分割,合并和合并位于多个 Pandas 对象中的数据的技术,然后是如何使用数据透视,堆叠和融合等概念重塑数据。

第 9 章,“访问数据”讨论了分组和执行聚合数据分析。 在 Pandas 中,这通常称为拆分应用组合模式。 读者将学习如何使用此模式将数据按各种不同的配置进行分组,并且还将应用聚合函数来计算每组数据的结果。

第 10 章,“整理数据”解释了如何以整洁的形式组织数据,该数据可用于数据分析。

第 11 章,“组合,关联和重塑数据”告诉读者如何通过连接,合并和连接之类的概念,在多个 Pandas 对象中获取数据并将其组合。

第 12 章,“数据聚合”深入研究了 Pandas 与 matplotlib 的集成,以可视化 Pandas 数据。 本章将演示如何呈现许多常见的统计和财务数据可视化效果,包括条形图,直方图,散点图,面积图,密度图和热图。

第 13 章,“时间序列建模”涵盖了代表 Pandas 中的时间序列数据。 本章将介绍 Pandas 提供的广泛功能,以便于分析时间序列数据。

第 14 章,“可视化”教您如何基于存储在 Pandas 数据结构中的数据创建数据可视化。 我们从基础学习开始,如何从数据创建简单的图表并控制图表的几个属性(例如图例,标签和颜色)。 我们检查了几种常见图类型的创建,这些图用于表示不同类型的数据,这些类型的图使用这些图类型在基础数据中传达含义。 我们还将学习如何将 Pandas 与 D3.js 集成在一起,以便我们可以创建基于 Web 的丰富可视化。

第 15 章,“历史股价分析”向您展示如何将 Pandas 应用于基本的财务问题。 它将重点关注从 Yahoo 获得的数据。 财务,并将在财务数据中演示许多财务概念,例如计算收益,滚动平均值,波动率和其他几个概念。 学生还将学习如何将数据可视化应用于这些财务概念。

这本书需要什么

本书假定您对编程概念有所了解,但是没有编程经验,尤其是没有 Python 编程经验的人,对这些示例将感到满意,因为它们将重点放在 Pandas 构造上,而不是 Python 或编程上。 这些示例基于 Anaconda Python 2.7 和 pandas 0.15.1。 如果您尚未安装 Pandas,则将在第 2 章,“启动并运行 Pandas”中提供有关在 Windows,OSX 和 Ubuntu 系统上安装 Pandas 的指南。 对于那些对安装任何软件感兴趣的人,还提供了有关使用 Warkari.io 在线 Python 数据分析服务的说明。

这本书是给谁的

本书非常适合希望使用 Pandas 进行数据分析的数据科学家,数据分析师和 Python 程序员,以及任何对数据分析感兴趣的人。 一些统计和编程知识将帮助您充分利用本书,但这不是严格要求的。 也不需要事先接触 Pandas。

约定

在本书中,您会发现许多可以区分不同类型信息的文本样式。 以下是这些样式的一些示例,并解释了其含义。

文本中的代码字如下所示:“可以使用pd.read_csv()函数轻松地将此信息导入到数据帧中,如下所示。”

在 Python 解释器中输入的代码块设置如下:

import pandas as pd
df = pd.DataFrame.from_items([('column1', [1, 2, 3])])
print (df)

任何命令行输入或输出的编写方式如下:

mh@ubuntu:~/Downloads$ chmod +x Anaconda-2.1.0-Linux-x86_64.sh
mh@ubuntu:~/Downloads$ ./Anaconda-2.1.0-Linux-x86_64.sh

新术语重要词以粗体显示。 您在屏幕上看到的字词,例如在菜单或对话框中的字样如下所示:“本书中的快捷方式基于Mac OS X 10.5+方案”。

警告或重要提示会出现在这样的框中。

提示和技巧如下所示。