数据操作基础库 numpy 一

本贴最后更新于 1711 天前,其中的信息可能已经物是人非
## 基本操作

numpy:数据分析和机器学习的底层库,完全由C语言实现,用于高效的操作数据。而且是开源的,经过了很多大牛的完善。

numpy.ndarray(numpy数组):由实际数据和元数据组成,实际数据必须是数据类型相同的数据集,元数据则是存储数据的维度和长度。
例如:a = [[2 3] [4 5] [6 7]] 的实际数据是2 3 4 5 6 7,元数据(a.shape)是(3,2),不加逗号是为了区分python列表与numpy数组。

**0、创建数组**
numpy.arange(起始,终止,步长)  生成一维数组
numpy.array(一般为列表或数组,dtype=对数据类型的描述) 根据列表或数组生成新数组,dtype可以省略

**1、numpy内部基本数据类型**
布尔型:bool_     
有符号整数:int8(-128~127)/int16/int32/int64
无符号整数:unint8(0-255)/uint16/uint32/uint64
浮点型:float16/float32/float64
复数型:complex64/complex128
字符串:str_ , 每个字符用32位(四个字节)Unicode编码表示

**2、自定义复合类型**
1)类型字符码
? --- bool_  
b --- int8   
B --- uint8   
i1/i2/i4/i8 --- 有符号整型   
u1/2/4/8 -- 无符号整型   
f2/4/8 --- 浮点   
c8/16 --- 复数   
U<字符数> --- 字符串   
M8 --- 日期时间   
O --- Python对象
2)类型字符串
<字节序><维度><类型字符码><字节数>
字节序:> 大端字节序  < 小端字节序 = 根据硬件自动选择
比如:a = numpy.array(['abcdef'], dtype='6U1')
      # [['a' 'b' 'c' 'd' 'e' 'f']]
更多示例见:[dtype.py](https://gitee.com/kanadeblisst/CSDN/blob/master/dtype.py)
疑问:能不能将['abcdef']解读成这个数组['ab' 'cd' 'ef']

**3、切片**
数组[起始:终止:步长,起始:终止:步长,...]
除了有多维切片外,基本和Python切片一样
补充: a[0][1][2] 同a[0,1,2]
示例:[slice.py](https://gitee.com/kanadeblisst/CSDN/blob/master/slice.py)

**4、变维**
1)视图变维
reshape()(重新设置维度)、ravel()(展平,将数组变为一维的)、
transpose((2,1,0))(转置)原数组为(0,1,2),也就是把0,2轴数据对调
视图:返回一个具有新维度的新数组对象,数据还是原数组的数据,当原数组数据变化时,新数组数据也会变化
2)复制变维
flatten(展平,复制数据形成新数组)     
3)就地变维
在原数组之上,改变维度
a.shape = 新维度
a.resize(...)
示例:[reshape.py](https://gitee.com/kanadeblisst/CSDN/blob/master/reshape.py)

**5、np.ndarray的属性**
dtype 元素类型    
shape 数组维度
T 转置视图   
size 元素个数
ndim 数组维数   
itemsize 每个元素字节数
nbytes 数组总字节数 
real 实部数组 
imag 虚部数组 如果是整数或浮点数数组,则全为0,字符串数组则全为''
flat 扁平迭代器(展平后的迭代器)
tolist()  数组转列表
a1 = np.append(a, i)  向a中添加i并返回结果给a1


## 一、创建数组

**1.arange**
```
a = numpy.arange(0, 16)
# 生成0-16的数组
b = numpy.arange(0, 16).reshape(4, 4)
# 生成一个4x4的数组,数据为a的数据
a.shape = (2, 2, 2, 2)
# 修改a的维度为(2,2,2,2)
a.shape = (2,-1,2,2)
# -1表示自动计算该维度
a.resize = (4, 4)
# 修改a的维度为(4,4)
```
**2、array和asarray**
```
a = numpy.array([1,2,3,4])
b = numpy.array([1,2,3,4], dtype=numpy.float32)
c = numpy.array([[1, 2], [3, 4]])
d = numpy.array(numpy.arange(1,11))
e = numpy.array([numpy.arange(1,5), numpy.arange(11, 15)])
```
asarray用法同array,不过asarray接受的参数是numpy数组时,并不会拷贝一份,array则会拷贝,所以看实际需求吧。

**3、linspace和logspace**
1)numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
功能:生成一个num个数的等差数列(数组),起始值为start,终止值为stop
endpoint:是否包含stop
retstep:为True时生成(ndarray, 间距)的元组,间距也就是数学上的公差
2)numpy.logspace(start, stop, num=50, endpoint=True, base=10.0, dtype=None)
功能:生成一个num个数的等比数列(数组)。起始值为base ** start,终止值为base ** stop。
示例:[llspace.py](https://gitee.com/kanadeblisst/CSDN/blob/master/llspace.py)

**4、empty、ones和zeros**
numpy.empty(shape, dtype = float, order = 'C')
功能: 生成一个维度为shape的空数组,不过因为是C语言写的,未被赋值的变量会是垃圾值。
numpy.zeros(shape, dtype = float, order = 'C')
功能: 生成一个维度为shape,值全为0的数组。
numpy.ones(shape, dtype = None, order = 'C')
功能: 生成一个维度为shape,值全为1的数组

**拓展:高级索引**
1)a[一维行索引列表或数组, 一维列索引列表或数组]
例如:

```
a = np.array([[1,  2],  [3,  4],  [5,  6]]) 
b = a[[0, 1, 2],  [0, 1, 0]] 
# 相对于b是由a[0, 0]、a[1, 1]、a[2, 0]组成的新数组,即[1 4 5]
```

2)a[多维行索引列表或数组, 多维列索引列表或数组]
例如:
```
a = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]]) 
b = a[np.array([0, 0, 3 3]), np.array([0, 2, 0, 2])]
会得到[0 2 9 11]
b = a[np.array([[0, 0], [3 3]]), np.array([[0, 2], [0, 2]])]
```

则会得到[[0 2] [9 11]],数据并没有变,只是结果的维度变化了。
3)布尔索引

```
b = [False, True, True]
a = numpy.array([1, 2, 3])
c = a[b]
```
你猜结果是啥

4)花式索引
a为一维数组,索引也为一维数组
```
a = numpy.arange(15)
b = a[range(5)]  # [0 1 2 3 4]
c = a[[-1,-2,-3,-4]]  # [14 13 12 11]
```
那么当a为二维数组,而索引只给一个一维数组,会得到什么?
```
a = numpy.arange(15).reshape(5, 3)
b = a[[-3,-1,-2]]
```

再高级一点,请看:
```
a = numpy.arange(15).reshape(5, 3)
b = a[numpy.ix_([1,3,3],[2,0,1])]
c = a[[1,3,3]][:,[2,0,1]]
```

这个索引的意思是先取a[[1,3,3]]得到a的第一行和两个第三行的数组,然后分别对每一行取[2,0,1]这个索引。
numpy.ix_函数将[1,3,3],[2,0,1]打包成一个这样([[1] [3] [3]], [[2 0 1]])的元组。也就是它的作用只是让你代码显得容易理解,否则写一个a[([[1] [3] [3]], [[2 0 1]])]谁知道结果是什么。当然你非要这样写也行,和写numpy.ix_一样。写成c的形式也比较容易理解。

个人理解: 如果可以不用花式索引,最好别用。因为花式索引并不是像切片和索引一样的视图,而是复制了一份新的数据。

## 二、数组操作

**1、基本操作(数组维度完全相同)**
```
a = numpy.arange(1, 11)
b = numpy.arange(11,21)
c = a + b
d = b - a
e = a * b # 和矩阵的操作不同,数组间的乘法只是对应元素相乘。
f = b / a
g = b // a
h = a > 5
j = a[a>5]   # 布尔索引的应用
k = a @ b  # 矩阵乘法,同A.dot(B)
```

**2、numpy广播(数组维度不同,但有限制)**
专业解释:广播的原则,如果两个数组的后缘维度(trailing dimension,即从末尾开始算起的维度)的轴长度相符,或其中的一方的长度为1,则认为它们是广播兼容的。广播会在缺失和(或)长度为1的维度上进行。

大概意思是:维度为(4,3,2)的数组是可以和维度为(3,2)的数组进行操作的,当然和(3,1)和(1,2)也是可以的。

```
a = numpy.arange(1, 25).reshape(4,3,2)
b = numpy.arange(1, 7).reshape(3,2)
print('a: ', a)
print('b: ', b)
print(a + b)
```




#

##

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 招聘

    哪里都缺人,哪里都不缺人。

    189 引用 • 1056 回帖
  • iOS

    iOS 是由苹果公司开发的移动操作系统,最早于 2007 年 1 月 9 日的 Macworld 大会上公布这个系统,最初是设计给 iPhone 使用的,后来陆续套用到 iPod touch、iPad 以及 Apple TV 等产品上。iOS 与苹果的 Mac OS X 操作系统一样,属于类 Unix 的商业操作系统。

    84 引用 • 139 回帖
  • 架构

    我们平时所说的“架构”主要是指软件架构,这是有关软件整体结构与组件的抽象描述,用于指导软件系统各个方面的设计。另外还有“业务架构”、“网络架构”、“硬件架构”等细分领域。

    139 引用 • 441 回帖 • 1 关注
  • Sym

    Sym 是一款用 Java 实现的现代化社区(论坛/BBS/社交网络/博客)系统平台。

    下一代的社区系统,为未来而构建

    523 引用 • 4581 回帖 • 692 关注
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 53 关注
  • API

    应用程序编程接口(Application Programming Interface)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

    76 引用 • 421 回帖
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    6507 引用 • 29243 回帖 • 246 关注
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖 • 4 关注
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    14 引用 • 7 回帖 • 1 关注
  • 深度学习

    深度学习(Deep Learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

    40 引用 • 40 回帖
  • Vditor

    Vditor 是一款浏览器端的 Markdown 编辑器,支持所见即所得、即时渲染(类似 Typora)和分屏预览模式。它使用 TypeScript 实现,支持原生 JavaScript、Vue、React 和 Angular。

    311 引用 • 1666 回帖
  • 京东

    京东是中国最大的自营式电商企业,2015 年第一季度在中国自营式 B2C 电商市场的占有率为 56.3%。2014 年 5 月,京东在美国纳斯达克证券交易所正式挂牌上市(股票代码:JD),是中国第一个成功赴美上市的大型综合型电商平台,与腾讯、百度等中国互联网巨头共同跻身全球前十大互联网公司排行榜。

    14 引用 • 102 回帖 • 401 关注
  • CSS

    CSS(Cascading Style Sheet)“层叠样式表”是用于控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。

    180 引用 • 447 回帖
  • 禅道

    禅道是一款国产的开源项目管理软件,她的核心管理思想基于敏捷方法 scrum,内置了产品管理和项目管理,同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能,在一个软件中就可以将软件研发中的需求、任务、bug、用例、计划、发布等要素有序的跟踪管理起来,完整地覆盖了项目管理的核心流程。

    5 引用 • 15 回帖 • 223 关注
  • 七牛云

    七牛云是国内领先的企业级公有云服务商,致力于打造以数据为核心的场景化 PaaS 服务。围绕富媒体场景,七牛先后推出了对象存储,融合 CDN 加速,数据通用处理,内容反垃圾服务,以及直播云服务等。

    25 引用 • 215 回帖 • 163 关注
  • VirtualBox

    VirtualBox 是一款开源虚拟机软件,最早由德国 Innotek 公司开发,由 Sun Microsystems 公司出品的软件,使用 Qt 编写,在 Sun 被 Oracle 收购后正式更名成 Oracle VM VirtualBox。

    10 引用 • 2 回帖 • 5 关注
  • 房星科技

    房星网,我们不和没有钱的程序员谈理想,我们要让程序员又有理想又有钱。我们有雄厚的房地产行业线下资源,遍布昆明全城的 100 家门店、四千地产经纪人是我们坚实的后盾。

    6 引用 • 141 回帖 • 551 关注
  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    940 引用 • 1458 回帖 • 160 关注
  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    170 引用 • 414 回帖 • 431 关注
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖 • 4 关注
  • AngularJS

    AngularJS 诞生于 2009 年,由 Misko Hevery 等人创建,后为 Google 所收购。是一款优秀的前端 JS 框架,已经被用于 Google 的多款产品当中。AngularJS 有着诸多特性,最为核心的是:MVC、模块化、自动化双向数据绑定、语义化标签、依赖注入等。2.0 版本后已经改名为 Angular。

    12 引用 • 50 回帖 • 422 关注
  • 博客

    记录并分享人生的经历。

    270 引用 • 2386 回帖
  • 创造

    你创造的作品可能会帮助到很多人,如果是开源项目的话就更赞了!

    172 引用 • 990 回帖
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 54 关注
  • JetBrains

    JetBrains 是一家捷克的软件开发公司,该公司位于捷克的布拉格,并在俄国的圣彼得堡及美国麻州波士顿都设有办公室,该公司最为人所熟知的产品是 Java 编程语言开发撰写时所用的集成开发环境:IntelliJ IDEA

    18 引用 • 54 回帖
  • OAuth

    OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。

    36 引用 • 103 回帖 • 7 关注