数据操作基础库 numpy 一

本贴最后更新于 2141 天前,其中的信息可能已经物是人非
## 基本操作 numpy:数据分析和机器学习的底层库,完全由C语言实现,用于高效的操作数据。而且是开源的,经过了很多大牛的完善。 numpy.ndarray(numpy数组):由实际数据和元数据组成,实际数据必须是数据类型相同的数据集,元数据则是存储数据的维度和长度。 例如:a = [[2 3] [4 5] [6 7]] 的实际数据是2 3 4 5 6 7,元数据(a.shape)是(3,2),不加逗号是为了区分python列表与numpy数组。 **0、创建数组** numpy.arange(起始,终止,步长) 生成一维数组 numpy.array(一般为列表或数组,dtype=对数据类型的描述) 根据列表或数组生成新数组,dtype可以省略 **1、numpy内部基本数据类型** 布尔型:bool_ 有符号整数:int8(-128~127)/int16/int32/int64 无符号整数:unint8(0-255)/uint16/uint32/uint64 浮点型:float16/float32/float64 复数型:complex64/complex128 字符串:str_ , 每个字符用32位(四个字节)Unicode编码表示 **2、自定义复合类型** 1)类型字符码 ? --- bool_ b --- int8 B --- uint8 i1/i2/i4/i8 --- 有符号整型 u1/2/4/8 -- 无符号整型 f2/4/8 --- 浮点 c8/16 --- 复数 U<字符数> --- 字符串 M8 --- 日期时间 O --- Python对象 2)类型字符串 <字节序><维度><类型字符码><字节数> 字节序:> 大端字节序 < 小端字节序 = 根据硬件自动选择 比如:a = numpy.array(['abcdef'], dtype='6U1') # [['a' 'b' 'c' 'd' 'e' 'f']] 更多示例见:[dtype.py](https://gitee.com/kanadeblisst/CSDN/blob/master/dtype.py) 疑问:能不能将['abcdef']解读成这个数组['ab' 'cd' 'ef'] **3、切片** 数组[起始:终止:步长,起始:终止:步长,...] 除了有多维切片外,基本和Python切片一样 补充: a[0][1][2] 同a[0,1,2] 示例:[slice.py](https://gitee.com/kanadeblisst/CSDN/blob/master/slice.py) **4、变维** 1)视图变维 reshape()(重新设置维度)、ravel()(展平,将数组变为一维的)、 transpose((2,1,0))(转置)原数组为(0,1,2),也就是把0,2轴数据对调 视图:返回一个具有新维度的新数组对象,数据还是原数组的数据,当原数组数据变化时,新数组数据也会变化 2)复制变维 flatten(展平,复制数据形成新数组) 3)就地变维 在原数组之上,改变维度 a.shape = 新维度 a.resize(...) 示例:[reshape.py](https://gitee.com/kanadeblisst/CSDN/blob/master/reshape.py) **5、np.ndarray的属性** dtype 元素类型 shape 数组维度 T 转置视图 size 元素个数 ndim 数组维数 itemsize 每个元素字节数 nbytes 数组总字节数 real 实部数组 imag 虚部数组 如果是整数或浮点数数组,则全为0,字符串数组则全为'' flat 扁平迭代器(展平后的迭代器) tolist() 数组转列表 a1 = np.append(a, i) 向a中添加i并返回结果给a1 ## 一、创建数组 **1.arange** ``` a = numpy.arange(0, 16) # 生成0-16的数组 b = numpy.arange(0, 16).reshape(4, 4) # 生成一个4x4的数组,数据为a的数据 a.shape = (2, 2, 2, 2) # 修改a的维度为(2,2,2,2) a.shape = (2,-1,2,2) # -1表示自动计算该维度 a.resize = (4, 4) # 修改a的维度为(4,4) ``` **2、array和asarray** ``` a = numpy.array([1,2,3,4]) b = numpy.array([1,2,3,4], dtype=numpy.float32) c = numpy.array([[1, 2], [3, 4]]) d = numpy.array(numpy.arange(1,11)) e = numpy.array([numpy.arange(1,5), numpy.arange(11, 15)]) ``` asarray用法同array,不过asarray接受的参数是numpy数组时,并不会拷贝一份,array则会拷贝,所以看实际需求吧。 **3、linspace和logspace** 1)numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None) 功能:生成一个num个数的等差数列(数组),起始值为start,终止值为stop endpoint:是否包含stop retstep:为True时生成(ndarray, 间距)的元组,间距也就是数学上的公差 2)numpy.logspace(start, stop, num=50, endpoint=True, base=10.0, dtype=None) 功能:生成一个num个数的等比数列(数组)。起始值为base ** start,终止值为base ** stop。 示例:[llspace.py](https://gitee.com/kanadeblisst/CSDN/blob/master/llspace.py) **4、empty、ones和zeros** numpy.empty(shape, dtype = float, order = 'C') 功能: 生成一个维度为shape的空数组,不过因为是C语言写的,未被赋值的变量会是垃圾值。 numpy.zeros(shape, dtype = float, order = 'C') 功能: 生成一个维度为shape,值全为0的数组。 numpy.ones(shape, dtype = None, order = 'C') 功能: 生成一个维度为shape,值全为1的数组 **拓展:高级索引** 1)a[一维行索引列表或数组, 一维列索引列表或数组] 例如: ``` a = np.array([[1, 2], [3, 4], [5, 6]]) b = a[[0, 1, 2], [0, 1, 0]] # 相对于b是由a[0, 0]、a[1, 1]、a[2, 0]组成的新数组,即[1 4 5] ``` 2)a[多维行索引列表或数组, 多维列索引列表或数组] 例如: ``` a = np.array([[ 0, 1, 2],[ 3, 4, 5],[ 6, 7, 8],[ 9, 10, 11]]) b = a[np.array([0, 0, 3 3]), np.array([0, 2, 0, 2])] 会得到[0 2 9 11] b = a[np.array([[0, 0], [3 3]]), np.array([[0, 2], [0, 2]])] ``` 则会得到[[0 2] [9 11]],数据并没有变,只是结果的维度变化了。 3)布尔索引 ``` b = [False, True, True] a = numpy.array([1, 2, 3]) c = a[b] ``` 你猜结果是啥 4)花式索引 a为一维数组,索引也为一维数组 ``` a = numpy.arange(15) b = a[range(5)] # [0 1 2 3 4] c = a[[-1,-2,-3,-4]] # [14 13 12 11] ``` 那么当a为二维数组,而索引只给一个一维数组,会得到什么? ``` a = numpy.arange(15).reshape(5, 3) b = a[[-3,-1,-2]] ``` 再高级一点,请看: ``` a = numpy.arange(15).reshape(5, 3) b = a[numpy.ix_([1,3,3],[2,0,1])] c = a[[1,3,3]][:,[2,0,1]] ``` 这个索引的意思是先取a[[1,3,3]]得到a的第一行和两个第三行的数组,然后分别对每一行取[2,0,1]这个索引。 numpy.ix_函数将[1,3,3],[2,0,1]打包成一个这样([[1] [3] [3]], [[2 0 1]])的元组。也就是它的作用只是让你代码显得容易理解,否则写一个a[([[1] [3] [3]], [[2 0 1]])]谁知道结果是什么。当然你非要这样写也行,和写numpy.ix_一样。写成c的形式也比较容易理解。 个人理解: 如果可以不用花式索引,最好别用。因为花式索引并不是像切片和索引一样的视图,而是复制了一份新的数据。 ## 二、数组操作 **1、基本操作(数组维度完全相同)** ``` a = numpy.arange(1, 11) b = numpy.arange(11,21) c = a + b d = b - a e = a * b # 和矩阵的操作不同,数组间的乘法只是对应元素相乘。 f = b / a g = b // a h = a > 5 j = a[a>5] # 布尔索引的应用 k = a @ b # 矩阵乘法,同A.dot(B) ``` **2、numpy广播(数组维度不同,但有限制)** 专业解释:广播的原则,如果两个数组的后缘维度(trailing dimension,即从末尾开始算起的维度)的轴长度相符,或其中的一方的长度为1,则认为它们是广播兼容的。广播会在缺失和(或)长度为1的维度上进行。 大概意思是:维度为(4,3,2)的数组是可以和维度为(3,2)的数组进行操作的,当然和(3,1)和(1,2)也是可以的。 ``` a = numpy.arange(1, 25).reshape(4,3,2) b = numpy.arange(1, 7).reshape(3,2) print('a: ', a) print('b: ', b) print(a + b) ``` # ##

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • RESTful

    一种软件架构设计风格而不是标准,提供了一组设计原则和约束条件,主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

    30 引用 • 114 回帖 • 1 关注
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 3 关注
  • 智能合约

    智能合约(Smart contract)是一种旨在以信息化方式传播、验证或执行合同的计算机协议。智能合约允许在没有第三方的情况下进行可信交易,这些交易可追踪且不可逆转。智能合约概念于 1994 年由 Nick Szabo 首次提出。

    1 引用 • 11 回帖 • 2 关注
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖 • 2 关注
  • Gzip

    gzip (GNU zip)是 GNU 自由软件的文件压缩程序。我们在 Linux 中经常会用到后缀为 .gz 的文件,它们就是 Gzip 格式的。现今已经成为互联网上使用非常普遍的一种数据压缩格式,或者说一种文件格式。

    9 引用 • 12 回帖 • 175 关注
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    284 引用 • 248 回帖
  • Flutter

    Flutter 是谷歌的移动 UI 框架,可以快速在 iOS 和 Android 上构建高质量的原生用户界面。 Flutter 可以与现有的代码一起工作,它正在被越来越多的开发者和组织使用,并且 Flutter 是完全免费、开源的。

    39 引用 • 92 回帖 • 5 关注
  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖 • 2 关注
  • TextBundle

    TextBundle 文件格式旨在应用程序之间交换 Markdown 或 Fountain 之类的纯文本文件时,提供更无缝的用户体验。

    1 引用 • 2 回帖 • 85 关注
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    554 引用 • 675 回帖
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1063 引用 • 3455 回帖 • 149 关注
  • etcd

    etcd 是一个分布式、高可用的 key-value 数据存储,专门用于在分布式系统中保存关键数据。

    6 引用 • 26 回帖 • 541 关注
  • API

    应用程序编程接口(Application Programming Interface)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

    79 引用 • 431 回帖
  • NetBeans

    NetBeans 是一个始于 1997 年的 Xelfi 计划,本身是捷克布拉格查理大学的数学及物理学院的学生计划。此计划延伸而成立了一家公司进而发展这个商用版本的 NetBeans IDE,直到 1999 年 Sun 买下此公司。Sun 于次年(2000 年)六月将 NetBeans IDE 开源,直到现在 NetBeans 的社群依然持续增长。

    78 引用 • 102 回帖 • 705 关注
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 66 关注
  • 国际化

    i18n(其来源是英文单词 internationalization 的首末字符 i 和 n,18 为中间的字符数)是“国际化”的简称。对程序来说,国际化是指在不修改代码的情况下,能根据不同语言及地区显示相应的界面。

    8 引用 • 26 回帖 • 5 关注
  • React

    React 是 Facebook 开源的一个用于构建 UI 的 JavaScript 库。

    192 引用 • 291 回帖 • 368 关注
  • FreeMarker

    FreeMarker 是一款好用且功能强大的 Java 模版引擎。

    23 引用 • 20 回帖 • 464 关注
  • Scala

    Scala 是一门多范式的编程语言,集成面向对象编程和函数式编程的各种特性。

    13 引用 • 11 回帖 • 159 关注
  • CloudFoundry

    Cloud Foundry 是 VMware 推出的业界第一个开源 PaaS 云平台,它支持多种框架、语言、运行时环境、云平台及应用服务,使开发人员能够在几秒钟内进行应用程序的部署和扩展,无需担心任何基础架构的问题。

    5 引用 • 18 回帖 • 191 关注
  • Outlook
    1 引用 • 5 回帖 • 5 关注
  • SendCloud

    SendCloud 由搜狐武汉研发中心孵化的项目,是致力于为开发者提供高质量的触发邮件服务的云端邮件发送平台,为开发者提供便利的 API 接口来调用服务,让邮件准确迅速到达用户收件箱并获得强大的追踪数据。

    2 引用 • 8 回帖 • 504 关注
  • Hibernate

    Hibernate 是一个开放源代码的对象关系映射框架,它对 JDBC 进行了非常轻量级的对象封装,使得 Java 程序员可以随心所欲的使用对象编程思维来操纵数据库。

    39 引用 • 103 回帖 • 729 关注
  • 域名

    域名(Domain Name),简称域名、网域,是由一串用点分隔的名字组成的 Internet 上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位(有时也指地理位置)。

    44 引用 • 208 回帖
  • CAP

    CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。

    12 引用 • 5 回帖 • 636 关注
  • 脑图

    脑图又叫思维导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具。

    32 引用 • 99 回帖 • 1 关注