《大型技术架构》读书笔记

本贴最后更新于 2847 天前,其中的信息可能已经时过境迁
前段时间读了《大型技术架构》一书,现把书中的要点记录下来。
  1. 网站架构模式:分层(单一职责,MVC分层,控制层-服务层-数据层),分割(不同功能与服务分割),分布式(服务调用需要通过网络,带来了网络问题;分布式数据一致性问题),集群,缓存,异步,冗余(冷备份,热备份),自动化,安全。
  2. 常用的分布式方案:分布式应用与服务;分布式静态资源(动静分离JS,CSS,图片等,减轻应用服务器的负载压力);分布式数据与存储(读写分离;分库分表;缓存优化;传统数据库分布式部署;使用NoSQL);分布式计算。
  3. 缓存:CDN(内容分发,部署在离用户最近的网络服务商),反向代理(部署在网站的数据中心),本地缓存(缓存在本机内存中,但是不适合大量的数据),分布式缓存(分布式缓存集群)。热点数据缓存,注意缓存的时间,避免出现数据脏读,影响数据一致性。
  4. 异步:单一服务器可以通过多线程共享内存队列的方式实现;分布式系统中可以通过分布式消息队列实现。典型的模型就是生产者-消费者模式,两者之间不存在直接调用,只是保持数据结构不变。作用:提高网站可用性;加快网站响应速度;消除并发访问高峰。
  5. 性能问题,网站响应速度慢,优化措施:通过浏览器缓存,页面压缩等;使用CDN,动静分离,部署反向代理服务器,缓存热点文件;使用本地缓存与分布式缓存;使用消息队列,异步处理请求;代码层面使用多线程,内存管理等进行优化;数据库方面使用索引,缓存,优化SQL,读写分离等。
  6. 可用性:网站高可用的主要手段就是冗余,通过负载均衡服务器统一一个集群对外提供服务,有效的负载均衡策略;数据服务器进行实时备份,宕机时进行数据转移并恢复。
  7. 网站可扩展性的主要手段是事件驱动架构和分布式服务。事件驱动通常将请求构造成消息发布到消息队列之中,消息处理者通过消息队列中获取消息进行处理。分布式服务是将业务与基础服务分离开来。
  8. 性能优化策略:首先要进行性能数据的搜集,然后针对性能报告进行性能分析,检查请求处理的各个环节的日志信息,分析是哪个环节响应时间较长,检查监控数据,分析影响性能的是硬件设施(内存,磁盘,CPU,网络)还是代码问题还是架构设计不合理,亦或是系统资源不足等。找到问题的原因后再针对不同的问题进行相应的优化。
  9. 浏览器访问优化:减少http请求(合并CSS,JS文件,图片等),http协议是无状态的应用层协议,意味着每次http请求都需要建立通信链路,进行数据传输。使用浏览器缓存(设置http的头字段)。启用压缩(对html,css,js文件进行GZIP压缩)
  10. 网站优化第一定律:优先考虑使用缓存优化性能。
  11. 缓存的基本原理:缓存指的是将数据存储在相对较高访问速度的存储介质中,减少数据访问的时间。缓存的本质是一个内存Hash表,数据缓存以一对Key,Value的形式存储在内存Hash表中。Hash表数据读写的时间复杂度为O(1)。缓存中主要用来存放读写比较高,很少变化的数据,应用程序先读写缓存,缓存中没有或者数据失效再去数据库中查询,并将查询到的数据写入缓存。缓存要考虑数据一致性问题与脏读。可以设置策略是数据更新后马上更新缓存。缓存雪崩问题通过分布式缓存解决。
  12. 分布式缓存:缓存部署在多个服务器组成的集群上。两种缓存架构方式:JBoss Cache为代表的需要更新同步的分布式缓存;以Memcached为代表的不互相通信的分布式缓存。
  13. JBoss Cache的分布式缓存在集群中的所有服务器上都保存相同的缓存数据,当某台服务器缓存更新时,会通知集群中所有的机器进行缓存更新或清除缓存。一般会将JBoss Cache与应用程序部署在同一服务器上。
  14. Memcached采用的是集中式的缓存管理,缓存与应用分离部署,缓存系统部署在专门的集群上,应用程序通过一致性hash等路由算法选择缓存服务器远程访问缓存数据,缓存服务器之间不通信。这样缓存集群可以很简单的实现扩容,具备良好的可伸缩性。采用的是TCP协议(UDP也支持)通信,序列化协议是通过基于文本的自定义协议。服务端和客户端,采用memcached协议交互。
  15. ①负载均衡+session复制,将session同步至每个应用服务器,保证服务的状态。②session绑定,利用负载均衡的源地址hash算法实现将来源于同一IP的请求始终分发到同一台应用服务器上。③利用浏览器的cookie记录下session以及sessionID,将session以及sessionID发送给负载均衡器,负载均衡服务器根据sessionID将请求转发至相应的应用服务器。④设置专门的session服务器统一管理session,应用程序每次读写session都通过session服务器。
  16. 负载均衡算法:轮询:请求依次分发到每台应用服务器上;加权轮询:根据应用服务器的性能进行加权重新分配;随机;最少连接:记录每个应用服务器正在处理的请求连接数,将新的请求分配到连接数最少的服务器上;源地址散列。
  17. 网络IO的实现:BIO;NIO;AIO。
  18. BIO采用阻塞的方式实现,也就是说一个Socket套接字需要使用一个线程来处理。支持并发的连接,需要更多的线程来完成这个工作。
  19. NIO基于事件驱动思想,采用的是Reactor模式。可以在一个线程中处理多个套接字Socket相关的工作。Reactor会管理所有的handler,并把出现的事件交给相应的handler去处理。
  20. AIO就是异步IO。采用Proactor模式,AIO与NIO的区别:AIO在读写操作时,只需要调用相应的read/write方法,并且需要传入CompletionHandler;在完成动作后会调用CompletionHandler。而NIO的通知是发生在动作之前,是在可写可读的时候,selector发现这些事件后调用handler处理。
  21. 控制器的变化:使用硬件负载均衡——》使用软件负载均衡(LVS)(透明代理,请求发送发和处理方都不需要知道对方,但是存在不足:增加网络的开销,比如流量和延时;代理出现问题则所有请求都会受到影响)——》采用名称服务直连方式请求调用(名称服务器是通过跟请求处理的机器交互来获取这些机器的地址)——》采用规则服务器控制路由的请求直连调用(规则服务器本身并不和请求处理的机器进行交互,只负责把规则提供给请求发起的机器)——》master+worker的方式(存在一个master来管理worker)
  22. 运算器的变化:DNS调度——》DNS+负载均衡调度(DNS返回的永远都是负载均衡设备的地址)
  23. 存储器的变化:单机的Key-Value服务——》使用代理服务器的多机Key-Value服务——》使用名称服务的Key-Value服务——》使用规则服务器的Key-Value服务——》通过Master的Key-Value服务
  24. 分布式系统的难点:①缺乏全局时钟;②面对故障独立性;③处理单点故障;④事务的挑战
  25. 数据库读写分离:两个问题:数据复制问题(使用数据库本身提供的数据复制机制,但还是存在复制延时的数据不一致性问题);应用对于数据源的选择问题(写操作要走主库,事务中的读操作也要走主库)
  26. 搜索引擎技术解决大型网站站内搜索时的某些场景下的读的问题,提供了更好的查询效率,站内搜索结构和使用读库非常相似,只是多了自己建立数据索引的步骤。
  27. 缓存:数据缓存(全数据缓存(数据库的数据发生变化后会把数据写入到缓存中,保证数据不会读取失效);热数据缓存(应用访问缓存,如果数据不存在则去数据库里读取并把数据加入到缓存中));页面缓存(ESI规范)
  28. 缓存的一个关键指标缓存命中率,如果缓存命中率比较低的话就意味着有不少请求要回到数据库中查询。还要考虑缓存服务器的扩容与缩容(一致性hash)以及缓存数据更新(定时失效,数据变更时失效,数据变更时更新)。
  29. 数据库拆分:专库专用,数据垂直拆分(不同业务数据拆分到不同的数据库中);数据的水平拆分(把同一个表的数据拆分到不同的数据库中)。
  30. 服务化:把应用分为三层,处于最上端的是Web系统,用于完成不同的业务功能;处于中间的是一些服务中心,不同的服务中心提供不同的业务服务,处于下层的则是业务的数据库同时引入了远程调用,共享代码不再散落在各个应用中而是放到了各个服务中心上。数据交互工作由业务服务中心完成。
  31. 远程过程调用和对象访问中间件(主要解决分布式环境下应用互相访问的问题);消息中间件(解决应用之间的消息传递,解耦以及异步问题);数据访问中间件(主要解决应用访问数据库的共性问题)
  32. 静态代理与动态代理?静态代理为每一个被代理的对象构造对应的代理类。动态代理是动态地生成具体委托类的代理实现对象,通过Proxy.newProxyInstance来创建代理方法可以为不同的委托类都创建代理类。方法调用使用invoke。
  33. 服务化使得原来的一些本地调用变为了远程调用。远程调用:获取可用服务地址列表->确定要调用服务的目标机器->建立连接->请求序列化->发送请求->接受结果->解析结果
  • 架构

    我们平时所说的“架构”主要是指软件架构,这是有关软件整体结构与组件的抽象描述,用于指导软件系统各个方面的设计。另外还有“业务架构”、“网络架构”、“硬件架构”等细分领域。

    140 引用 • 441 回帖
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3168 引用 • 8207 回帖 • 1 关注
  • 分布式
    78 引用 • 149 回帖 • 4 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
请输入回帖内容 ...

推荐标签 标签

  • WebSocket

    WebSocket 是 HTML5 中定义的一种新协议,它实现了浏览器与服务器之间的全双工通信(full-duplex)。

    48 引用 • 206 回帖 • 400 关注
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    129 引用 • 793 回帖
  • 反馈

    Communication channel for makers and users.

    123 引用 • 906 回帖 • 192 关注
  • 国际化

    i18n(其来源是英文单词 internationalization 的首末字符 i 和 n,18 为中间的字符数)是“国际化”的简称。对程序来说,国际化是指在不修改代码的情况下,能根据不同语言及地区显示相应的界面。

    7 引用 • 26 回帖
  • SMTP

    SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式。SMTP 协议属于 TCP/IP 协议簇,它帮助每台计算机在发送或中转信件时找到下一个目的地。

    4 引用 • 18 回帖 • 587 关注
  • MongoDB

    MongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是一个基于分布式文件存储的数据库,由 C++ 语言编写。旨在为应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似 JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。

    90 引用 • 59 回帖 • 1 关注
  • danl
    62 关注
  • Google

    Google(Google Inc.,NASDAQ:GOOG)是一家美国上市公司(公有股份公司),于 1998 年 9 月 7 日以私有股份公司的形式创立,设计并管理一个互联网搜索引擎。Google 公司的总部称作“Googleplex”,它位于加利福尼亚山景城。Google 目前被公认为是全球规模最大的搜索引擎,它提供了简单易用的免费服务。不作恶(Don't be evil)是谷歌公司的一项非正式的公司口号。

    49 引用 • 192 回帖
  • jsDelivr

    jsDelivr 是一个开源的 CDN 服务,可为 npm 包、GitHub 仓库提供免费、快速并且可靠的全球 CDN 加速服务。

    5 引用 • 31 回帖 • 43 关注
  • Mobi.css

    Mobi.css is a lightweight, flexible CSS framework that focus on mobile.

    1 引用 • 6 回帖 • 695 关注
  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 619 关注
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    96 引用 • 155 回帖
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 317 关注
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用 • 28 关注
  • Sandbox

    如果帖子标签含有 Sandbox ,则该帖子会被视为“测试帖”,主要用于测试社区功能,排查 bug 等,该标签下内容不定期进行清理。

    368 引用 • 1212 回帖 • 580 关注
  • 自由行
  • JVM

    JVM(Java Virtual Machine)Java 虚拟机是一个微型操作系统,有自己的硬件构架体系,还有相应的指令系统。能够识别 Java 独特的 .class 文件(字节码),能够将这些文件中的信息读取出来,使得 Java 程序只需要生成 Java 虚拟机上的字节码后就能在不同操作系统平台上进行运行。

    180 引用 • 120 回帖
  • Node.js

    Node.js 是一个基于 Chrome JavaScript 运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动, 非阻塞 I/O 模型而得以轻量和高效。

    138 引用 • 268 回帖 • 199 关注
  • etcd

    etcd 是一个分布式、高可用的 key-value 数据存储,专门用于在分布式系统中保存关键数据。

    5 引用 • 26 回帖 • 491 关注
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1083 引用 • 3461 回帖 • 286 关注
  • Unity

    Unity 是由 Unity Technologies 开发的一个让开发者可以轻松创建诸如 2D、3D 多平台的综合型游戏开发工具,是一个全面整合的专业游戏引擎。

    25 引用 • 7 回帖 • 247 关注
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    6537 引用 • 29391 回帖 • 245 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖 • 2 关注
  • Jenkins

    Jenkins 是一套开源的持续集成工具。它提供了非常丰富的插件,让构建、部署、自动化集成项目变得简单易用。

    51 引用 • 37 回帖
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 240 关注
  • Facebook

    Facebook 是一个联系朋友的社交工具。大家可以通过它和朋友、同事、同学以及周围的人保持互动交流,分享无限上传的图片,发布链接和视频,更可以增进对朋友的了解。

    4 引用 • 15 回帖 • 455 关注
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 604 关注