PHY 状态简介

本贴最后更新于 1084 天前,其中的信息可能已经时移世改

PHY 的 12 种状态

enum phy_state {
	PHY_DOWN = 0, //关闭网卡
	PHY_STARTING, //PHY设备准备好了,PHY driver尚为准备好
	PHY_READY,       //PHY设备注册成功
	PHY_PENDING,  //PHY芯片挂起
	PHY_UP,              //开启网卡
	PHY_AN,             //网卡自协商
	PHY_RUNNING, //网卡已经插入网线并建立物理连接,该状态可切换到PHY_CHANGELINK
	PHY_NOLINK,    //断网,拔掉网线
	PHY_FORCING,//自动协商失败,强制处理(读phy状态寄存器,设置速率,设置工作模式)
	PHY_CHANGELINK, //LINK检查,当物理连接存在时切换到PHY_RUNING,物理连接不存在时切换到PHY_NOLINK
	PHY_HALTED,   //网卡关闭时,PHY挂起
	PHY_RESUMING //网卡开启时,PHY恢复
};

PHY 状态机

PHY 状态切换图
PHY 指 PHY 芯片,负责数据传送与接收所需要的电与光信号、线路状态、时钟基准、数据编码和电路等,并向数据链路层设备提供标准接口。
MAC 指 MAC 芯片,属于数据链路层,提供寻址机构、数据帧的构建、数据差错检查、传送控制、向网络层提供标准的数据接口等功能。
PHY_DOWN: phy、phy driver、mac 都没准备好

  1. 如果 phy driver 被集成在内核中,PHY.probe 后,phydev 状态为 PHY_READY。
  2. 如果 phy driver 被未集成在内核中,PHY.probe 后,phydev 状态为 PHY_STARTING。

PHY_READY:phy、phy driver 已经就绪,mac 未准备好
当 MAC 层加载时,在 PHY.start 后,phydev 状态切换为 PHY_UP。

PHY_STARTING:phy 准备就绪,phy driver、mac 未准备好

  1. 当 MAC 加载时,PHY.start 后,phydev 状态为 PHY_PENDING。
  2. 当 phy driver 加载时,phydev 状态为 PHY_READY。

PHY_PENDING:phy、mac 准备就绪,phy driver 未准备好
当 phy dirver 加载后,phdev 状态为 PHY_UP

上图中 0-->1-->2-->4、0-->2-->4 代表 phy、phy dirver、mac 顺序加载。
0-->1-->3-->4 代表 phy、mac、phy driver 顺序加载。

PHY_UP:phy、phy driver、mac 准备就绪
当前状态将启动自动协商,若启动成功则进入 PHY_AN,若启动失败则进入 PHY_FORCING。

PHY_AN:网卡自协商模式,检测自协商是否完成。
先判断物理链路的状态,如果未 LINK 则进入 PHY_NOLINK,如果 LINK 则判断自协商是否完成,
自协商完成进入 PHY_RUNNING,若自协商超时则重新开启自协商。

PHY_FORCING:强制协商
读 link 和自协商状态寄存器,如果状态正常则进入 PHY_RUNNING 模式。

PHY_NOLINK:物理链路未连接
判断物理链路状态,如果 LINK,再判断是否支持自协商,若支持待自协商完成后进入 PHY_RUNNING 模式,
若不支持,直接进入 PHY_RUNNING 模式。若自协商处于挂起状态,则进入 PHY_AN 模式。

PHY_RUNNING:正常运行中
获取当前 link 状态,当 link 状态发生改变时,进入 PHY_CHANGELINK 模式。

PHY_CHANGELINK:检查物理链路
物理链路 link 时,切换到 PHY_RUNNING,非 LINK 时切换到 PHY_NOLINK。

PHY_HALTED:网卡关闭 phy_stop
挂起 phy
PHY_RESUMING: 网卡启用 phy_start
恢复 phy

phy_state_machine 是 PHY 的状态机函数

/**
 * phy_state_machine - Handle the state machine
 * @work: work_struct that describes the work to be done
 */
void phy_state_machine(struct work_struct *work)
{
	struct delayed_work *dwork = to_delayed_work(work);
	struct phy_device *phydev =
			container_of(dwork, struct phy_device, state_queue);
	bool needs_aneg = false, do_suspend = false;
	enum phy_state old_state;
	int err = 0;
	int old_link;

	mutex_lock(&phydev->lock);

	old_state = phydev->state;

	if (phydev->drv->link_change_notify)
		phydev->drv->link_change_notify(phydev);

	switch (phydev->state) {
	case PHY_DOWN:
	case PHY_STARTING:
	case PHY_READY:
	case PHY_PENDING:
		break;
	case PHY_UP:
		needs_aneg = true;

		phydev->link_timeout = PHY_AN_TIMEOUT;

		break;
	case PHY_AN:
		err = phy_read_status(phydev);
		if (err < 0)
			break;

		/* If the link is down, give up on negotiation for now */
		if (!phydev->link) {
			phydev->state = PHY_NOLINK;
			netif_carrier_off(phydev->attached_dev);
			phydev->adjust_link(phydev->attached_dev);
			break;
		}

		/* Check if negotiation is done.  Break if there's an error */
		err = phy_aneg_done(phydev);
		if (err < 0)
			break;

		/* If AN is done, we're running */
		if (err > 0) {
			phydev->state = PHY_RUNNING;
			netif_carrier_on(phydev->attached_dev);
			phydev->adjust_link(phydev->attached_dev);

		} else if (0 == phydev->link_timeout--)
			needs_aneg = true;
		break;
	case PHY_NOLINK:
		if (phy_interrupt_is_valid(phydev))
			break;

		err = phy_read_status(phydev);
		if (err)
			break;

		if (phydev->link) {
			if (AUTONEG_ENABLE == phydev->autoneg) {
				err = phy_aneg_done(phydev);
				if (err < 0)
					break;

				if (!err) {
					phydev->state = PHY_AN;
					phydev->link_timeout = PHY_AN_TIMEOUT;
					break;
				}
			}
			phydev->state = PHY_RUNNING;
			netif_carrier_on(phydev->attached_dev);
			phydev->adjust_link(phydev->attached_dev);
		}
		break;
	case PHY_FORCING:
		err = genphy_update_link(phydev);
		if (err)
			break;

		if (phydev->link) {
			phydev->state = PHY_RUNNING;
			netif_carrier_on(phydev->attached_dev);
		} else {
			if (0 == phydev->link_timeout--)
				needs_aneg = true;
		}

		phydev->adjust_link(phydev->attached_dev);
		break;
	case PHY_RUNNING:
		/* Only register a CHANGE if we are polling or ignoring
		 * interrupts and link changed since latest checking.
		 */
		if (!phy_interrupt_is_valid(phydev)) {
			old_link = phydev->link;
			err = phy_read_status(phydev);
			if (err)
				break;

			if (old_link != phydev->link)
				phydev->state = PHY_CHANGELINK;
		}
		/*
		 * Failsafe: check that nobody set phydev->link=0 between two
		 * poll cycles, otherwise we won't leave RUNNING state as long
		 * as link remains down.
		 */
		if (!phydev->link && phydev->state == PHY_RUNNING) {
			phydev->state = PHY_CHANGELINK;
			dev_err(&phydev->dev, "no link in PHY_RUNNING\n");
		}
		break;
	case PHY_CHANGELINK:
		err = phy_read_status(phydev);
		if (err)
			break;

		if (phydev->link) {
			phydev->state = PHY_RUNNING;
			netif_carrier_on(phydev->attached_dev);
		} else {
			phydev->state = PHY_NOLINK;
			netif_carrier_off(phydev->attached_dev);
		}

		phydev->adjust_link(phydev->attached_dev);

		if (phy_interrupt_is_valid(phydev))
			err = phy_config_interrupt(phydev,
						   PHY_INTERRUPT_ENABLED);
		break;
	case PHY_HALTED:
		if (phydev->link) {
			phydev->link = 0;
			netif_carrier_off(phydev->attached_dev);
			phydev->adjust_link(phydev->attached_dev);
			do_suspend = true;
		}
		break;
	case PHY_RESUMING:
		if (AUTONEG_ENABLE == phydev->autoneg) {
			err = phy_aneg_done(phydev);
			if (err < 0)
				break;

			/* err > 0 if AN is done.
			 * Otherwise, it's 0, and we're  still waiting for AN
			 */
			if (err > 0) {
				err = phy_read_status(phydev);
				if (err)
					break;

				if (phydev->link) {
					phydev->state = PHY_RUNNING;
					netif_carrier_on(phydev->attached_dev);
				} else	{
					phydev->state = PHY_NOLINK;
				}
				phydev->adjust_link(phydev->attached_dev);
			} else {
				phydev->state = PHY_AN;
				phydev->link_timeout = PHY_AN_TIMEOUT;
			}
		} else {
			err = phy_read_status(phydev);
			if (err)
				break;

			if (phydev->link) {
				phydev->state = PHY_RUNNING;
				netif_carrier_on(phydev->attached_dev);
			} else	{
				phydev->state = PHY_NOLINK;
			}
			phydev->adjust_link(phydev->attached_dev);
		}
		break;
	}

	mutex_unlock(&phydev->lock);

	if (needs_aneg)
		err = phy_start_aneg(phydev);
	else if (do_suspend)
		phy_suspend(phydev);

	if (err < 0)
		phy_error(phydev);

	dev_dbg(&phydev->dev, "PHY state change %s -> %s\n",
		phy_state_to_str(old_state), phy_state_to_str(phydev->state));

	queue_delayed_work(system_power_efficient_wq, &phydev->state_queue,
			   PHY_STATE_TIME * HZ);
}

问:若操作系统没有加载网卡驱动,网卡虽然在系统设备树上,但网卡接口创建不了,那网卡实际能不能接收到数据?
答:这里面有很多细节, 我根据 Intel 网卡的 Spec 大概写了写, 想尽量写的通俗一些,所以没有刻意用 Spec 里的术语,另外本文虽然讲的是 MAC/PHY,但光口卡的(SERDES)也是类似的.

  1. PCI 设备做 reset 以后进入 D0uninitialized(非初始化的 D0 状态, 参考 PCI 电源管理规范),此时网卡的 MAC 和 DMA 都不工作,PHY 是工作在一个特殊的低电源状态的;
  2. 操作系统创建设备树时,初始化这个设备,PCI 命令寄存器的 Memory Access Enable or the I/O Access Enable bit 会被 enable, 这就是 D0active.此时 PHY/MAC 就使能了;
  3. PHY 被使能应该就可以接收物理链路上的数据了,否则不能收到 FLP/NLP, PHY 就不能建立物理连接.但这类包一般是流量间歇发送的;
  4. 驱动程序一般要通过寄存器来控制 PHY, 比如自动协商 speed/duplex, 查询物理链路的状态 Link up/down;
  5. MAC 被使能后, 如果没有驱动设置控制寄存器的一个位(CTRL.SLU )的话, MAC 和 PHY 是不能通讯的, 就是说 MAC 不知道 PHY 的 link 已经 ready, 所以收不到任何数据的.这位设置以后, PHY 完成自协商, 网卡才会有个 Link change 的中断,知道物理连接已经 Link UP 了;
  6. 即使 Link 已经 UP, MAC 还需要 enable 接收器的一个位(RCTL.RXEN ),包才可以被接收进来,如果网卡被 reset,这位是 0,意味着所有的包都会被直接 drop 掉,不会存入网卡的 FIFO.老网卡在驱动退出前利用这位关掉接收.Intel 的最新千兆网卡发送接收队列的动态配置就是依靠这个位的,重新配置的过程一定要关掉流量;
  7. 无论驱动加载与否, 发生 reset 后,网卡 EEPOM 里的 mac 地址会写入网卡的 MAC 地址过滤寄存器, 驱动可以去修改这个寄存器,现代网卡通常支持很多 MAC 地址,也就是说,MAC 地址是可以被软件设置的.例如,Intel 的千兆网卡就支持 16 个单播 MAC 地址,但只有 1 个是存在 EEPROM 里的,其它是软件声称和设置的;
  8. 但如果驱动没有加载,网卡已经在设备树上,操作系统完成了步骤 1-2 的初始化,此时网卡的 PHY 应该是工作的,但因为没有人设置控制位(CTRL.SLU)来让 MAC 和 PHY 建立联系,所以 MAC 是不收包的.这个控制位在 reset 时会再设置成 0;
  9. PHY 可以被软件设置加电和断电, 断电状态除了接收管理命令以外,不会接收数据.另外,PHY 还能工作在 Smart Power Down 模式下,link down 就进入省电状态;
  10. 有些多口网卡,多个网口共享一个 PHY, 所以 BIOS 里设置 disbale 了某个网口, 也未必会把 PHY 的电源关掉,反过来,也要小心地关掉 PHY 的电源;
  11. 要详细了解 PHY,最终还是要熟悉 IEEE 以太网的相关协议.

ps: pipe.b3log.org 提供的站点无法同步文章了,显示同步成功,实际并没有。

  • Linux

    Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 Unix 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的 Unix 工具软件、应用程序和网络协议,并支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

    944 引用 • 943 回帖

相关帖子

1 回帖

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • stepforwards
    作者

    今天又上了 pipe,结果就像是第一次使用,文章全丢了

推荐标签 标签

  • Openfire

    Openfire 是开源的、基于可拓展通讯和表示协议 (XMPP)、采用 Java 编程语言开发的实时协作服务器。Openfire 的效率很高,单台服务器可支持上万并发用户。

    6 引用 • 7 回帖 • 95 关注
  • AngularJS

    AngularJS 诞生于 2009 年,由 Misko Hevery 等人创建,后为 Google 所收购。是一款优秀的前端 JS 框架,已经被用于 Google 的多款产品当中。AngularJS 有着诸多特性,最为核心的是:MVC、模块化、自动化双向数据绑定、语义化标签、依赖注入等。2.0 版本后已经改名为 Angular。

    12 引用 • 50 回帖 • 474 关注
  • flomo

    flomo 是新一代 「卡片笔记」 ,专注在碎片化时代,促进你的记录,帮你积累更多知识资产。

    5 引用 • 107 回帖
  • danl
    132 关注
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有计划重制上线。

    14 引用 • 257 回帖 • 1 关注
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 357 关注
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    96 引用 • 155 回帖 • 2 关注
  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    32 引用 • 136 回帖 • 2 关注
  • OAuth

    OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。

    36 引用 • 103 回帖 • 9 关注
  • OnlyOffice
    4 引用 • 3 关注
  • Unity

    Unity 是由 Unity Technologies 开发的一个让开发者可以轻松创建诸如 2D、3D 多平台的综合型游戏开发工具,是一个全面整合的专业游戏引擎。

    25 引用 • 7 回帖 • 171 关注
  • RIP

    愿逝者安息!

    8 引用 • 92 回帖 • 351 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 328 关注
  • 服务器

    服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。

    125 引用 • 588 回帖
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 117 关注
  • SMTP

    SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式。SMTP 协议属于 TCP/IP 协议簇,它帮助每台计算机在发送或中转信件时找到下一个目的地。

    4 引用 • 18 回帖 • 617 关注
  • 快应用

    快应用 是基于手机硬件平台的新型应用形态;标准是由主流手机厂商组成的快应用联盟联合制定;快应用标准的诞生将在研发接口、能力接入、开发者服务等层面建设标准平台;以平台化的生态模式对个人开发者和企业开发者全品类开放。

    15 引用 • 127 回帖 • 1 关注
  • WiFiDog

    WiFiDog 是一套开源的无线热点认证管理工具,主要功能包括:位置相关的内容递送;用户认证和授权;集中式网络监控。

    1 引用 • 7 回帖 • 590 关注
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    47 引用 • 25 回帖
  • PostgreSQL

    PostgreSQL 是一款功能强大的企业级数据库系统,在 BSD 开源许可证下发布。

    22 引用 • 22 回帖
  • Tomcat

    Tomcat 最早是由 Sun Microsystems 开发的一个 Servlet 容器,在 1999 年被捐献给 ASF(Apache Software Foundation),隶属于 Jakarta 项目,现在已经独立为一个顶级项目。Tomcat 主要实现了 JavaEE 中的 Servlet、JSP 规范,同时也提供 HTTP 服务,是市场上非常流行的 Java Web 容器。

    162 引用 • 529 回帖
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖 • 1 关注
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 16 关注
  • 七牛云

    七牛云是国内领先的企业级公有云服务商,致力于打造以数据为核心的场景化 PaaS 服务。围绕富媒体场景,七牛先后推出了对象存储,融合 CDN 加速,数据通用处理,内容反垃圾服务,以及直播云服务等。

    27 引用 • 225 回帖 • 168 关注
  • 深度学习

    深度学习(Deep Learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

    53 引用 • 40 回帖
  • 又拍云

    又拍云是国内领先的 CDN 服务提供商,国家工信部认证通过的“可信云”,乌云众测平台认证的“安全云”,为移动时代的创业者提供新一代的 CDN 加速服务。

    21 引用 • 37 回帖 • 547 关注
  • LaTeX

    LaTeX(音译“拉泰赫”)是一种基于 ΤΕΧ 的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在 20 世纪 80 年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由 TeX 所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。

    12 引用 • 54 回帖 • 62 关注