栈溢出攻击学习与实践

本贴最后更新于 3041 天前,其中的信息可能已经沧海桑田

栈结构及形成过程
一个进程可能被加载到内存中不同的区域执行。进程运行所使用的内存空间按照功能,大致都能分成以下 4 个部分:
数据区:用来存储全局变量等。
栈区:用来存储函数之间的调用关系,以保证被调用函数在返回时恢复到母函数中继续执行。
堆区:动态分配与回收是堆区的最大特点,进程能够动态的申请一定大小的缓冲,并在用完之后归还给堆区。
代码区:存储 CPU 所执行的机器码,CPU 会到这个区域来读取指令并执行。
其中栈区由系统自动维护,它实现了高级语言中的函数调用。对于 C 语言等高级语言,栈区的 PUSH、POP 等平衡堆栈细节是透明的。请看如下代码:
intfunction_b(intargument_B1,intargument_B2)
{
intvariable_b1,variable_b2;
variable_b1=argument_B1+argument_B2;
variable_b2=argument_B1-argument_B2;
returnvariable_b1*variable_b2;
}
intfunction_a(intargument_A1,intargument_A2)
{
intvariable_a;
variable_a=function_b(argument_A1,argument_A2)+argument_A1;
returnvariable_a;
}
intmain(intargumentc,char**argumentv,char**envp)
{
intvariable_main;
variable_main=function_a(4,3);
returnvariable_main;
}
同一文件不同函数的代码,在内存代码区中的分布可能先后有序也可能无序,相邻也可能相离甚远。
当 CPU 执行调用 function_a 函数时,会从代码区中 main 方法对应的二进制代码的区域跳转到 function_a 函数对应的二进制代码区域,在那里获取指令并执行;当 function_a 函数执行完闭,需要返回时,又会跳回到 main 方法对应的指令区域,紧接着调用 function_a 后面的指令继续执行 main 方法的代码。
这些代码区中精确的跳转都是通过与栈区巧妙的配合完成的。当函数调用发生时,栈区会为这个函数开辟一个新的栈区单元,并将它压入栈中。这个栈区单元中的内存空间被它所属的函数独占,正常情况下是不会和别的函数共享的。当函数返回时,栈区会弹出该函数所对应的栈区单元。
在函数调用的过程中,伴随的栈区中的操作如下:
在 main 方法调用 function_a 时,先在自己的栈区单元中压入函数返回地址,而后为 function_a 创建新栈区单元压入栈区。
在 function_a 调用 function_b 时,同样先在自己的栈区单元中压入函数返回地址,然后为 function_b 创建新栈区单元并压入栈区。
在 function_b 返回时,function_b 的栈区单元被弹出栈区,function_a 栈区单元中的返回地址“露”出栈顶,此时处理器按照这个返回地址重新跳到 function_a 代码区中执行。
在 function_a 返回时,function_a 的栈区单元被弹出栈区,main 方法栈区单元中的返回地址“露”出栈顶,此时处理器按照这个返回地址跳到 main 方法代码区中执行。
每一个函数独占自己的栈区单元空间,当前正在运行的函数的栈区单元总是在栈顶。
Win32 系统提供两个特殊的寄存器用来标识位于栈区栈顶的栈区单元。
ESP:栈指针寄存器,其内存放着指向栈区最上面一个栈区单元的栈顶的指针。
EBP:基址指针寄存器,其内存放着指向栈区最上面一个栈区单元的底部的指针。
函数栈区单元:ESP 和 EBP 之间的内存空间为当前栈区单元,EBP 标识了当前栈区单元的底部,ESP 标识了当前栈区单元的顶部。在函数栈区单元中一般包含以下几类重要信息:
局部变量:为函数局部变量开辟内存空间。
栈区单元状态值:保存前栈区单元的顶部和底部(实际上只保存前栈区单元的底部,前栈区单元的顶部能够通过平衡堆栈计算得到),用来在本帧被弹出后,恢复上一个栈区单元。
函数返回地址:保存当前函数调用前的“断点”信息,也就是函数调用前的指令位置,以便函数返回时能够恢复到函数被调用前的代码区中继续执行指令。函数调用发生时用到的指令大致如下:调用前 push 参数 C;push 参数 Bpush 参数 A
call 函数地址;call 指令完成两项工作:向栈中压入返回地址;跳转;
函数开始处代码形式
pushebp;保存旧栈区单元的底部
movebp,esp;栈区单元切换
subesp,xxx;抬高栈顶,开辟新栈区单元空间
函数调用大约包括以下几个步骤:
1)参数入栈:将参数从右向左依次压入栈区中。
2)返回地址入栈:将当前代码区调用指令的下一条指令地址压入栈中,供函数返回时继续执行。
3)代码区跳转:处理器从当前代码区跳转到被调用函数的入口处。
4)栈区单元调整:具体包括保存当前栈区单元状态值,EBP 入栈;将当前栈区单元切换到新栈区单元,将 ESP 值装入 EBP,更新栈区单元底部;给新栈区单元分配空间,将 ESP 减去所需空间的大小,抬高栈顶。
类似的,函数返回时的汇编指令序列大致如下:
addxxx,esp;回收当前的栈区单元 popebp;恢复上一个栈区单元底部位置 retn;有两个功能:即弹出栈区单元中的返回地址,让处理器恢复调用前的代码区函数返回的步骤如下:
1)通常将返回值保存在 EAX 中。
2)弹出当前栈区单元,恢复上一个栈区单元。具体包括平衡堆栈的基础上,给 ESP 加上栈区单元的大小,回收当前栈区单元的空间;将保存的前栈区单元 EBP 值弹入 EBP 寄存器,恢复出上一个栈区单元;将函数返回地址弹给 EIP 寄存器;跳转:按照函数返回地址继续执行母函数。
栈区结构就是按照这样的函数调用约定组织起来的。
栈溢出攻击实践
本实践是我自己手写了一个简单的 C 语言程序(VC6.0 编译),然后通过溢出栈区,覆盖函数的返回地址,从而改变程序的执行流程,以达到攻击效果。
程序代码如下:
#include<stdio.h>
#definePWD"1234567"
intverify_pwd(char*pwd)
{
intright;
charbuf[8];
right=strcmp(pwd,PWD);
strcpy(buf,pwd);//overflowedhere!
returnright;
}
main()
{
intflag_valid=0;
charpwd[1024];
FILE*fp;
if(!(fp=fopen("pwd.txt","rw+")))
{
exit(0);
}
fscanf(fp,"%s",pwd);
flag_valid=verify_pwd(pwd);
if(flag_valid)
{
}
printf("incorrectpwd!\n");
Else
{
printf("GoodJob!Verificationpassed!\n");
}
fclose(fp);
}
首先用 OD 加载得到的可执行 PE 文件,如图 1 所示。
栈溢出攻击学习与实践 入侵检测 第 1 张

阅读反汇编代码,能够知道通过验证的程序分支的指令地址为 0x00401122。
0x00401102 处的函数调用就是 verify_pwd 函数,之后在 0x0040110A 处将 EAX 中的函数返回值取出,在 0x0040110D 处与 0 比较,然后决定跳转到提示验证错误的分支或提示通过验证的分支。提示通过验证的分支,从 0x00401122 处的参数压栈开始。
通过用 OD 调试,发现栈区单元中的变量分布情况基本没变,这样就能够按照如下方法构造 pwd.txt 中的数据了。
为了字节对齐并且方便辨认,将“4321”作为一个串块。buf[8]共需要 2 个这样的单元,第 3 个串块将 right 覆盖,第 4 个串块将前栈区单元 EBP 值覆盖,第 5 个串块将函数返回地址覆盖。
为了将第 5 个串块的 ASCII 码值(0x34333231)改为通过验证分支指令的地址(0x00401122),借助十六进制编辑工具来完成(我用的 UltraEdit),因为部分 ASCII 码所对应符号无法用键盘输入。
Step1:新建一个名称为 pwd.txt 的文件,并使用记事本程序打开,输入 5 个“4321”,
栈溢出攻击学习与实践 入侵检测 第 2 张

图 2
Step2:保存,关闭记事本并用 UltraEdit 打开,如图 3 所示。
栈溢出攻击学习与实践 入侵检测 第 3 张

图 3
Step3:将 UltraEdit 的编辑模式切换到十六进制,如图 4 所示。
栈溢出攻击学习与实践 入侵检测 第 4 张

Step4:将最后 4 个字节改为新的函数返回地址,如图 5 所示。
栈溢出攻击学习与实践 入侵检测 第 5 张

Step5:此时再切换回文本编辑模式,最后的 4 个字节的对应字符显示结果为乱码,如图 6 所示。
栈溢出攻击学习与实践 入侵检测 第 6 张

将 pwd.txt 保存后,用 OD 加载程序并调试,程序运行结果如图 7 所示。
栈溢出攻击学习与实践 入侵检测 第 7 张

学习心得
能看懂二进制是研究安全技术所必需的技能。信息安全技术不仅需要计算机理论基础很扎实,更需要优秀的动手、实践能力,是一个对技术性要求很高的领域。
缓冲区溢出攻击的理论我很早就已经学习了,以为只是修改返回地址将 CPU 指到缓冲区中的恶意代码而已,但当自己动手实践时,才发现实际情形原来比原理要复杂很多。信息安全需要有强烈的兴趣做动力,还需要有能够为了梦想持之以恒的坚定意志。
欢迎大家来我的博客:http://www.weixianmanbu.com/

  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    169 引用 • 506 回帖
  • 分享

    有什么新发现就分享给大家吧!

    248 引用 • 1792 回帖 • 1 关注
  • 安全

    安全永远都不是一个小问题。

    199 引用 • 816 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • wizardforcel

    推荐一本《shellcode's handbook》。但是之前要有汇编和 OS 的知识。

  • 其他回帖
  • 88250

    为什么要匿名发布呢....

  • R

    我也想知道这个怎么也要匿。。。

someone
嘿!我是社区系统匿名内容占位账号,大家使用匿名发帖和回帖时将自动使用我作为作者进行填充占位,细节请浏览社区隐私保护系统 https://ld246.com/article/1469346159566

推荐标签 标签

  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    83 引用 • 37 回帖
  • 运维

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    149 引用 • 257 回帖
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    15 引用 • 7 回帖 • 1 关注
  • 开源中国

    开源中国是目前中国最大的开源技术社区。传播开源的理念,推广开源项目,为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。目前开源中国社区已收录超过两万款开源软件。

    7 引用 • 86 回帖
  • 工具

    子曰:“工欲善其事,必先利其器。”

    286 引用 • 729 回帖
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3187 引用 • 8213 回帖
  • ActiveMQ

    ActiveMQ 是 Apache 旗下的一款开源消息总线系统,它完整实现了 JMS 规范,是一个企业级的消息中间件。

    19 引用 • 13 回帖 • 672 关注
  • 博客

    记录并分享人生的经历。

    273 引用 • 2388 回帖
  • Logseq

    Logseq 是一个隐私优先、开源的知识库工具。

    Logseq is a joyful, open-source outliner that works on top of local plain-text Markdown and Org-mode files. Use it to write, organize and share your thoughts, keep your to-do list, and build your own digital garden.

    6 引用 • 63 回帖 • 1 关注
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖
  • MongoDB

    MongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是一个基于分布式文件存储的数据库,由 C++ 语言编写。旨在为应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似 JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。

    90 引用 • 59 回帖 • 1 关注
  • 周末

    星期六到星期天晚,实行五天工作制后,指每周的最后两天。再过几年可能就是三天了。

    14 引用 • 297 回帖 • 1 关注
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 354 关注
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    186 引用 • 318 回帖 • 304 关注
  • SMTP

    SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式。SMTP 协议属于 TCP/IP 协议簇,它帮助每台计算机在发送或中转信件时找到下一个目的地。

    4 引用 • 18 回帖 • 614 关注
  • 一些有用的避坑指南。

    69 引用 • 93 回帖
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1063 引用 • 3453 回帖 • 203 关注
  • 心情

    心是产生任何想法的源泉,心本体会陷入到对自己本体不能理解的状态中,因为心能产生任何想法,不能分出对错,不能分出自己。

    59 引用 • 369 回帖
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    543 引用 • 672 回帖
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 72 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖
  • PostgreSQL

    PostgreSQL 是一款功能强大的企业级数据库系统,在 BSD 开源许可证下发布。

    22 引用 • 22 回帖
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖
  • 知乎

    知乎是网络问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。

    10 引用 • 66 回帖
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    21 引用 • 31 回帖
  • Sandbox

    如果帖子标签含有 Sandbox ,则该帖子会被视为“测试帖”,主要用于测试社区功能,排查 bug 等,该标签下内容不定期进行清理。

    407 引用 • 1246 回帖 • 582 关注
  • 域名

    域名(Domain Name),简称域名、网域,是由一串用点分隔的名字组成的 Internet 上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位(有时也指地理位置)。

    43 引用 • 208 回帖