使用 MediaCodec,进行音频 AAC 硬编

本贴最后更新于 2287 天前,其中的信息可能已经事过景迁

与我们熟知的 MP3 格式一样,AAC 是一种音频编码格式,对比 MP3 格式,AAC 在缩小 30% 的前题下可以提供更好的音质。这篇博客的主要内容就是通过 AudioRecorder 录制 PCM 音频,再通过 MediaCodec 将 PCM 数据硬编码为 AAC 格式的音频。
通常我们使用 MediaCodec 的流程如下:

MediaCodec 的使用流程:

  • createEncoderByType/createDecoderByType
  • configure
  • start
  • while(1) {
  • dequeueInputBuffer
  • queueInputBuffer
  • dequeueOutputBuffer
  • releaseOutputBuffer
  • }
  • stop
  • release

编解码器一个比较经典的工作原理图如下:
media_codec_1png
图中的 Client 一般就是我们开发者,解释一下就是:我们从 Codec 中拿到拿到空的 input buffer,然后填充上我们需要进行编码的数据,再输送给 Codec,Codec 对数据进行编解码,编解码完成后,Codec 将处理好的数据放进 output buffer,我们取出后再清空返还给 Codec,形成一个环形结构。可以看作一个生产者-消费者模式。

下面我们的编码流程也基本遵守上面的这个流程。为了便于大家理解,我画个流程图讲一下我整个代码的逻辑:
imagepng

录音和编码分别在两个线程中进行,两个线程通过一个 ArrayBlockQueue(这是一个线程安全的队列,想了解更多自己动手)队列共享数据,录音线程中的 AudioRecorder 通过 read()将一帧数据 put()到队尾,编码线程中的 MediaCodec 再通过 take()取出队首的一帧数据进行编码。
首先看录音线程,为了使代码更加简洁易懂,我会省略掉一些代码,完整代码会在文末贴出。

    /**
     * 录音线程
     */
    public class AudioRecorder extends Thread {

        private AudioRecord mAudioRecord;
        private boolean isRecording;
        private int minBufferSize;

        public AudioRecorder() {
            isRecording = true;
            initRecorder();
        }

        @Override
        public void run() {
            super.run();
            startRecording();
        }

        /**
         * 初始化录音
         */
        public void initRecorder(){
            minBufferSize = AudioRecord.getMinBufferSize(sampleRateInHz, channelConfig, audioFormat);
            mAudioRecord = new AudioRecord(MediaRecorder.AudioSource.DEFAULT, sampleRateInHz, channelConfig, audioFormat, minBufferSize);
            if (mAudioRecord.getState() != AudioRecord.STATE_INITIALIZED) {
                isRecording = false;
                return;
            }
        }

        /**
         * 开始录音
         */
        public void startRecording(){
            if (mAudioRecord == null){
                return;
            }

            mAudioRecord.startRecording();
            while (isRecording) {
                //自定义的一个类,用来存储一帧pcm数据,即byte[],下面给出具体定义,很简单
                AudioDate audioDate = new AudioDate();
                audioDate.buffer = ByteBuffer.allocateDirect(minBufferSize);
                audioDate.size = mAudioRecord.read(audioDate.buffer, minBufferSize);
                try {
                    if (queue != null) {
                        queue.put(audioDate);
                    }
                } catch (InterruptedException e) {
                    e.printStackTrace();
                }
            }
            release();
        }
    }

录音线程比较简单,主要是先初始化录音器在 initRecorder()中,然后通过 AudioRecorder 的 read 方法,获取到一帧数据,通过 queue.put 放入队尾。
然后是编码线程。

/**
 * 音频编码线程
  */
public class AudioEncorder extends Thread {

    private MediaCodec mEncorder;
 private Boolean isEncording = false;
 private int minBufferSize;

 private OutputStream mFileStream;

 public AudioEncorder() {
        isEncording = true;
  initEncorder();
  }

    @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
    @Override
  public void run() {
        super.run();
  startEncording();
  }

    /**
 * 初始化编码器
  */
  private void initEncorder(){
        minBufferSize = AudioRecord.getMinBufferSize(sampleRateInHz, channelConfig, audioFormat);
 try {
            mEncorder = MediaCodec.createEncoderByType(MediaFormat.MIMETYPE_AUDIO_AAC);
  } catch (IOException e) {
            e.printStackTrace();
  }
        MediaFormat format = MediaFormat.createAudioFormat(MediaFormat.MIMETYPE_AUDIO_AAC, sampleRateInHz, channelConfig);
  format.setString(MediaFormat.KEY_MIME, MediaFormat.MIMETYPE_AUDIO_AAC);
  format.setInteger(MediaFormat.KEY_AAC_PROFILE, MediaCodecInfo.CodecProfileLevel.AACObjectLC);
  format.setInteger(MediaFormat.KEY_BIT_RATE, 96000);
  format.setInteger(MediaFormat.KEY_MAX_INPUT_SIZE, minBufferSize * 2);
  mEncorder.configure(format, null, null, MediaCodec.CONFIGURE_FLAG_ENCODE);
  }

    /**
 * 开始编码
  */
  @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
    public void startEncording(){
        if (mEncorder == null){
            return;
  }

        mEncorder.start();
 try {
            mFileStream = new FileOutputStream(getSDPath() + "/aac_encode.aac");
  MediaCodec.BufferInfo mBufferInfo = new MediaCodec.BufferInfo();
  AudioDate audioDate;
 while (isEncording) {
                // 从队列中取出录音的一帧音频数据
  audioDate = getAudioDate();

 if (audioDate == null) {
                    continue;
  }

                // 取出InputBuffer,填充音频数据,然后输送到编码器进行编码
  int inputBufferIndex = mEncorder.dequeueInputBuffer(0);
 if (inputBufferIndex >= 0) {
                    ByteBuffer inputBuffer = mEncorder.getInputBuffer(inputBufferIndex);
  inputBuffer.clear();
  inputBuffer.put(audioDate.buffer);
  mEncorder.queueInputBuffer(inputBufferIndex, 0, audioDate.size, System.nanoTime(), 0);
  }

                // 取出编码好的一帧音频数据,然后给这一帧添加ADTS头
  int outputBufferIndex = mEncorder.dequeueOutputBuffer(mBufferInfo, 0);
 while (outputBufferIndex >= 0) {
                    int outBitsSize = mBufferInfo.size;
 int outPacketSize = outBitsSize + 7; // ADTS头部是7个字节
  ByteBuffer outputBuffer = mEncorder.getOutputBuffer(outputBufferIndex);
  outputBuffer.position(mBufferInfo.offset);
  outputBuffer.limit(mBufferInfo.offset + outBitsSize);

 byte[] outData = new byte[outPacketSize];
  addADTStoPacket(outData, outPacketSize);

  outputBuffer.get(outData, 7, outBitsSize);
  outputBuffer.position(mBufferInfo.offset);
  mFileStream.write(outData);
  mEncorder.releaseOutputBuffer(outputBufferIndex, false);
  outputBufferIndex = mEncorder.dequeueOutputBuffer(mBufferInfo, 0);
  }
            }
            release();
  } catch (FileNotFoundException e) {
            e.printStackTrace();
  } catch (IOException e) {
            e.printStackTrace();
  }
    }

    /**
 * 添加ADTS头
  * @param packet
  * @param packetLen
  */
  private void addADTStoPacket(byte[] packet, int packetLen) {
        int profile = 2; //AAC LC
  int freqIdx = 4; //44100 根据不同的采样率修改这个值
  int chanCfg = 2; //CPE
  packet[0] = (byte) 0xFF;
  packet[1] = (byte) 0xF9;
  packet[2] = (byte) (((profile - 1) << 6) + (freqIdx << 2) + (chanCfg >> 2));
  packet[3] = (byte) (((chanCfg & 3) << 6) + (packetLen >> 11));
  packet[4] = (byte) ((packetLen & 0x7FF) >> 3);
  packet[5] = (byte) (((packetLen & 7) << 5) + 0x1F);
  packet[6] = (byte) 0xFC;
  }
}

和录音线程一样,先进行编码器的初始化在 initEncorder()中,这里的参数 MediaFormat 比较关键,针对具体的编码格式有不同的编码格式有不同的参数,其他的编码方式自行参阅官方文档,这里的 AAC 编码器参数我是经过测试可行的。
然后是最关键的一步--编码。在 startEncording()方法中,所有的流程完全对应上面我列出的 MediaCodec 的使用流程,可以对照上面的流程来阅读代码。
编码流程中非常重要的一步就是为每一帧 AAC 音频添加 ADTS 头,和 WAV 格式的音频不同,AAC 为每一帧音频都添加了一个 ADTS 头,使得解码器可以从任意一帧开始解码,有时我们遇到无法编码的 AAC 文件无法播放,可能就是因为我们没有为其添加 ADTS 头。通过上面的 addADTStoPacket()方法便可以未每一帧 AAC 音频添加 ADTS 头了。
至此,我就列出了我认为在 AAC 编码的过程中所需要注意的所有点。在完成这个功能的时候,我也参照了一些别人的做法,以及我自己的一些理解与实践,也遇到了一些令人头大的错误(例如:同样的 PCM 数据,放进队列中再取出来写入文件,就出现了很大的杂音)如有错误的地方,还请留言指正。
下面是完整代码:


                

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖
  • Netty

    Netty 是一个基于 NIO 的客户端-服务器编程框架,使用 Netty 可以让你快速、简单地开发出一个可维护、高性能的网络应用,例如实现了某种协议的客户、服务端应用。

    49 引用 • 33 回帖 • 22 关注
  • BookxNote

    BookxNote 是一款全新的电子书学习工具,助力您的学习与思考,让您的大脑更高效的记忆。

    笔记整理交给我,一心只读圣贤书。

    1 引用 • 1 回帖
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    34 引用 • 467 回帖 • 742 关注
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3187 引用 • 8213 回帖
  • 外包

    有空闲时间是接外包好呢还是学习好呢?

    26 引用 • 232 回帖 • 2 关注
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    286 引用 • 248 回帖 • 62 关注
  • 招聘

    哪里都缺人,哪里都不缺人。

    190 引用 • 1057 回帖
  • 安全

    安全永远都不是一个小问题。

    199 引用 • 816 回帖 • 1 关注
  • RESTful

    一种软件架构设计风格而不是标准,提供了一组设计原则和约束条件,主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

    30 引用 • 114 回帖 • 1 关注
  • 电影

    这是一个不能说的秘密。

    120 引用 • 599 回帖
  • Love2D

    Love2D 是一个开源的, 跨平台的 2D 游戏引擎。使用纯 Lua 脚本来进行游戏开发。目前支持的平台有 Windows, Mac OS X, Linux, Android 和 iOS。

    14 引用 • 53 回帖 • 531 关注
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    47 引用 • 25 回帖 • 1 关注
  • 开源中国

    开源中国是目前中国最大的开源技术社区。传播开源的理念,推广开源项目,为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。目前开源中国社区已收录超过两万款开源软件。

    7 引用 • 86 回帖
  • SpaceVim

    SpaceVim 是一个社区驱动的模块化 vim/neovim 配置集合,以模块的方式组织管理插件以
    及相关配置,为不同的语言开发量身定制了相关的开发模块,该模块提供代码自动补全,
    语法检查、格式化、调试、REPL 等特性。用户仅需载入相关语言的模块即可得到一个开箱
    即用的 Vim-IDE。

    3 引用 • 31 回帖 • 99 关注
  • RabbitMQ

    RabbitMQ 是一个开源的 AMQP 实现,服务器端用 Erlang 语言编写,支持多种语言客户端,如:Python、Ruby、.NET、Java、C、PHP、ActionScript 等。用于在分布式系统中存储转发消息,在易用性、扩展性、高可用性等方面表现不俗。

    49 引用 • 60 回帖 • 362 关注
  • HHKB

    HHKB 是富士通的 Happy Hacking 系列电容键盘。电容键盘即无接点静电电容式键盘(Capacitive Keyboard)。

    5 引用 • 74 回帖 • 471 关注
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 18 关注
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    15 引用 • 7 回帖 • 1 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 328 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖
  • HTML

    HTML5 是 HTML 下一个的主要修订版本,现在仍处于发展阶段。广义论及 HTML5 时,实际指的是包括 HTML、CSS 和 JavaScript 在内的一套技术组合。

    107 引用 • 295 回帖
  • React

    React 是 Facebook 开源的一个用于构建 UI 的 JavaScript 库。

    192 引用 • 291 回帖 • 384 关注
  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    32 引用 • 130 回帖 • 2 关注
  • LaTeX

    LaTeX(音译“拉泰赫”)是一种基于 ΤΕΧ 的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在 20 世纪 80 年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由 TeX 所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。

    12 引用 • 54 回帖 • 63 关注
  • 一些有用的避坑指南。

    69 引用 • 93 回帖