使用 MediaCodec,进行音频 AAC 硬编

本贴最后更新于 2318 天前,其中的信息可能已经事过景迁

与我们熟知的 MP3 格式一样,AAC 是一种音频编码格式,对比 MP3 格式,AAC 在缩小 30% 的前题下可以提供更好的音质。这篇博客的主要内容就是通过 AudioRecorder 录制 PCM 音频,再通过 MediaCodec 将 PCM 数据硬编码为 AAC 格式的音频。
通常我们使用 MediaCodec 的流程如下:

MediaCodec 的使用流程:

  • createEncoderByType/createDecoderByType
  • configure
  • start
  • while(1) {
  • dequeueInputBuffer
  • queueInputBuffer
  • dequeueOutputBuffer
  • releaseOutputBuffer
  • }
  • stop
  • release

编解码器一个比较经典的工作原理图如下:
media_codec_1png
图中的 Client 一般就是我们开发者,解释一下就是:我们从 Codec 中拿到拿到空的 input buffer,然后填充上我们需要进行编码的数据,再输送给 Codec,Codec 对数据进行编解码,编解码完成后,Codec 将处理好的数据放进 output buffer,我们取出后再清空返还给 Codec,形成一个环形结构。可以看作一个生产者-消费者模式。

下面我们的编码流程也基本遵守上面的这个流程。为了便于大家理解,我画个流程图讲一下我整个代码的逻辑:
imagepng

录音和编码分别在两个线程中进行,两个线程通过一个 ArrayBlockQueue(这是一个线程安全的队列,想了解更多自己动手)队列共享数据,录音线程中的 AudioRecorder 通过 read()将一帧数据 put()到队尾,编码线程中的 MediaCodec 再通过 take()取出队首的一帧数据进行编码。
首先看录音线程,为了使代码更加简洁易懂,我会省略掉一些代码,完整代码会在文末贴出。

    /**
     * 录音线程
     */
    public class AudioRecorder extends Thread {

        private AudioRecord mAudioRecord;
        private boolean isRecording;
        private int minBufferSize;

        public AudioRecorder() {
            isRecording = true;
            initRecorder();
        }

        @Override
        public void run() {
            super.run();
            startRecording();
        }

        /**
         * 初始化录音
         */
        public void initRecorder(){
            minBufferSize = AudioRecord.getMinBufferSize(sampleRateInHz, channelConfig, audioFormat);
            mAudioRecord = new AudioRecord(MediaRecorder.AudioSource.DEFAULT, sampleRateInHz, channelConfig, audioFormat, minBufferSize);
            if (mAudioRecord.getState() != AudioRecord.STATE_INITIALIZED) {
                isRecording = false;
                return;
            }
        }

        /**
         * 开始录音
         */
        public void startRecording(){
            if (mAudioRecord == null){
                return;
            }

            mAudioRecord.startRecording();
            while (isRecording) {
                //自定义的一个类,用来存储一帧pcm数据,即byte[],下面给出具体定义,很简单
                AudioDate audioDate = new AudioDate();
                audioDate.buffer = ByteBuffer.allocateDirect(minBufferSize);
                audioDate.size = mAudioRecord.read(audioDate.buffer, minBufferSize);
                try {
                    if (queue != null) {
                        queue.put(audioDate);
                    }
                } catch (InterruptedException e) {
                    e.printStackTrace();
                }
            }
            release();
        }
    }

录音线程比较简单,主要是先初始化录音器在 initRecorder()中,然后通过 AudioRecorder 的 read 方法,获取到一帧数据,通过 queue.put 放入队尾。
然后是编码线程。

/**
 * 音频编码线程
  */
public class AudioEncorder extends Thread {

    private MediaCodec mEncorder;
 private Boolean isEncording = false;
 private int minBufferSize;

 private OutputStream mFileStream;

 public AudioEncorder() {
        isEncording = true;
  initEncorder();
  }

    @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
    @Override
  public void run() {
        super.run();
  startEncording();
  }

    /**
 * 初始化编码器
  */
  private void initEncorder(){
        minBufferSize = AudioRecord.getMinBufferSize(sampleRateInHz, channelConfig, audioFormat);
 try {
            mEncorder = MediaCodec.createEncoderByType(MediaFormat.MIMETYPE_AUDIO_AAC);
  } catch (IOException e) {
            e.printStackTrace();
  }
        MediaFormat format = MediaFormat.createAudioFormat(MediaFormat.MIMETYPE_AUDIO_AAC, sampleRateInHz, channelConfig);
  format.setString(MediaFormat.KEY_MIME, MediaFormat.MIMETYPE_AUDIO_AAC);
  format.setInteger(MediaFormat.KEY_AAC_PROFILE, MediaCodecInfo.CodecProfileLevel.AACObjectLC);
  format.setInteger(MediaFormat.KEY_BIT_RATE, 96000);
  format.setInteger(MediaFormat.KEY_MAX_INPUT_SIZE, minBufferSize * 2);
  mEncorder.configure(format, null, null, MediaCodec.CONFIGURE_FLAG_ENCODE);
  }

    /**
 * 开始编码
  */
  @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
    public void startEncording(){
        if (mEncorder == null){
            return;
  }

        mEncorder.start();
 try {
            mFileStream = new FileOutputStream(getSDPath() + "/aac_encode.aac");
  MediaCodec.BufferInfo mBufferInfo = new MediaCodec.BufferInfo();
  AudioDate audioDate;
 while (isEncording) {
                // 从队列中取出录音的一帧音频数据
  audioDate = getAudioDate();

 if (audioDate == null) {
                    continue;
  }

                // 取出InputBuffer,填充音频数据,然后输送到编码器进行编码
  int inputBufferIndex = mEncorder.dequeueInputBuffer(0);
 if (inputBufferIndex >= 0) {
                    ByteBuffer inputBuffer = mEncorder.getInputBuffer(inputBufferIndex);
  inputBuffer.clear();
  inputBuffer.put(audioDate.buffer);
  mEncorder.queueInputBuffer(inputBufferIndex, 0, audioDate.size, System.nanoTime(), 0);
  }

                // 取出编码好的一帧音频数据,然后给这一帧添加ADTS头
  int outputBufferIndex = mEncorder.dequeueOutputBuffer(mBufferInfo, 0);
 while (outputBufferIndex >= 0) {
                    int outBitsSize = mBufferInfo.size;
 int outPacketSize = outBitsSize + 7; // ADTS头部是7个字节
  ByteBuffer outputBuffer = mEncorder.getOutputBuffer(outputBufferIndex);
  outputBuffer.position(mBufferInfo.offset);
  outputBuffer.limit(mBufferInfo.offset + outBitsSize);

 byte[] outData = new byte[outPacketSize];
  addADTStoPacket(outData, outPacketSize);

  outputBuffer.get(outData, 7, outBitsSize);
  outputBuffer.position(mBufferInfo.offset);
  mFileStream.write(outData);
  mEncorder.releaseOutputBuffer(outputBufferIndex, false);
  outputBufferIndex = mEncorder.dequeueOutputBuffer(mBufferInfo, 0);
  }
            }
            release();
  } catch (FileNotFoundException e) {
            e.printStackTrace();
  } catch (IOException e) {
            e.printStackTrace();
  }
    }

    /**
 * 添加ADTS头
  * @param packet
  * @param packetLen
  */
  private void addADTStoPacket(byte[] packet, int packetLen) {
        int profile = 2; //AAC LC
  int freqIdx = 4; //44100 根据不同的采样率修改这个值
  int chanCfg = 2; //CPE
  packet[0] = (byte) 0xFF;
  packet[1] = (byte) 0xF9;
  packet[2] = (byte) (((profile - 1) << 6) + (freqIdx << 2) + (chanCfg >> 2));
  packet[3] = (byte) (((chanCfg & 3) << 6) + (packetLen >> 11));
  packet[4] = (byte) ((packetLen & 0x7FF) >> 3);
  packet[5] = (byte) (((packetLen & 7) << 5) + 0x1F);
  packet[6] = (byte) 0xFC;
  }
}

和录音线程一样,先进行编码器的初始化在 initEncorder()中,这里的参数 MediaFormat 比较关键,针对具体的编码格式有不同的编码格式有不同的参数,其他的编码方式自行参阅官方文档,这里的 AAC 编码器参数我是经过测试可行的。
然后是最关键的一步--编码。在 startEncording()方法中,所有的流程完全对应上面我列出的 MediaCodec 的使用流程,可以对照上面的流程来阅读代码。
编码流程中非常重要的一步就是为每一帧 AAC 音频添加 ADTS 头,和 WAV 格式的音频不同,AAC 为每一帧音频都添加了一个 ADTS 头,使得解码器可以从任意一帧开始解码,有时我们遇到无法编码的 AAC 文件无法播放,可能就是因为我们没有为其添加 ADTS 头。通过上面的 addADTStoPacket()方法便可以未每一帧 AAC 音频添加 ADTS 头了。
至此,我就列出了我认为在 AAC 编码的过程中所需要注意的所有点。在完成这个功能的时候,我也参照了一些别人的做法,以及我自己的一些理解与实践,也遇到了一些令人头大的错误(例如:同样的 PCM 数据,放进队列中再取出来写入文件,就出现了很大的杂音)如有错误的地方,还请留言指正。
下面是完整代码:


                

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Bootstrap

    Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。

    18 引用 • 33 回帖 • 667 关注
  • sts
    2 引用 • 2 回帖 • 197 关注
  • Solo

    Solo 是一款小而美的开源博客系统,专为程序员设计。Solo 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    1435 引用 • 10056 回帖 • 489 关注
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    76 引用 • 1737 回帖 • 1 关注
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 632 关注
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖
  • C++

    C++ 是在 C 语言的基础上开发的一种通用编程语言,应用广泛。C++ 支持多种编程范式,面向对象编程、泛型编程和过程化编程。

    107 引用 • 153 回帖
  • Notion

    Notion - The all-in-one workspace for your notes, tasks, wikis, and databases.

    7 引用 • 40 回帖
  • 友情链接

    确认过眼神后的灵魂连接,站在链在!

    24 引用 • 373 回帖 • 1 关注
  • CongSec

    本标签主要用于分享网络空间安全专业的学习笔记

    1 引用 • 1 回帖 • 15 关注
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用 • 4 关注
  • jsoup

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    6 引用 • 1 回帖 • 483 关注
  • AngularJS

    AngularJS 诞生于 2009 年,由 Misko Hevery 等人创建,后为 Google 所收购。是一款优秀的前端 JS 框架,已经被用于 Google 的多款产品当中。AngularJS 有着诸多特性,最为核心的是:MVC、模块化、自动化双向数据绑定、语义化标签、依赖注入等。2.0 版本后已经改名为 Angular。

    12 引用 • 50 回帖 • 483 关注
  • SEO

    发布对别人有帮助的原创内容是最好的 SEO 方式。

    35 引用 • 200 回帖 • 27 关注
  • SSL

    SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。

    70 引用 • 193 回帖 • 416 关注
  • 星云链

    星云链是一个开源公链,业内简单的将其称为区块链上的谷歌。其实它不仅仅是区块链搜索引擎,一个公链的所有功能,它基本都有,比如你可以用它来开发部署你的去中心化的 APP,你可以在上面编写智能合约,发送交易等等。3 分钟快速接入星云链 (NAS) 测试网

    3 引用 • 16 回帖 • 6 关注
  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    86 引用 • 122 回帖 • 626 关注
  • WordPress

    WordPress 是一个使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设自己的博客。也可以把 WordPress 当作一个内容管理系统(CMS)来使用。WordPress 是一个免费的开源项目,在 GNU 通用公共许可证(GPLv2)下授权发布。

    66 引用 • 114 回帖 • 223 关注
  • Wide

    Wide 是一款基于 Web 的 Go 语言 IDE。通过浏览器就可以进行 Go 开发,并有代码自动完成、查看表达式、编译反馈、Lint、实时结果输出等功能。

    欢迎访问我们运维的实例: https://wide.b3log.org

    30 引用 • 218 回帖 • 635 关注
  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    23020 引用 • 92599 回帖
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    171 引用 • 512 回帖
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    343 引用 • 723 回帖
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 60 关注
  • 小说

    小说是以刻画人物形象为中心,通过完整的故事情节和环境描写来反映社会生活的文学体裁。

    28 引用 • 108 回帖
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 75 关注
  • ActiveMQ

    ActiveMQ 是 Apache 旗下的一款开源消息总线系统,它完整实现了 JMS 规范,是一个企业级的消息中间件。

    19 引用 • 13 回帖 • 668 关注