由人头录音、HRTF 产生的关于空间音频的想法

本贴最后更新于 1386 天前,其中的信息可能已经时异事殊

我从高中就开始热衷于使音频变得生动活泼,希望可以录制生动的现场音频记忆,这是我 6 年前以产生的梦想之一。

可能大家都知道,互联网上几乎所有的音频,当使用耳机播放时,它们就像在你的头内播放,从未像歌手在你面前唱歌一样。

或许有些人已经知道这方面的知识了,但为了避免你还不了解,我先在这里补充一些背景信息:

我们的人有两只耳朵,但是我们可以区分 3D 声音信息,在听到声音时可以确定声音的方向和距离。

那是因为在声音到达我们的耳膜之前,它首先与我们的头,头发,脸,鼻子,皮肤,肩膀,耳廓相互作用……我们的耳廓的形状、骨头的密度,它们为声音添加了滤镜(反射和衍射的结果),因此,当相同的声音从不同的方向到达我们的耳膜时,它们会被我们的身体处理。

由于我们的大脑已经习惯了此滤镜,因此我们可以感觉到声音的方向。

当使用耳机播放音乐时,这些声音不会被我们的身体结构添加滤镜,因此听起来好像所有音乐都在我们的脑袋内播放,永远不会有在前方播放的感觉。

我们的身体声音滤镜效果可以测量并应用于其他音频。该技术称为 HRTF(头部相关传递函数)。

测量此 HRTF 需要笨重且昂贵的设备,并且由于每个人的身体结构都有细微的差别,因此一个 HRTF 参数不能适用于所有人,因此必须进行个性化测量以实现最真实的仿真。

就在昨天,我刚刚自己制作了双耳麦克风。我买了几个 6027(直径 6.0mm,厚 2.7mm)麦克风咪头(每个咪头 1.2 元),并用便宜的耳机焊接了它们,并加了一个小的橡胶套,照片:

BinauralMicImade.jpg

然后,我将每个麦克风咪头放入耳道入口(在这里它将会收集到经过身体处理后的声波),其大小正好适合耳道。然后,我将其插入便宜的 Sony 录音机 ICD-UX543F ,开始录音。

从理论上讲,我的耳道中的两个麦克风将准确地记录我的声音。这实际上只是一个充满希望的理论。

录音几分钟后,我换了个地方,戴上耳机,闭上了眼睛,重新播放了音频文件。我只是在那个录音环境中!我感觉:

  • 人们靠近并经过
  • 车辆从我面前冲过
  • ...

录音真的让我大吃一惊!

这是我今天录的另外一段音频(请佩戴入耳式耳机聆听):

(但是有可能,由于你的 HRTF 与我不同,你可能感受不到一些声音在前方发出)

但是,上面的示例说明,使用一组便宜的设备(双耳麦克风的材料成本甚至不到 5 块钱),我们可以以非常低的成本准确记录人耳如何听到声音。

所以这个主意今天浮现在我脑海:

尽管我们无法测量整个 HRTF 数据,但是我们可以测量一些准确的数据:

在安静的环境中,让一个人在他/她的耳道中佩戴这种双耳麦克风,将扬声器放在这个人的面前一米远,开始录音,并在扬声器中播放音频。

录音将显示前方一米处的声音传递到这个人的耳朵后的声音效果。

经过 FFT 分析后,与原始音频进行比较,我们可以得到一个列表,该列表列出了如何每个频率被如何影响。

使用此列表,我们可以得到这个测试者专属的电子滤镜,将其应用到任何声音或音乐中,然后在人的耳机中播放,这个听众会感觉到声音是从前方一米远处发出的。

如果可以有效使用此滤镜,则在使用耳机拨打电话时,用户会感觉自己的朋友在他面前讲话,而不是在脑海里讲话!

我的想法到这里就结束了。我对处理音频及其所有算法一无所知。更不要说写出这样的分析和处理脚本了。

当然以后有机会的话也可以尝试搞搞,如果有能力做的人也可以试试!

  • 奇思妙想

    虽然我们的世界构建在想象力上,但光想不实操也是没用的。

    60 引用 • 623 回帖 • 5 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • someone61489 2 评论

    听着真哇塞

    其实是远不够哇塞的。因为这是用我的头录制的,只有在我的耳朵上播放,才能完全还原出方向感,而在你的头上,由于没有精确的 HRTF 处理,会有些方向无法感知到,或者感知错误。如果你佩戴上这个,录出音频,再自个听,那才叫哇塞。
    HaujetZhao
    @HaujetZhao in your mind~
    someone61489

推荐标签 标签

  • 生活

    生活是指人类生存过程中的各项活动的总和,范畴较广,一般指为幸福的意义而存在。生活实际上是对人生的一种诠释。生活包括人类在社会中与自己息息相关的日常活动和心理影射。

    230 引用 • 1454 回帖 • 1 关注
  • 音乐

    你听到信仰的声音了么?

    61 引用 • 511 回帖
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖
  • danl
    146 关注
  • ngrok

    ngrok 是一个反向代理,通过在公共的端点和本地运行的 Web 服务器之间建立一个安全的通道。

    7 引用 • 63 回帖 • 627 关注
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖
  • 域名

    域名(Domain Name),简称域名、网域,是由一串用点分隔的名字组成的 Internet 上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位(有时也指地理位置)。

    43 引用 • 208 回帖
  • Kafka

    Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是现代系统中许多功能的基础。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

    36 引用 • 35 回帖
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    76 引用 • 1737 回帖
  • Tomcat

    Tomcat 最早是由 Sun Microsystems 开发的一个 Servlet 容器,在 1999 年被捐献给 ASF(Apache Software Foundation),隶属于 Jakarta 项目,现在已经独立为一个顶级项目。Tomcat 主要实现了 JavaEE 中的 Servlet、JSP 规范,同时也提供 HTTP 服务,是市场上非常流行的 Java Web 容器。

    162 引用 • 529 回帖 • 4 关注
  • Bootstrap

    Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。

    18 引用 • 33 回帖 • 667 关注
  • Webswing

    Webswing 是一个能将任何 Swing 应用通过纯 HTML5 运行在浏览器中的 Web 服务器,详细介绍请看 将 Java Swing 应用变成 Web 应用

    1 引用 • 15 回帖 • 637 关注
  • Gzip

    gzip (GNU zip)是 GNU 自由软件的文件压缩程序。我们在 Linux 中经常会用到后缀为 .gz 的文件,它们就是 Gzip 格式的。现今已经成为互联网上使用非常普遍的一种数据压缩格式,或者说一种文件格式。

    9 引用 • 12 回帖 • 147 关注
  • 智能合约

    智能合约(Smart contract)是一种旨在以信息化方式传播、验证或执行合同的计算机协议。智能合约允许在没有第三方的情况下进行可信交易,这些交易可追踪且不可逆转。智能合约概念于 1994 年由 Nick Szabo 首次提出。

    1 引用 • 11 回帖 • 2 关注
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 106 关注
  • TextBundle

    TextBundle 文件格式旨在应用程序之间交换 Markdown 或 Fountain 之类的纯文本文件时,提供更无缝的用户体验。

    1 引用 • 2 回帖 • 53 关注
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 76 关注
  • 百度

    百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文网站。2000 年 1 月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

    63 引用 • 785 回帖 • 164 关注
  • Oracle

    Oracle(甲骨文)公司,全称甲骨文股份有限公司(甲骨文软件系统有限公司),是全球最大的企业级软件公司,总部位于美国加利福尼亚州的红木滩。1989 年正式进入中国市场。2013 年,甲骨文已超越 IBM,成为继 Microsoft 后全球第二大软件公司。

    105 引用 • 127 回帖 • 370 关注
  • Lute

    Lute 是一款结构化的 Markdown 引擎,支持 Go 和 JavaScript。

    26 引用 • 196 回帖 • 17 关注
  • 创造

    你创造的作品可能会帮助到很多人,如果是开源项目的话就更赞了!

    178 引用 • 997 回帖
  • QQ

    1999 年 2 月腾讯正式推出“腾讯 QQ”,在线用户由 1999 年的 2 人(马化腾和张志东)到现在已经发展到上亿用户了,在线人数超过一亿,是目前使用最广泛的聊天软件之一。

    45 引用 • 557 回帖 • 44 关注
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 672 关注
  • RIP

    愿逝者安息!

    8 引用 • 92 回帖 • 363 关注
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 76 关注
  • Angular

    AngularAngularJS 的新版本。

    26 引用 • 66 回帖 • 536 关注
  • OnlyOffice
    4 引用 • 3 关注