由人头录音、HRTF 产生的关于空间音频的想法

我从高中就开始热衷于使音频变得生动活泼，希望可以录制生动的现场音频记忆，这是我 6 年前以产生的梦想之一。

可能大家都知道，互联网上几乎所有的音频，当使用耳机播放时，它们就像在你的头内播放，从未像歌手在你面前唱歌一样。

或许有些人已经知道这方面的知识了，但为了避免你还不了解，我先在这里补充一些背景信息：

我们的人有两只耳朵，但是我们可以区分 3D 声音信息，在听到声音时可以确定声音的方向和距离。

那是因为在声音到达我们的耳膜之前，它首先与我们的头，头发，脸，鼻子，皮肤，肩膀，耳廓相互作用……我们的耳廓的形状、骨头的密度，它们为声音添加了滤镜（反射和衍射的结果），因此，当相同的声音从不同的方向到达我们的耳膜时，它们会被我们的身体处理。

由于我们的大脑已经习惯了此滤镜，因此我们可以感觉到声音的方向。

当使用耳机播放音乐时，这些声音不会被我们的身体结构添加滤镜，因此听起来好像所有音乐都在我们的脑袋内播放，永远不会有在前方播放的感觉。

我们的身体声音滤镜效果可以测量并应用于其他音频。该技术称为 HRTF（头部相关传递函数）。

测量此 HRTF 需要笨重且昂贵的设备，并且由于每个人的身体结构都有细微的差别，因此一个 HRTF 参数不能适用于所有人，因此必须进行个性化测量以实现最真实的仿真。

就在昨天，我刚刚自己制作了双耳麦克风。我买了几个 6027（直径 6.0mm，厚 2.7mm）麦克风咪头（每个咪头 1.2 元），并用便宜的耳机焊接了它们，并加了一个小的橡胶套，照片：

然后，我将每个麦克风咪头放入耳道入口（在这里它将会收集到经过身体处理后的声波），其大小正好适合耳道。然后，我将其插入便宜的 Sony 录音机 ICD-UX543F ，开始录音。

从理论上讲，我的耳道中的两个麦克风将准确地记录我的声音。这实际上只是一个充满希望的理论。

录音几分钟后，我换了个地方，戴上耳机，闭上了眼睛，重新播放了音频文件。我只是在那个录音环境中！我感觉：

人们靠近并经过
车辆从我面前冲过
...

录音真的让我大吃一惊！

这是我今天录的另外一段音频（请佩戴入耳式耳机聆听）：

（但是有可能，由于你的 HRTF 与我不同，你可能感受不到一些声音在前方发出）

但是，上面的示例说明，使用一组便宜的设备（双耳麦克风的材料成本甚至不到 5 块钱），我们可以以非常低的成本准确记录人耳如何听到声音。

所以这个主意今天浮现在我脑海：

尽管我们无法测量整个 HRTF 数据，但是我们可以测量一些准确的数据：

在安静的环境中，让一个人在他/她的耳道中佩戴这种双耳麦克风，将扬声器放在这个人的面前一米远，开始录音，并在扬声器中播放音频。

录音将显示前方一米处的声音传递到这个人的耳朵后的声音效果。

经过 FFT 分析后，与原始音频进行比较，我们可以得到一个列表，该列表列出了如何每个频率被如何影响。

使用此列表，我们可以得到这个测试者专属的电子滤镜，将其应用到任何声音或音乐中，然后在人的耳机中播放，这个听众会感觉到声音是从前方一米远处发出的。

如果可以有效使用此滤镜，则在使用耳机拨打电话时，用户会感觉自己的朋友在他面前讲话，而不是在脑海里讲话！

我的想法到这里就结束了。我对处理音频及其所有算法一无所知。更不要说写出这样的分析和处理脚本了。

当然以后有机会的话也可以尝试搞搞，如果有能力做的人也可以试试！

做一个根据用户需求提供（存储）架构建议的工具大家想要吗？

之前一直在做从结构化的需求描述直接生成可用系统的工具（无前端，只有后端和生成的接口）。在做用户访谈的工作中，有些用户提到，直接使用工具生成系统跨度太大了，要用起来需要很强的信任，但如果有个工具能根据需求生成架构建议，特别是存储相关的，例如“哪些东西用 redis 、怎么用 elastic search 、优化后的数据库 ..

规范性文件、文件夹命名系统，用以解决文件整理、存档、检索的问题【元数据文件命名法】

背景我曾听过一句有哲理的话，具体找不到了，它的大意是：没有良好命名的文件，基本就是没有意义的文件。但在实际生活中，给需要存档、方便以后寻找的文件起名、整理，也是一件让我头疼的事。每次取名，都要对名字思考：这个名字恰当吗？方便我以后检索到吗？名字足够有概括性以至于以后一眼就看懂吗？ …… 真是难呐！目前我在 ..

规范性图片文件名整理系统的构思，用以解决图片整理、检索的问题

背景我们都拍过许多图片、视频，但它们的整理和检索是一件麻烦事。我的手机拍了几千张图，放在电脑上以便查看，前几天我才看到了一张蜻蜓的照片，结果，第二天，我想找它，使劲翻也没找到，幸亏我记得它是在我老家市区拍的，根据 GPS 信息，才定位到了它，那是 2018 年夏天拍的一张图。这就让我想：如果一张图经过了编辑、上传 ..

简化后的手机照片、视频存储备份方案

代码 Python 脚本代码已经实现： Github Gitee 运行结果示例：主库位置：D:\Users\Haujet\Camera 随库位置：D:\Users\Haujet\Camera-small 正在统计文件中…… 主库中共有 23 个文件有 18 个图片，其中有 2 个需要压缩到随库副本有 4 个视频， ..

一个软件设想，有关手机照片、视频备份，减少存储浪费

现代人都用手机拍不少照片、视频，往往一个照片 2MB、拍一段 1080p 的视频 1 分钟 120MB，非常占用空间。但事实上，许多照片、视频用不着使用极高的画质、极高的分辨率来存储，长期占用宝贵的手机空间。例如某些照片不太重要， 200KB 的大小、清晰度，就足以记录用户想要保存的画面信息了，但实际的照片非常高清 ..

一个商机：可以使用 AI 分轨音乐的离线音乐播放器

有一个自带模型的开源 Ai 库 Spleeter 可以将音乐分为人声、钢琴声、鼓声、、贝斯、其他五个乐器轨，SplitHit 就做到了将这个引擎离线到安卓上，分轨后再混音。 [图片] 使用体验、下载、安装详见我这个视频：https://www.bilibili.com/video/BV1qr4y1c7Lu/ 和这个 ..

做一个电脑的语音识别，不依赖于输入法

想到一个很妙的主意实现语音输入。后台运行一个 python 脚本，监听 Capslk 按键，当这个键被按下时就开始录音并开始计时，松起时就停止录音并且停止计时。如果录音时长超过一秒，就使用 API 进行语音识别并且输入。之前一直想着触发器该怎么做的事，这样一来，妙啊。先发帖子，做出来再更新。

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

相关帖子

做一个根据用户需求提供（存储）架构建议的工具大家想要吗？

规范性文件、文件夹命名系统，用以解决文件整理、存档、检索的问题【元数据文件命名法】

规范性图片文件名整理系统的构思，用以解决图片整理、检索的问题

简化后的手机照片、视频存储备份方案

一个软件设想，有关手机照片、视频备份，减少存储浪费

一个商机：可以使用 AI 分轨音乐的离线音乐播放器

做一个电脑的语音识别，不依赖于输入法

欢迎来到这里！

近期热议

推荐标签标签

最新标签

由人头录音、HRTF 产生的关于空间音频的想法

相关帖子

做一个根据用户需求提供（存储）架构建议的工具大家想要吗？

规范性文件、文件夹命名系统，用以解决文件整理、存档、检索的问题【元数据文件命名法】

规范性图片文件名整理系统的构思，用以解决图片整理、检索的问题

简化后的手机照片、视频存储备份方案

一个软件设想，有关手机照片、视频备份，减少存储浪费

一个商机：可以使用 AI 分轨音乐的离线音乐播放器

做一个电脑的语音识别，不依赖于输入法

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签