关于使用 ExifTool 批量修复照片、视频的媒体创建时间,使其在相册正确排序,学习参考代码

本贴最后更新于 1157 天前,其中的信息可能已经时移俗易

如果一个照片、视频的的元数据中没有媒体创建时间的记录,那在相册中时,相册会默认以文件的创建时间、修改时间排序。

从网上下载来的照片、手机的截图、录屏视频,通常是没有媒体创建时间的。

假如你创建了一个此图片、视频的副本、修改版、压缩版,新文件的创建时间就会很新,本来一个拍摄日期很久远的照片,在相册中就会排到很靠前。

因此,有必要为视频、图片添加上正确的创建时间。

众所周知,视频、照片、截图、录屏的自动命名,都会用到创建时的时间戳,所以我们就可以以两个线索,对媒体文件的媒体创建时间元数据进行纠正:

  • 如果文件名中有正确的时间戳,就以文件名为线索纠正,写入到元数据
  • 如果文件名中没有正确的时间戳,就以文件的创建时间为线索,写入到元数据

ExifTool 可以对多种格式(包括视频、图片)读写元数据,用它来修复再合适不过了。

考虑到可能有许多文件需要批处理,还要判断原文件是否有正确的时间元数据,因此一般几行命令行无法满足需求,因此我写了个 Python 脚本,可以

  • 对文件、文件夹自动判断,如果是文件夹,就进行递归操作
  • 判断有没有正确的时间元数据
  • 根据上述两条线索修复时间元数据
  • 利用 ExifTool 的 -stay_open 参数,在一个实例中操作所有图片,而不是每一个图片都要打开一个 ExifTool 实例,因此操作速度飞起!

另外也学习到,原来文件名中加入时间戳这么重要!

实现效果:

image.png

image.png

代码链接: 拖入处理文件/修复照片视频创建时间.py · 淳帅二代/我的 Python 脚本

代码:

'''
脚本作用:

使用 exiftool 根据文件名、新建时间,纠正文件元数据中的媒体创建时间。
使用前要先确保 exiftool 可执行文件路径已添加到环境变量

使用方法:

python 本脚本名字.py 文件或文件夹路径 其它文件或文件夹路径

(如果是文件夹路径,会递归修复。如果检测到有媒体创建时间,则不会改动原文件)



'''

import sys, time, os
from os import path
import subprocess, shlex, re
import locale
from pprint import pprint
from datetime import datetime

# 合法图片后缀,一行一个
图片后缀 = '''
.jpg
.jpeg
.png
.webp
.heic
'''.strip()

# 合法视频后缀,一行一个
视频后缀 = '''
.mp4
.webm
.flv
.mkv
'''.strip()

def 处理文件(process, 文件路径):
  
    def 开始执行():
        process.stdin.write(f'-execute\n')
        process.stdin.flush()
        fd = process.stdout.fileno()
        output = b''
        while not output.decode(locale.getpreferredencoding()).strip().endswith(r'{ready}'):
            output += os.read(fd, 4096)
        output = output.decode().strip()[:-len(r'{ready}')].strip()
        return output
  
    # 时区用于调整视频 UTC 时间
    时区 = time.strftime("%z", time.gmtime())
    时区小时, 时区分钟 = 时区[1:3], 时区[3:5]
  
    # 先看下有没有媒体创建时间
    process.stdin.write(f'-s\n') 
    process.stdin.write(f'-s\n') 
    process.stdin.write(f'-s\n') 
    process.stdin.write(f'-createdate\n')
    process.stdin.write(f'{文件路径}\n')
    output = 开始执行()
    # 对于图片文件,只要有 createdate,就是有
    # 对于视频文件,如果没有 createdate,读出来的就全是 0000:00:00 00:00:00
    # 这时,如果都是 0,也应当纠正下时间
    output_num = ''.join(re.findall(r'\d+', output))
  
  
    if output and int(output_num):
        print(f'    文件已有媒体创建时间:{output}')
    else:
        print(f'    文件缺失媒体创建时间')
        文件名 = path.basename(文件路径)
        文件名时间 = 从文件名得到时间(文件名)
        if 文件名时间:
            print(f'    使用文件名纠正媒体创建时间')
            process.stdin.write(f'-alldates={文件名时间}\n')
        else:
            print(f'    使用文件创建时间纠正媒体创建时间')
            process.stdin.write(f'-alldates<FileCreateDate\n')
  
        process.stdin.write(f'-overwrite_original\n')
        process.stdin.write(f'{文件路径}\n')
        开始执行()
  
        if path.splitext(文件路径)[1] in 视频后缀.splitlines():
            print(f'    对视频文件元数据纠正 UTC 偏差:{时区小时}:{时区分钟}:00')
            process.stdin.write(f'-alldates-={时区小时}:{时区分钟}:00\n')
            process.stdin.write(f'-overwrite_original\n')
            process.stdin.write(f'{文件路径}\n')
            开始执行()
    print('\n')

def 获得文件夹内所有媒体文件(文件夹路径):
    文件列表 = []
    for root, dirs, files in os.walk(文件夹路径):
        for file in files:
            文件路径 = path.join(root, file)
            if path.splitext(文件路径)[1].lower() in 图片后缀.splitlines() + 视频后缀.splitlines():
                文件列表.append(文件路径)
    return 文件列表


def 从文件名得到时间(文件名):
    全数字 = ''.join(re.findall(r'\d+', 文件名))
    当前时间 = datetime.now()

    try:
        # 类似 IMG_20170606_192311.jpg
        数字转时间 = datetime.fromisoformat(
            f'{全数字[0:4]}-{全数字[4:6]}-{全数字[6:8]} {全数字[8:10]}:{全数字[10:12]}:{全数字[12:14]}'
        )
        if 数字转时间 < 当前时间:
            return 数字转时间
    except:
        ...

    try:
        # 类似 mmexport1111467816512.jpg
        数字转时间 = datetime.fromtimestamp(
            int(全数字[0:13]) / 1000
        )
        if 数字转时间 < 当前时间:
            return 数字转时间
    except:
        ...

    try:
        # 类似 121301190818c8f0c7010755.mp4
        数字转时间 = datetime.fromisoformat(
            f'20{全数字[10:12]}-{全数字[8:10]}-{全数字[6:8]} {全数字[4:6]}:{全数字[2:4]}:{全数字[0:2]}').timestamp()
        if 数字转时间 < 当前时间:
            return 数字转时间
    except:
        ...

    return False

def main():
    process = subprocess.Popen(
        shlex.split(
            f'exiftool -stay_open True -@ -'
        ), 
        stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.DEVNULL, 
        encoding=locale.getpreferredencoding()
    )
  
    总文件列表 = []
    for 路径 in sys.argv[1:]:
        if path.isfile(路径):
            if path.splitext(路径)[1].lower() in 图片后缀.splitlines() + 视频后缀.splitlines():
                总文件列表.append(路径)
        elif path.isdir(路径):
            总文件列表 += 获得文件夹内所有媒体文件(路径)
  
    for index, 文件 in enumerate(总文件列表):
        print(f'正在处理第 {index + 1} 个,总共有 {len(总文件列表)} 个')
        print(f'    文件路径:{文件}')
        处理文件(process, 文件)

    process.communicate('-stay_open\nFalse\n')
    input('处理结束,回车结束\n')

if __name__ == '__main__':
    main()


  • Exif
    4 引用 • 13 回帖
  • 工具

    子曰:“工欲善其事,必先利其器。”

    288 引用 • 734 回帖
2 操作
HaujetZhao 在 2021-10-22 01:08:13 更新了该帖
HaujetZhao 在 2021-10-22 01:06:49 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    41 引用 • 130 回帖 • 253 关注
  • 设计模式

    设计模式(Design pattern)代表了最佳的实践,通常被有经验的面向对象的软件开发人员所采用。设计模式是软件开发人员在软件开发过程中面临的一般问题的解决方案。这些解决方案是众多软件开发人员经过相当长的一段时间的试验和错误总结出来的。

    200 引用 • 120 回帖
  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    132 引用 • 1114 回帖 • 126 关注
  • 博客

    记录并分享人生的经历。

    273 引用 • 2388 回帖
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    96 引用 • 155 回帖 • 1 关注
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    186 引用 • 318 回帖 • 281 关注
  • CongSec

    本标签主要用于分享网络空间安全专业的学习笔记

    1 引用 • 1 回帖 • 17 关注
  • SVN

    SVN 是 Subversion 的简称,是一个开放源代码的版本控制系统,相较于 RCS、CVS,它采用了分支管理系统,它的设计目标就是取代 CVS。

    29 引用 • 98 回帖 • 694 关注
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有计划重制上线。

    14 引用 • 257 回帖
  • HTML

    HTML5 是 HTML 下一个的主要修订版本,现在仍处于发展阶段。广义论及 HTML5 时,实际指的是包括 HTML、CSS 和 JavaScript 在内的一套技术组合。

    107 引用 • 295 回帖
  • 导航

    各种网址链接、内容导航。

    42 引用 • 175 回帖
  • Sillot

    Insights(注意当前设置 master 为默认分支)

    汐洛彖夲肜矩阵(Sillot T☳Converbenk Matrix),致力于服务智慧新彖乄,具有彖乄驱动、极致优雅、开发者友好的特点。其中汐洛绞架(Sillot-Gibbet)基于自思源笔记(siyuan-note),前身是思源笔记汐洛版(更早是思源笔记汐洛分支),是智慧新录乄终端(多端融合,移动端优先)。

    主仓库地址:Hi-Windom/Sillot

    文档地址:sillot.db.sc.cn

    注意事项:

    1. ⚠️ 汐洛仍在早期开发阶段,尚不稳定
    2. ⚠️ 汐洛并非面向普通用户设计,使用前请了解风险
    3. ⚠️ 汐洛绞架基于思源笔记,开发者尽最大努力与思源笔记保持兼容,但无法实现 100% 兼容
    29 引用 • 25 回帖 • 86 关注
  • 周末

    星期六到星期天晚,实行五天工作制后,指每周的最后两天。再过几年可能就是三天了。

    14 引用 • 297 回帖
  • Telegram

    Telegram 是一个非盈利性、基于云端的即时消息服务。它提供了支持各大操作系统平台的开源的客户端,也提供了很多强大的 APIs 给开发者创建自己的客户端和机器人。

    5 引用 • 35 回帖
  • gRpc
    11 引用 • 9 回帖 • 69 关注
  • Lute

    Lute 是一款结构化的 Markdown 引擎,支持 Go 和 JavaScript。

    26 引用 • 196 回帖 • 17 关注
  • SSL

    SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。

    70 引用 • 193 回帖 • 418 关注
  • Wide

    Wide 是一款基于 Web 的 Go 语言 IDE。通过浏览器就可以进行 Go 开发,并有代码自动完成、查看表达式、编译反馈、Lint、实时结果输出等功能。

    欢迎访问我们运维的实例: https://wide.b3log.org

    30 引用 • 218 回帖 • 635 关注
  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    83 引用 • 37 回帖
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    177 引用 • 816 回帖
  • 自由行
    4 关注
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 394 关注
  • Node.js

    Node.js 是一个基于 Chrome JavaScript 运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动, 非阻塞 I/O 模型而得以轻量和高效。

    139 引用 • 269 回帖 • 28 关注
  • CSS

    CSS(Cascading Style Sheet)“层叠样式表”是用于控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。

    196 引用 • 540 回帖 • 1 关注
  • SendCloud

    SendCloud 由搜狐武汉研发中心孵化的项目,是致力于为开发者提供高质量的触发邮件服务的云端邮件发送平台,为开发者提供便利的 API 接口来调用服务,让邮件准确迅速到达用户收件箱并获得强大的追踪数据。

    2 引用 • 8 回帖 • 486 关注
  • sts
    2 引用 • 2 回帖 • 197 关注
  • 互联网

    互联网(Internet),又称网际网络,或音译因特网、英特网。互联网始于 1969 年美国的阿帕网,是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。

    98 引用 • 344 回帖