关于使用 ExifTool 批量修复照片、视频的媒体创建时间,使其在相册正确排序,学习参考代码

本贴最后更新于 588 天前,其中的信息可能已经时移俗易

如果一个照片、视频的的元数据中没有媒体创建时间的记录,那在相册中时,相册会默认以文件的创建时间、修改时间排序。

从网上下载来的照片、手机的截图、录屏视频,通常是没有媒体创建时间的。

假如你创建了一个此图片、视频的副本、修改版、压缩版,新文件的创建时间就会很新,本来一个拍摄日期很久远的照片,在相册中就会排到很靠前。

因此,有必要为视频、图片添加上正确的创建时间。

众所周知,视频、照片、截图、录屏的自动命名,都会用到创建时的时间戳,所以我们就可以以两个线索,对媒体文件的媒体创建时间元数据进行纠正:

  • 如果文件名中有正确的时间戳,就以文件名为线索纠正,写入到元数据
  • 如果文件名中没有正确的时间戳,就以文件的创建时间为线索,写入到元数据

ExifTool 可以对多种格式(包括视频、图片)读写元数据,用它来修复再合适不过了。

考虑到可能有许多文件需要批处理,还要判断原文件是否有正确的时间元数据,因此一般几行命令行无法满足需求,因此我写了个 Python 脚本,可以

  • 对文件、文件夹自动判断,如果是文件夹,就进行递归操作
  • 判断有没有正确的时间元数据
  • 根据上述两条线索修复时间元数据
  • 利用 ExifTool 的 -stay_open 参数,在一个实例中操作所有图片,而不是每一个图片都要打开一个 ExifTool 实例,因此操作速度飞起!

另外也学习到,原来文件名中加入时间戳这么重要!

实现效果:

image.png

image.png

代码链接: 拖入处理文件/修复照片视频创建时间.py · 淳帅二代/我的 Python 脚本

代码:

'''
脚本作用:

使用 exiftool 根据文件名、新建时间,纠正文件元数据中的媒体创建时间。
使用前要先确保 exiftool 可执行文件路径已添加到环境变量

使用方法:

python 本脚本名字.py 文件或文件夹路径 其它文件或文件夹路径

(如果是文件夹路径,会递归修复。如果检测到有媒体创建时间,则不会改动原文件)



'''

import sys, time, os
from os import path
import subprocess, shlex, re
import locale
from pprint import pprint
from datetime import datetime

# 合法图片后缀,一行一个
图片后缀 = '''
.jpg
.jpeg
.png
.webp
.heic
'''.strip()

# 合法视频后缀,一行一个
视频后缀 = '''
.mp4
.webm
.flv
.mkv
'''.strip()

def 处理文件(process, 文件路径):
  
    def 开始执行():
        process.stdin.write(f'-execute\n')
        process.stdin.flush()
        fd = process.stdout.fileno()
        output = b''
        while not output.decode(locale.getpreferredencoding()).strip().endswith(r'{ready}'):
            output += os.read(fd, 4096)
        output = output.decode().strip()[:-len(r'{ready}')].strip()
        return output
  
    # 时区用于调整视频 UTC 时间
    时区 = time.strftime("%z", time.gmtime())
    时区小时, 时区分钟 = 时区[1:3], 时区[3:5]
  
    # 先看下有没有媒体创建时间
    process.stdin.write(f'-s\n') 
    process.stdin.write(f'-s\n') 
    process.stdin.write(f'-s\n') 
    process.stdin.write(f'-createdate\n')
    process.stdin.write(f'{文件路径}\n')
    output = 开始执行()
    # 对于图片文件,只要有 createdate,就是有
    # 对于视频文件,如果没有 createdate,读出来的就全是 0000:00:00 00:00:00
    # 这时,如果都是 0,也应当纠正下时间
    output_num = ''.join(re.findall(r'\d+', output))
  
  
    if output and int(output_num):
        print(f'    文件已有媒体创建时间:{output}')
    else:
        print(f'    文件缺失媒体创建时间')
        文件名 = path.basename(文件路径)
        文件名时间 = 从文件名得到时间(文件名)
        if 文件名时间:
            print(f'    使用文件名纠正媒体创建时间')
            process.stdin.write(f'-alldates={文件名时间}\n')
        else:
            print(f'    使用文件创建时间纠正媒体创建时间')
            process.stdin.write(f'-alldates<FileCreateDate\n')
  
        process.stdin.write(f'-overwrite_original\n')
        process.stdin.write(f'{文件路径}\n')
        开始执行()
  
        if path.splitext(文件路径)[1] in 视频后缀.splitlines():
            print(f'    对视频文件元数据纠正 UTC 偏差:{时区小时}:{时区分钟}:00')
            process.stdin.write(f'-alldates-={时区小时}:{时区分钟}:00\n')
            process.stdin.write(f'-overwrite_original\n')
            process.stdin.write(f'{文件路径}\n')
            开始执行()
    print('\n')

def 获得文件夹内所有媒体文件(文件夹路径):
    文件列表 = []
    for root, dirs, files in os.walk(文件夹路径):
        for file in files:
            文件路径 = path.join(root, file)
            if path.splitext(文件路径)[1].lower() in 图片后缀.splitlines() + 视频后缀.splitlines():
                文件列表.append(文件路径)
    return 文件列表


def 从文件名得到时间(文件名):
    全数字 = ''.join(re.findall(r'\d+', 文件名))
    当前时间 = datetime.now()

    try:
        # 类似 IMG_20170606_192311.jpg
        数字转时间 = datetime.fromisoformat(
            f'{全数字[0:4]}-{全数字[4:6]}-{全数字[6:8]} {全数字[8:10]}:{全数字[10:12]}:{全数字[12:14]}'
        )
        if 数字转时间 < 当前时间:
            return 数字转时间
    except:
        ...

    try:
        # 类似 mmexport1111467816512.jpg
        数字转时间 = datetime.fromtimestamp(
            int(全数字[0:13]) / 1000
        )
        if 数字转时间 < 当前时间:
            return 数字转时间
    except:
        ...

    try:
        # 类似 121301190818c8f0c7010755.mp4
        数字转时间 = datetime.fromisoformat(
            f'20{全数字[10:12]}-{全数字[8:10]}-{全数字[6:8]} {全数字[4:6]}:{全数字[2:4]}:{全数字[0:2]}').timestamp()
        if 数字转时间 < 当前时间:
            return 数字转时间
    except:
        ...

    return False

def main():
    process = subprocess.Popen(
        shlex.split(
            f'exiftool -stay_open True -@ -'
        ), 
        stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.DEVNULL, 
        encoding=locale.getpreferredencoding()
    )
  
    总文件列表 = []
    for 路径 in sys.argv[1:]:
        if path.isfile(路径):
            if path.splitext(路径)[1].lower() in 图片后缀.splitlines() + 视频后缀.splitlines():
                总文件列表.append(路径)
        elif path.isdir(路径):
            总文件列表 += 获得文件夹内所有媒体文件(路径)
  
    for index, 文件 in enumerate(总文件列表):
        print(f'正在处理第 {index + 1} 个,总共有 {len(总文件列表)} 个')
        print(f'    文件路径:{文件}')
        处理文件(process, 文件)

    process.communicate('-stay_open\nFalse\n')
    input('处理结束,回车结束\n')

if __name__ == '__main__':
    main()


  • Exif
    4 引用 • 13 回帖
  • 工具

    子曰:“工欲善其事,必先利其器。”

    257 引用 • 648 回帖
2 操作
HaujetZhao 在 2021-10-22 01:08:13 更新了该帖
HaujetZhao 在 2021-10-22 01:06:49 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 60 关注
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    19 引用 • 31 回帖 • 2 关注
  • Netty

    Netty 是一个基于 NIO 的客户端-服务器编程框架,使用 Netty 可以让你快速、简单地开发出一个可维护、高性能的网络应用,例如实现了某种协议的客户、服务端应用。

    48 引用 • 32 回帖
  • Telegram

    Telegram 是一个非盈利性、基于云端的即时消息服务。它提供了支持各大操作系统平台的开源的客户端,也提供了很多强大的 APIs 给开发者创建自己的客户端和机器人。

    6 引用 • 40 回帖 • 2 关注
  • 前端

    前端技术一般分为前端设计和前端开发,前端设计可以理解为网站的视觉设计,前端开发则是网站的前台代码实现,包括 HTML、CSS 以及 JavaScript 等。

    248 引用 • 1350 回帖
  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    8 引用 • 25 回帖 • 5 关注
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    10 引用 • 81 回帖 • 2 关注
  • Elasticsearch

    Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful 接口。Elasticsearch 是用 Java 开发的,并作为 Apache 许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

    112 引用 • 99 回帖 • 353 关注
  • 负能量

    上帝为你关上了一扇门,然后就去睡觉了....努力不一定能成功,但不努力一定很轻松 (° ー °〃)

    84 引用 • 1161 回帖 • 486 关注
  • TextBundle

    TextBundle 文件格式旨在应用程序之间交换 Markdown 或 Fountain 之类的纯文本文件时,提供更无缝的用户体验。

    1 引用 • 2 回帖 • 18 关注
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    520 引用 • 674 回帖
  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    17 引用 • 81 回帖 • 1 关注
  • WordPress

    WordPress 是一个使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设自己的博客。也可以把 WordPress 当作一个内容管理系统(CMS)来使用。WordPress 是一个免费的开源项目,在 GNU 通用公共许可证(GPLv2)下授权发布。

    45 引用 • 113 回帖 • 366 关注
  • SVN

    SVN 是 Subversion 的简称,是一个开放源代码的版本控制系统,相较于 RCS、CVS,它采用了分支管理系统,它的设计目标就是取代 CVS。

    29 引用 • 98 回帖 • 659 关注
  • 电影

    这是一个不能说的秘密。

    119 引用 • 594 回帖 • 1 关注
  • JetBrains

    JetBrains 是一家捷克的软件开发公司,该公司位于捷克的布拉格,并在俄国的圣彼得堡及美国麻州波士顿都设有办公室,该公司最为人所熟知的产品是 Java 编程语言开发撰写时所用的集成开发环境:IntelliJ IDEA

    19 引用 • 56 回帖 • 2 关注
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 580 关注
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖 • 1 关注
  • React

    React 是 Facebook 开源的一个用于构建 UI 的 JavaScript 库。

    192 引用 • 291 回帖 • 481 关注
  • 京东

    京东是中国最大的自营式电商企业,2015 年第一季度在中国自营式 B2C 电商市场的占有率为 56.3%。2014 年 5 月,京东在美国纳斯达克证券交易所正式挂牌上市(股票代码:JD),是中国第一个成功赴美上市的大型综合型电商平台,与腾讯、百度等中国互联网巨头共同跻身全球前十大互联网公司排行榜。

    14 引用 • 102 回帖 • 449 关注
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 9 关注
  • jQuery

    jQuery 是一套跨浏览器的 JavaScript 库,强化 HTML 与 JavaScript 之间的操作。由 John Resig 在 2006 年 1 月的 BarCamp NYC 上释出第一个版本。目前全球有 28% 的网站使用 jQuery,是目前最受欢迎的 JavaScript 库。

    62 引用 • 134 回帖 • 767 关注
  • jsDelivr

    jsDelivr 是一个开源的 CDN 服务,可为 npm 包、GitHub 仓库提供免费、快速并且可靠的全球 CDN 加速服务。

    5 引用 • 31 回帖 • 13 关注
  • Linux

    Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 Unix 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的 Unix 工具软件、应用程序和网络协议,并支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

    892 引用 • 922 回帖
  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    388 引用 • 3357 回帖
  • Flutter

    Flutter 是谷歌的移动 UI 框架,可以快速在 iOS 和 Android 上构建高质量的原生用户界面。 Flutter 可以与现有的代码一起工作,它正在被越来越多的开发者和组织使用,并且 Flutter 是完全免费、开源的。

    39 引用 • 92 回帖 • 4 关注