前段时间访问人人影视官网发现字幕组翻译社居然跨界合作出了个人人词典手机 APP,主要卖点是基于海量的影视剧内容来提供关键词匹配金句台词及对应视频预览功能。觉得是个有想法的 idea,二次利用积累的影视剧及字幕素材来开发新功能,走在了同行的前面。
发现人人词典做的是基于中英文的双语台词关键词检索,于是萌生了做一个中日文句对关键词检索工具的想法。爬取了字幕组网站上公布出来的日语影视剧字幕文件,发现只有 600 个左右的压缩包,而其他语种的字幕文件有 2W+。暂时先将收集到的中日双语字幕文件内容提取出来做成了这个语料库,测试用字典文件和使用工具代码托管在 GitHub 上,后续也不打算继续扩充语料字典的收录了,完整版的字典文件就存在这个贴子的打赏内容区。
项目 GitHub 地址:https://github.com/hero6180/jp2cn-subtitle-corpus
使用截图:
如果有需要下载完整版中日对译语料库,请查看本贴打赏内容。
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于