如题,目前抓取网页信息两处问题:
1、抓取后自动生成的是抓取的日期而不是文章发表、文件发布、成文日期,每次手动该
这里存在的重大问题是:抓取的日期对信息无较大意义或文档本来就能够查看文档日期,而文章发表、发布、成文日期,对信息使用者意义太大了! 一个法律条文啥时发布的,还有无效力;一个网络技术作者啥时分享的,技术是不是还有效,对我们来说那时相。。当。。重要。(建议增加对国税局网站的优化)建议这里直接生成就是文章发表的日期而不是抓取的日期
2、乘号抓取的问题,总是会 markdown 变斜体或者直接丢失(见下图)另外问下手工怎么改才不变成斜体或没了。。
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于