原创系统

本贴最后更新于 585 天前,其中的信息可能已经斗转星移

原创的重要性

黑客派是一个注重原创内容分享和讨论的地方,这里不欢迎全文转载,即使是授权转载。

为了让“注重原创”这件事落地,我们上线了“原创系统”来对帖子进行原创性评分,分值越低原创性也越低:

  1. 10-50:基本是转载,灰色标识。这类内容在这里不受欢迎,并且有很大概率会被管理员删帖,40 分以下的帖子不会出现在全局列表上
  2. 60:大部分是转载,浅灰色标识。这类内容大部分都是摘抄或是没有规范使用“引用”
  3. 70:少部分摘抄转载,绿色标识。这类内容可能是没有规范使用“引用”导致,需要认真排版
  4. 80:极少部分摘抄,蓝色标识。这类内容可能是没有规范使用“引用”导致,需要认真排版,是不错的原创内容
  5. 90:个别术语或短语摘抄,紫色标识。这类内容是很受欢迎的原创内容,会在社区内部以及外部推荐转发
  6. 100:完全原创,橙色标识。这类内容是最受欢迎的原创内容,排版优秀且具有很大价值

目前只有在超过 1024 字符(代码和引用不计入)的情况下才会进入原创系统评分,短文或者简单的问答不会进行评分。

实现细节

原创性我们是通过搜索引擎后验实现评分判断的:

  1. 根据内容 HTML 提取若干段纯文本短句
  2. 将这些短句通过搜索引擎查询,结果排除站内索引,每个短句根据重复搜索引擎重复次数进行评分,其中搜索引擎收录时间和发帖时间的差值会作为一个重要的权重项
  3. 根据每个短句的评分得到该帖的平均原创评分

我们会不断调整原创系统的评分算法,大家可随时跟帖提建议。

黑客派绝不会成为一个内容农场(Content Farm),这里以后会有越来越多有价值的讨论。

  • 链滴

    链滴是一个记录生活的地方。

    记录生活,连接点滴

    49 引用 • 3134 回帖
  • 系统公告

    B3log 社区相关的重要公告,比如新特性上线,运营策略调整等。

    39 引用 • 3451 回帖 • 671 关注
1 操作
88250 在 2019-12-19 19:58:29 更新了该帖

广告 我要投放

优质回帖
  • KylinShaw 1 4 赞同

    支持,现在烦死了 csdn,现在搜索一个问题,csdn 上各种转载,点开好几个都是相同的内容,没有一点意义。

  • someone26671 1 1 赞同
    捐赠者

    那就放在个人 solo 里了,不同步黑客了,还有 20 多篇,刚抄 10 几篇 😂

  • InkDP 1
    捐赠者

    似乎从自己博客上推送上来的不会进入评分,比如我的这篇 go 语言圣经练习解答 -- 第三章 (本系列不定时更新)

65 回帖

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 88250
    订阅者 作者
    • 我们不担心 SEO,但担心大量的重复内容充斥在社区
    • 并没有限制作者自己全文转载发布,相反转载自己创作的内容在这里是受欢迎的,请看 https://hacpai.com/article/1440573175609

    1 回复
  • 其他回帖
  • 88250
    订阅者 作者
    1. 计算帖子长度时会剔除 <pre><code><blockquote> 还有空格等元素,之后转纯文本,超过 512 个字才会进入原创评分
    2. 发布前不做评分,发布后第一次浏览会进行评分
  • wizardforcel

    盲目追求新是不对的,新的东西不一定有用。

    一个正常的社区应该区分原创和转载,并且对(优质且不侵权的)转载也同样包容。黑客派上的很多内容就是别人通过调用 API 转过来的,无论是不是作者亲自转载,按这个标准就是转载。

    1 回复
  • zwxbest

    D 大,想问一下你是通过 Google 搜索的吗?Google 没有提供 搜索 API?我试过 Google custom search,是提供站内的,全网搜索只是增强,搜索结果和浏览器上搜差别很大,而且不支持整体搜索(就是用双引号括起来)。还有,想咨询一下你的文章筛选短句的算法?分句和选取?有用 TF/IDF 打分吗?

    1 回复
  • 查看全部回帖