原创系统

本贴最后更新于 1551 天前,其中的信息可能已经斗转星移

原创的重要性

这里是一个注重原创内容分享和讨论的地方,这里不欢迎全文转载,即使是授权转载。

为了让“注重原创”这件事落地,我们上线了“原创系统”来对帖子进行原创性评分,分值越低原创性也越低:

  1. 10-50:基本是转载,灰色标识。这类内容在这里不受欢迎,并且有很大概率会被管理员删帖,40 分以下的帖子不会出现在全局列表上
  2. 60:大部分是转载,浅灰色标识。这类内容大部分都是摘抄或是没有规范使用“引用”
  3. 70:少部分摘抄转载,绿色标识。这类内容可能是没有规范使用“引用”导致,需要认真排版
  4. 80:极少部分摘抄,蓝色标识。这类内容可能是没有规范使用“引用”导致,需要认真排版,是不错的原创内容
  5. 90:个别术语或短语摘抄,紫色标识。这类内容是很受欢迎的原创内容,会在社区内部以及外部推荐转发
  6. 100:完全原创,橙色标识。这类内容是最受欢迎的原创内容,排版优秀且具有很大价值

目前只有在超过 1024 字符(代码和引用不计入)的情况下才会进入原创系统评分,短文或者简单的问答不会进行评分。

实现细节

原创性我们是通过搜索引擎后验实现评分判断的:

  1. 根据内容 HTML 提取若干段纯文本短句
  2. 将这些短句通过搜索引擎查询,结果排除站内索引,每个短句根据重复搜索引擎重复次数进行评分,其中搜索引擎收录时间和发帖时间的差值会作为一个重要的权重项
  3. 根据每个短句的评分得到该帖的平均原创评分

我们会不断调整原创系统的评分算法,大家可随时跟帖提建议。

这里绝不会成为一个内容农场(Content Farm),这里以后会有越来越多有价值的讨论。

  • 链滴

    链滴是一个记录生活的地方。

    记录生活,连接点滴

    124 引用 • 3607 回帖 • 2 关注
  • 系统公告

    B3log 社区相关的重要公告,比如新特性上线,运营策略调整等。

    39 引用 • 3568 回帖 • 678 关注
1 操作
88250 在 2019-12-19 19:58:29 更新了该帖

相关帖子

优质回帖
65 回帖

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • jeffjade 1

    哎哟,又一个很棒的功能;抽空我要发帖评测下看看。

  • caijunyi 1

    支持 d 大

  • YxxXlv0COaxl 1

    首先就建议一下,
    应该把原创指数显示在帖子的最上方位置,既然标识出来就应该稍微突出一下,增加辨识度.

    同时为了增加辨识度,
    原创性高的,可以在帖子列表中着重标识出来,

  • YxxXlv0COaxl

    你用百度不靠谱啊
    这篇竟然是百分百原创 💢 ❓
    机器学习经典论文 站内 站外

    1 回复
  • zwxbest 1

    10-50 分的文章是不是可以不用同步过来了。

    1 回复
  • 88250

    会继续调整的 😂

  • 88250

    是的,等这个系统机制稳定一些以后会加入发帖过滤。

  • KylinShaw 1 4 赞同

    支持,现在烦死了 csdn,现在搜索一个问题,csdn 上各种转载,点开好几个都是相同的内容,没有一点意义。

    1 回复
  • clenji

    有没有提供个测试的

    1 回复
  • 88250

    可以发篇帖子测试。

  • xiaopo

    Google 能过滤网站,百度的话,用 '-msdn' 就可以了

  • Eddie

    怎么区分别人转载了自己的文章,结果搜索引擎权重比自己的还高。

    1 回复
  • 88250

    通过时间区别,如果发帖时间早于搜索引擎返回的抓取时间,则时间项权重更大。

  • wenandlu

    是不是原创这东西,还是用人为判断比较靠谱。就像是论文查重一下,难道别人有过的思想,我就不能产生点新的感悟么。

    2 回复
  • 88250

    新的感悟不能靠搬运产生。

    1 回复
  • YxxXlv0COaxl

    你没看到网站存在某些用户批量刷帖的情况吗
    那些全都是批量全文转载.毫无意义,而且都是机器操作,
    对网站没有任何价值和意义

  • DevYui 1

    加油黑客派,加油大 D!

  • nuaa123

    如果发的帖子主要是截的图片,图片里的文字大量摘抄的,这个系统能评出分来嘛?

    1 回复
  • 88250

    你说得好像很有道理 😅 这个暂时靠人肉吧,以后如果这样的情况多了就加个 OCR 转文字然后再识别。

    1 回复
  • nuaa123

    回去我发篇帖子试一试 😋

  • TheNow

    😋

  • zwxbest

    请问我的这篇为什么没有标识?是 code 块不参与字数统计吗?
    https://hacpai.com/article/1545053651618
    大概什么时候会评分?是定时还是发帖的时候就评分

    1 回复
  • 88250
    1. 计算帖子长度时会剔除 <pre><code><blockquote> 还有空格等元素,之后转纯文本,超过 512 个字才会进入原创评分
    2. 发布前不做评分,发布后第一次浏览会进行评分
  • wizardforcel

    盲目追求新是不对的,新的东西不一定有用。

    一个正常的社区应该区分原创和转载,并且对(优质且不侵权的)转载也同样包容。黑客派上的很多内容就是别人通过调用 API 转过来的,无论是不是作者亲自转载,按这个标准就是转载。

    1 回复
  • 88250 1

    全文转载是坚决抵制的,除非是发帖者自己原创。这几天已经陆续删除了 4K 多篇通过博客同步过来的全文转载文章,现在已经在博客同步社区时加入了原创拦截机制,以后评分 50 以下的内容不会进入到社区中。

    2 回复
  • wizardforcel

    如果你非得逼着创作者在你的社区和其它平台之间做两难选择(而其它平台不会这样),你的社区有什么条件或者回报能留住创作者?

    1 回复
  • 88250

    创作者可以全文转载自己的原创内容到这里,这是受欢迎的。我抵制的是那种从网络上复制粘贴的行为,如果要分享别人的内容,帖链接即可。

    2 回复
  • wizardforcel

    祝你好运。。

  • EvilCodes

    csdn 东西很多,但好多僵尸博客,找到精品帖,有价值的好帖子很难。

  • EvilCodes

    D 哥这个功能加的太有意义了

  • EvilCodes

    咱们的黑客派就应该有和其他社区不一样的东西才行

  • pangwen

    这真是超赞的功能,虽然我很 low,也创作不出啥东西 😋

  • washmore

    数据最好还是放在那里,万一哪天算法更新了从 49 变 59 了呢?可以选择性展示

    1 回复
  • 88250

    是有这个可能性,感谢建议,后续会不断调整的。

  • wyman0520

    不是很清楚怎么评判呀,我的这篇《总结》可以说是百分百原创 https://hacpai.com/article/1546589340807

    1 回复
  • 88250

    如果不是在黑客派上首发,原创指数会有影响,因为基本原理是从搜索引擎查询,如果发现其他地方已经收录了,原创指数就会降低。

    我并不是有意强迫大家在这里首发内容,本意是通过这个机制过滤掉大部分复制粘贴的内容,存在“误杀”情况实在是抱歉了,我会继续思考这方面的改进 🙏

    1 回复
  • 我从极客时间买的数据结构与算法课程,发到黑客派上了,这样会不会侵权,文章里的字真的是一个一个打的,不是复制粘贴的。

    1 回复
  • 88250

    你看下原文的授权协议。

    1 回复
  • 额,我就分享吧,扔着都废了,不如让大家都看看
    20190113114556png

    1 回复
  • 88250

    未经许可不得转载

    你这不是让我左右为难么。

    1 回复
  • someone26671 1 1 赞同

    那就放在个人 solo 里了,不同步黑客了,还有 20 多篇,刚抄 10 几篇 😂

  • wmatrix

    百度搜索引擎也应该学学采用这样的设计了,各种转载严重影响搜索体验的说

  • vimtutor 1

    感觉分数的计算确实不是很准,不过没关系,大家都等着站长慢慢完善!

  • upaths

    可以设置自动推送吗

    1 回复
  • 88250

    什么自动推送?

  • upaths

    就是写完博客,自动就推送了,现在的功能推送之后都没有标记,难道可以重复推送?

    1 回复
  • 88250

    可以重复推送的,如果已存在会更新,不存在就新建。

  • InkDP 1

    似乎从自己博客上推送上来的不会进入评分,比如我的这篇 go 语言圣经练习解答 -- 第三章 (本系列不定时更新)

    1 回复
  • 88250

    因为你这篇除去引用和代码块就没有多少字符了。

  • InkDP 1

    删了代码还有 1000 多呢

    1 回复
请输入回帖内容 ...

推荐标签 标签

  • 安全

    安全永远都不是一个小问题。

    189 引用 • 813 回帖 • 14 关注
  • 设计模式

    设计模式(Design pattern)代表了最佳的实践,通常被有经验的面向对象的软件开发人员所采用。设计模式是软件开发人员在软件开发过程中面临的一般问题的解决方案。这些解决方案是众多软件开发人员经过相当长的一段时间的试验和错误总结出来的。

    198 引用 • 120 回帖
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    159 引用 • 469 回帖
  • AngularJS

    AngularJS 诞生于 2009 年,由 Misko Hevery 等人创建,后为 Google 所收购。是一款优秀的前端 JS 框架,已经被用于 Google 的多款产品当中。AngularJS 有着诸多特性,最为核心的是:MVC、模块化、自动化双向数据绑定、语义化标签、依赖注入等。2.0 版本后已经改名为 Angular。

    12 引用 • 50 回帖 • 407 关注
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 340 关注
  • VirtualBox

    VirtualBox 是一款开源虚拟机软件,最早由德国 Innotek 公司开发,由 Sun Microsystems 公司出品的软件,使用 Qt 编写,在 Sun 被 Oracle 收购后正式更名成 Oracle VM VirtualBox。

    10 引用 • 2 回帖 • 3 关注
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 23 关注
  • RabbitMQ

    RabbitMQ 是一个开源的 AMQP 实现,服务器端用 Erlang 语言编写,支持多种语言客户端,如:Python、Ruby、.NET、Java、C、PHP、ActionScript 等。用于在分布式系统中存储转发消息,在易用性、扩展性、高可用性等方面表现不俗。

    49 引用 • 60 回帖 • 405 关注
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖 • 1 关注
  • 一些有用的避坑指南。

    69 引用 • 93 回帖
  • 快应用

    快应用 是基于手机硬件平台的新型应用形态;标准是由主流手机厂商组成的快应用联盟联合制定;快应用标准的诞生将在研发接口、能力接入、开发者服务等层面建设标准平台;以平台化的生态模式对个人开发者和企业开发者全品类开放。

    15 引用 • 127 回帖 • 4 关注
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    51 引用 • 190 回帖 • 1 关注
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    7 引用 • 30 回帖 • 462 关注
  • Java

    Java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的。Java 技术具有卓越的通用性、高效性、平台移植性和安全性。

    3164 引用 • 8206 回帖
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖 • 21 关注
  • Swift

    Swift 是苹果于 2014 年 WWDC(苹果开发者大会)发布的开发语言,可与 Objective-C 共同运行于 Mac OS 和 iOS 平台,用于搭建基于苹果平台的应用程序。

    34 引用 • 37 回帖 • 496 关注
  • GitHub

    GitHub 于 2008 年上线,目前,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。正因为这些功能所提供的便利,又经过长期的积累,GitHub 的用户活跃度很高,在开源世界里享有深远的声望,并形成了社交化编程文化(Social Coding)。

    207 引用 • 2031 回帖
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖
  • 开源中国

    开源中国是目前中国最大的开源技术社区。传播开源的理念,推广开源项目,为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。目前开源中国社区已收录超过两万款开源软件。

    7 引用 • 86 回帖 • 1 关注
  • Scala

    Scala 是一门多范式的编程语言,集成面向对象编程和函数式编程的各种特性。

    13 引用 • 11 回帖 • 101 关注
  • ngrok

    ngrok 是一个反向代理,通过在公共的端点和本地运行的 Web 服务器之间建立一个安全的通道。

    7 引用 • 63 回帖 • 596 关注
  • SMTP

    SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式。SMTP 协议属于 TCP/IP 协议簇,它帮助每台计算机在发送或中转信件时找到下一个目的地。

    4 引用 • 18 回帖 • 579 关注
  • Markdown

    Markdown 是一种轻量级标记语言,用户可使用纯文本编辑器来排版文档,最终通过 Markdown 引擎将文档转换为所需格式(比如 HTML、PDF 等)。

    162 引用 • 1439 回帖
  • IPFS

    IPFS(InterPlanetary File System,星际文件系统)是永久的、去中心化保存和共享文件的方法,这是一种内容可寻址、版本化、点对点超媒体的分布式协议。请浏览 IPFS 入门笔记了解更多细节。

    20 引用 • 245 回帖 • 237 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    169 引用 • 799 回帖 • 1 关注
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖 • 9 关注
  • Kotlin

    Kotlin 是一种在 Java 虚拟机上运行的静态类型编程语言,由 JetBrains 设计开发并开源。Kotlin 可以编译成 Java 字节码,也可以编译成 JavaScript,方便在没有 JVM 的设备上运行。在 Google I/O 2017 中,Google 宣布 Kotlin 成为 Android 官方开发语言。

    19 引用 • 33 回帖 • 23 关注