原创系统

本贴最后更新于 1812 天前,其中的信息可能已经斗转星移

原创的重要性

这里是一个注重原创内容分享和讨论的地方,这里不欢迎全文转载,即使是授权转载。

为了让“注重原创”这件事落地,我们上线了“原创系统”来对帖子进行原创性评分,分值越低原创性也越低:

  1. 10-50:基本是转载,灰色标识。这类内容在这里不受欢迎,并且有很大概率会被管理员删帖,40 分以下的帖子不会出现在全局列表上
  2. 60:大部分是转载,浅灰色标识。这类内容大部分都是摘抄或是没有规范使用“引用”
  3. 70:少部分摘抄转载,绿色标识。这类内容可能是没有规范使用“引用”导致,需要认真排版
  4. 80:极少部分摘抄,蓝色标识。这类内容可能是没有规范使用“引用”导致,需要认真排版,是不错的原创内容
  5. 90:个别术语或短语摘抄,紫色标识。这类内容是很受欢迎的原创内容,会在社区内部以及外部推荐转发
  6. 100:完全原创,橙色标识。这类内容是最受欢迎的原创内容,排版优秀且具有很大价值

目前只有在超过 1024 字符(代码和引用不计入)的情况下才会进入原创系统评分,短文或者简单的问答不会进行评分。

实现细节

原创性我们是通过搜索引擎后验实现评分判断的:

  1. 根据内容 HTML 提取若干段纯文本短句
  2. 将这些短句通过搜索引擎查询,结果排除站内索引,每个短句根据重复搜索引擎重复次数进行评分,其中搜索引擎收录时间和发帖时间的差值会作为一个重要的权重项
  3. 根据每个短句的评分得到该帖的平均原创评分

我们会不断调整原创系统的评分算法,大家可随时跟帖提建议。

这里绝不会成为一个内容农场(Content Farm),这里以后会有越来越多有价值的讨论。

  • 链滴

    链滴是一个记录生活的地方。

    记录生活,连接点滴

    154 引用 • 3788 回帖
  • 系统公告

    B3log 社区相关的重要公告,比如新特性上线,运营策略调整等。

    39 引用 • 3580 回帖 • 681 关注
1 操作
88250 在 2019-12-19 19:58:29 更新了该帖

相关帖子

优质回帖
65 回帖

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 我从极客时间买的数据结构与算法课程,发到黑客派上了,这样会不会侵权,文章里的字真的是一个一个打的,不是复制粘贴的。

    1 回复
  • 其他回帖
  • zwxbest

    bing 对短语的精确搜索有问题,就是双引号括起来的短语。Google 是很准确的。

    测试了一下,按照短语拆分搜索(默认就是拆分的),比按照短句精确搜索的准确度低不少。目前希望按照短句精确搜索。

    bing 的方案好像也不行,我想的折中的方式是爬 Google 镜像,把镜像当作代理。爬 Google 太容易被封 ip 了。这块问一下您的见解。

    2 回复
  • YxxXlv0COaxl

    你用百度不靠谱啊
    这篇竟然是百分百原创 💢 ❓
    机器学习经典论文 站内 站外

    1 回复
  • zwxbest

    D 大,想问一下你是通过 Google 搜索的吗?Google 没有提供 搜索 API?我试过 Google custom search,是提供站内的,全网搜索只是增强,搜索结果和浏览器上搜差别很大,而且不支持整体搜索(就是用双引号括起来)。还有,想咨询一下你的文章筛选短句的算法?分句和选取?有用 TF/IDF 打分吗?

    1 回复
  • 查看全部回帖

推荐标签 标签

  • Vue.js

    Vue.js(读音 /vju ː/,类似于 view)是一个构建数据驱动的 Web 界面库。Vue.js 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件。

    266 引用 • 666 回帖
  • Shell

    Shell 脚本与 Windows/Dos 下的批处理相似,也就是用各类命令预先放入到一个文件中,方便一次性执行的一个程序文件,主要是方便管理员进行设置或者管理用的。但是它比 Windows 下的批处理更强大,比用其他编程程序编辑的程序效率更高,因为它使用了 Linux/Unix 下的命令。

    123 引用 • 74 回帖 • 1 关注
  • 自由行
    13 关注
  • jsDelivr

    jsDelivr 是一个开源的 CDN 服务,可为 npm 包、GitHub 仓库提供免费、快速并且可靠的全球 CDN 加速服务。

    5 引用 • 31 回帖 • 68 关注
  • Google

    Google(Google Inc.,NASDAQ:GOOG)是一家美国上市公司(公有股份公司),于 1998 年 9 月 7 日以私有股份公司的形式创立,设计并管理一个互联网搜索引擎。Google 公司的总部称作“Googleplex”,它位于加利福尼亚山景城。Google 目前被公认为是全球规模最大的搜索引擎,它提供了简单易用的免费服务。不作恶(Don't be evil)是谷歌公司的一项非正式的公司口号。

    49 引用 • 192 回帖
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    343 引用 • 719 回帖
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 320 关注
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 669 关注
  • 链滴

    链滴是一个记录生活的地方。

    记录生活,连接点滴

    154 引用 • 3788 回帖
  • BookxNote

    BookxNote 是一款全新的电子书学习工具,助力您的学习与思考,让您的大脑更高效的记忆。

    笔记整理交给我,一心只读圣贤书。

    1 引用 • 1 回帖
  • 正则表达式

    正则表达式(Regular Expression)使用单个字符串来描述、匹配一系列遵循某个句法规则的字符串。

    31 引用 • 94 回帖 • 1 关注
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 5 关注
  • Notion

    Notion - The all-in-one workspace for your notes, tasks, wikis, and databases.

    6 引用 • 38 回帖
  • Kafka

    Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是现代系统中许多功能的基础。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

    36 引用 • 35 回帖 • 2 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    177 引用 • 816 回帖 • 1 关注
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 112 关注
  • JavaScript

    JavaScript 一种动态类型、弱类型、基于原型的直译式脚本语言,内置支持类型。它的解释器被称为 JavaScript 引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在 HTML 网页上使用,用来给 HTML 网页增加动态功能。

    729 引用 • 1328 回帖
  • BND

    BND(Baidu Netdisk Downloader)是一款图形界面的百度网盘不限速下载器,支持 Windows、Linux 和 Mac,详细介绍请看这里

    107 引用 • 1281 回帖 • 36 关注
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖
  • GAE

    Google App Engine(GAE)是 Google 管理的数据中心中用于 WEB 应用程序的开发和托管的平台。2008 年 4 月 发布第一个测试版本。目前支持 Python、Java 和 Go 开发部署。全球已有数十万的开发者在其上开发了众多的应用。

    14 引用 • 42 回帖 • 768 关注
  • Markdown

    Markdown 是一种轻量级标记语言,用户可使用纯文本编辑器来排版文档,最终通过 Markdown 引擎将文档转换为所需格式(比如 HTML、PDF 等)。

    167 引用 • 1514 回帖 • 1 关注
  • 创造

    你创造的作品可能会帮助到很多人,如果是开源项目的话就更赞了!

    179 引用 • 996 回帖
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    570 引用 • 3533 回帖
  • 京东

    京东是中国最大的自营式电商企业,2015 年第一季度在中国自营式 B2C 电商市场的占有率为 56.3%。2014 年 5 月,京东在美国纳斯达克证券交易所正式挂牌上市(股票代码:JD),是中国第一个成功赴美上市的大型综合型电商平台,与腾讯、百度等中国互联网巨头共同跻身全球前十大互联网公司排行榜。

    14 引用 • 102 回帖 • 373 关注
  • Mobi.css

    Mobi.css is a lightweight, flexible CSS framework that focus on mobile.

    1 引用 • 6 回帖 • 739 关注
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖
  • Tomcat

    Tomcat 最早是由 Sun Microsystems 开发的一个 Servlet 容器,在 1999 年被捐献给 ASF(Apache Software Foundation),隶属于 Jakarta 项目,现在已经独立为一个顶级项目。Tomcat 主要实现了 JavaEE 中的 Servlet、JSP 规范,同时也提供 HTTP 服务,是市场上非常流行的 Java Web 容器。

    162 引用 • 529 回帖