数据从业者不能错过的 kaggle

本贴最后更新于 1980 天前,其中的信息可能已经天翻地覆

工作 5 年以来,有 3 年主要是从事数据分析岗位的,从编写 SQL 到报表展示,可以说是一个熟练工种,请注意,如果自己通过短时间的培训可以快速上手,那么别人也可以,说明这个岗位很大众,接下来就要培养自己的核心竞争力, 既然是核心竞争力,当然就是自己有,大多数人没有的能力,比如在一千个挑一个。在数据行业,核心竞争力就是能从数据中发现别人发现不了的价值。

数据提取、数据展示这些都是成为熟练工种后可以闭着眼睛干的,数据分析,比如说哪个指标上长升了,或者下降了,具体原因是什么,稍加分析,也不难做到,毕竟人人是事后诸葛亮。而有难度的,也更能体现数据价值的,就是数据预测。

没有数据,或者数据很少,则任何牛人都不可能预测出什么。数据预测的基础是大数据,数据之大,之多超越你的想象。一般数据来源于自身业务的积累,互联网上的爬虫(爬虫与反爬看谁更牛),以及程序模拟出的数据,实在不行还可以花钱买数据,现在各大数据平台都有数据可以购买。因此数据的获取也是一种能力,作为数据分析师如果你会爬虫,那么你能为公司节约不少获取数据的成本,这算是一个核心竞争力。

有了数据,这就看人的看家本领了,因此机器学习(ML)是少不了的。但机器学习的各种框架和工具现在已经满大街了,会的人只会越来越多,ML 工具的熟悉使用,很难作为核心竞争力。但工具的使用是基础,否则连怎么做都不知道。不仅要知道怎么做,还要知道为什么这么做,每一种算法都有自己的适应场景,可以解决特定场景的问题,因此对算法的选择和优化是核心竞争力。

当然,数据和英语好的也是种竞争力,玩算法的码农,打拼靠蓝条,像是法师,数学就等于蓝条最大值,数学差,魔法值不高,很快就到瓶颈了。英语影响回蓝速度,影响经验和智力加急速和穿透。

问题来了,这些核心竞争力如何训练出来呢?

工作中训练,别想了,具我所知数据分析工作在绝大多数公司其实就是取数员,无非是按照产品经理或老板的想法把该取的数据取出来,产品经理或老板自然会去分析和决策,数据分析每天忙于沟通和数据搬运,很少有人有时间去再学习,如果工作想出成绩,工作之余的再学习是非常必须的。

工作之余,数据从业者提升核心竞争力的平台是什么?

我想说的是 Kaggle,Kaggle 是一个数据建模和数据分析竞赛平台。企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。企业和研究者可以使用最好的模型解决难题,而统计学者和数据挖掘专家可能获得奖金,还可以获得影响力和工作机会。

想想吧,假如你学有所成,自己创作的模型可以通过这个平台服务于更多的企业,是不是达到一次劳动,服务多个企业的效果了呢? 假如你学无所成,只要在这个平台上多学习,这是不可能发生事件。这就是互联网思维,你的价值可以通过互联网放大 N 倍。

Kaggle 中组织一场竞赛的过程如下:

  1. 竞赛主持人准备数据和问题的描述。Kaggle 对这一过程以及竞赛的建构、数据的匿名化以及集成最终获胜的模型提供咨询服务。
  2. 参与者通过不同的方法进行实验,相互竞赛以获得最优的模型。对于大多数的参与者,他们的提交会根据预测精度被立即评分,并在实时的积分榜上显示。
  3. 在截止时间过后,竞赛主持人为“全球性的,永久性的,不可撤销和免版税地使用获奖作品”支付奖金。亦即竞赛获胜者的算法、软件和相关的知识产权是非排他性的,除非特别指明。

除了公开竞赛以外,Kaggle 还向活跃参与者提供私下的比赛,以及为大学团体提供 Kaggle-in-Class 项目。

Kaggle 有多牛,2017 被谷歌已经收购,后来加入谷歌云平台。根据 Kaggle 官方提供的数据,Kaggle 在全球范围内拥有将近 20 万名数据科学家,专业领域从计算机科学到统计学、经济学和数学。Kaggle 也曾经和 NASA、维基百科、德勤和好事达合作举办竞赛。其中的一项奖项高达 300 万美金的竞赛是 Heritage Health Prize,目的是通过病人看病及吃药住院等数据预测明年病人住院的天数。另一项与微软合作的竞赛则旨在提高 Kinect 的手势识别精度。

Google 首席经济师哈尔·范里安称 Kaggle 提供了一种“将全世界最有才能的数据科学家组织起来并使各种规模的机构都能够触及”的方式。

加入 Kaggle 与全世界最有才能的数据科学家一起共舞吧。

相关链接介绍:

kaggle 官方网站
谷歌宣布收购全球最大数据科学社区 Kaggle
Kaggle 比赛:如何以及从哪里开始

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Openfire

    Openfire 是开源的、基于可拓展通讯和表示协议 (XMPP)、采用 Java 编程语言开发的实时协作服务器。Openfire 的效率很高,单台服务器可支持上万并发用户。

    6 引用 • 7 回帖 • 95 关注
  • AngularJS

    AngularJS 诞生于 2009 年,由 Misko Hevery 等人创建,后为 Google 所收购。是一款优秀的前端 JS 框架,已经被用于 Google 的多款产品当中。AngularJS 有着诸多特性,最为核心的是:MVC、模块化、自动化双向数据绑定、语义化标签、依赖注入等。2.0 版本后已经改名为 Angular。

    12 引用 • 50 回帖 • 474 关注
  • flomo

    flomo 是新一代 「卡片笔记」 ,专注在碎片化时代,促进你的记录,帮你积累更多知识资产。

    5 引用 • 107 回帖
  • danl
    132 关注
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有计划重制上线。

    14 引用 • 257 回帖 • 1 关注
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 357 关注
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    96 引用 • 155 回帖 • 2 关注
  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    32 引用 • 136 回帖 • 2 关注
  • OAuth

    OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。

    36 引用 • 103 回帖 • 9 关注
  • OnlyOffice
    4 引用 • 3 关注
  • Unity

    Unity 是由 Unity Technologies 开发的一个让开发者可以轻松创建诸如 2D、3D 多平台的综合型游戏开发工具,是一个全面整合的专业游戏引擎。

    25 引用 • 7 回帖 • 171 关注
  • RIP

    愿逝者安息!

    8 引用 • 92 回帖 • 351 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 328 关注
  • 服务器

    服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。

    125 引用 • 588 回帖
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 117 关注
  • SMTP

    SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式。SMTP 协议属于 TCP/IP 协议簇,它帮助每台计算机在发送或中转信件时找到下一个目的地。

    4 引用 • 18 回帖 • 617 关注
  • 快应用

    快应用 是基于手机硬件平台的新型应用形态;标准是由主流手机厂商组成的快应用联盟联合制定;快应用标准的诞生将在研发接口、能力接入、开发者服务等层面建设标准平台;以平台化的生态模式对个人开发者和企业开发者全品类开放。

    15 引用 • 127 回帖 • 1 关注
  • WiFiDog

    WiFiDog 是一套开源的无线热点认证管理工具,主要功能包括:位置相关的内容递送;用户认证和授权;集中式网络监控。

    1 引用 • 7 回帖 • 590 关注
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    47 引用 • 25 回帖
  • PostgreSQL

    PostgreSQL 是一款功能强大的企业级数据库系统,在 BSD 开源许可证下发布。

    22 引用 • 22 回帖
  • Tomcat

    Tomcat 最早是由 Sun Microsystems 开发的一个 Servlet 容器,在 1999 年被捐献给 ASF(Apache Software Foundation),隶属于 Jakarta 项目,现在已经独立为一个顶级项目。Tomcat 主要实现了 JavaEE 中的 Servlet、JSP 规范,同时也提供 HTTP 服务,是市场上非常流行的 Java Web 容器。

    162 引用 • 529 回帖
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖 • 1 关注
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 16 关注
  • 七牛云

    七牛云是国内领先的企业级公有云服务商,致力于打造以数据为核心的场景化 PaaS 服务。围绕富媒体场景,七牛先后推出了对象存储,融合 CDN 加速,数据通用处理,内容反垃圾服务,以及直播云服务等。

    27 引用 • 225 回帖 • 168 关注
  • 深度学习

    深度学习(Deep Learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

    53 引用 • 40 回帖
  • 又拍云

    又拍云是国内领先的 CDN 服务提供商,国家工信部认证通过的“可信云”,乌云众测平台认证的“安全云”,为移动时代的创业者提供新一代的 CDN 加速服务。

    21 引用 • 37 回帖 • 547 关注
  • LaTeX

    LaTeX(音译“拉泰赫”)是一种基于 ΤΕΧ 的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在 20 世纪 80 年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由 TeX 所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。

    12 引用 • 54 回帖 • 62 关注