数据从业者不能错过的 kaggle

本贴最后更新于 2149 天前,其中的信息可能已经天翻地覆

工作 5 年以来,有 3 年主要是从事数据分析岗位的,从编写 SQL 到报表展示,可以说是一个熟练工种,请注意,如果自己通过短时间的培训可以快速上手,那么别人也可以,说明这个岗位很大众,接下来就要培养自己的核心竞争力, 既然是核心竞争力,当然就是自己有,大多数人没有的能力,比如在一千个挑一个。在数据行业,核心竞争力就是能从数据中发现别人发现不了的价值。

数据提取、数据展示这些都是成为熟练工种后可以闭着眼睛干的,数据分析,比如说哪个指标上长升了,或者下降了,具体原因是什么,稍加分析,也不难做到,毕竟人人是事后诸葛亮。而有难度的,也更能体现数据价值的,就是数据预测。

没有数据,或者数据很少,则任何牛人都不可能预测出什么。数据预测的基础是大数据,数据之大,之多超越你的想象。一般数据来源于自身业务的积累,互联网上的爬虫(爬虫与反爬看谁更牛),以及程序模拟出的数据,实在不行还可以花钱买数据,现在各大数据平台都有数据可以购买。因此数据的获取也是一种能力,作为数据分析师如果你会爬虫,那么你能为公司节约不少获取数据的成本,这算是一个核心竞争力。

有了数据,这就看人的看家本领了,因此机器学习(ML)是少不了的。但机器学习的各种框架和工具现在已经满大街了,会的人只会越来越多,ML 工具的熟悉使用,很难作为核心竞争力。但工具的使用是基础,否则连怎么做都不知道。不仅要知道怎么做,还要知道为什么这么做,每一种算法都有自己的适应场景,可以解决特定场景的问题,因此对算法的选择和优化是核心竞争力。

当然,数据和英语好的也是种竞争力,玩算法的码农,打拼靠蓝条,像是法师,数学就等于蓝条最大值,数学差,魔法值不高,很快就到瓶颈了。英语影响回蓝速度,影响经验和智力加急速和穿透。

问题来了,这些核心竞争力如何训练出来呢?

工作中训练,别想了,具我所知数据分析工作在绝大多数公司其实就是取数员,无非是按照产品经理或老板的想法把该取的数据取出来,产品经理或老板自然会去分析和决策,数据分析每天忙于沟通和数据搬运,很少有人有时间去再学习,如果工作想出成绩,工作之余的再学习是非常必须的。

工作之余,数据从业者提升核心竞争力的平台是什么?

我想说的是 Kaggle,Kaggle 是一个数据建模和数据分析竞赛平台。企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。企业和研究者可以使用最好的模型解决难题,而统计学者和数据挖掘专家可能获得奖金,还可以获得影响力和工作机会。

想想吧,假如你学有所成,自己创作的模型可以通过这个平台服务于更多的企业,是不是达到一次劳动,服务多个企业的效果了呢? 假如你学无所成,只要在这个平台上多学习,这是不可能发生事件。这就是互联网思维,你的价值可以通过互联网放大 N 倍。

Kaggle 中组织一场竞赛的过程如下:

  1. 竞赛主持人准备数据和问题的描述。Kaggle 对这一过程以及竞赛的建构、数据的匿名化以及集成最终获胜的模型提供咨询服务。
  2. 参与者通过不同的方法进行实验,相互竞赛以获得最优的模型。对于大多数的参与者,他们的提交会根据预测精度被立即评分,并在实时的积分榜上显示。
  3. 在截止时间过后,竞赛主持人为“全球性的,永久性的,不可撤销和免版税地使用获奖作品”支付奖金。亦即竞赛获胜者的算法、软件和相关的知识产权是非排他性的,除非特别指明。

除了公开竞赛以外,Kaggle 还向活跃参与者提供私下的比赛,以及为大学团体提供 Kaggle-in-Class 项目。

Kaggle 有多牛,2017 被谷歌已经收购,后来加入谷歌云平台。根据 Kaggle 官方提供的数据,Kaggle 在全球范围内拥有将近 20 万名数据科学家,专业领域从计算机科学到统计学、经济学和数学。Kaggle 也曾经和 NASA、维基百科、德勤和好事达合作举办竞赛。其中的一项奖项高达 300 万美金的竞赛是 Heritage Health Prize,目的是通过病人看病及吃药住院等数据预测明年病人住院的天数。另一项与微软合作的竞赛则旨在提高 Kinect 的手势识别精度。

Google 首席经济师哈尔·范里安称 Kaggle 提供了一种“将全世界最有才能的数据科学家组织起来并使各种规模的机构都能够触及”的方式。

加入 Kaggle 与全世界最有才能的数据科学家一起共舞吧。

相关链接介绍:

kaggle 官方网站
谷歌宣布收购全球最大数据科学社区 Kaggle
Kaggle 比赛:如何以及从哪里开始

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 一些有用的避坑指南。

    69 引用 • 93 回帖 • 1 关注
  • API

    应用程序编程接口(Application Programming Interface)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

    79 引用 • 431 回帖 • 1 关注
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    181 引用 • 408 回帖 • 486 关注
  • 面试

    面试造航母,上班拧螺丝。多面试,少加班。

    325 引用 • 1395 回帖 • 2 关注
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖 • 1 关注
  • 音乐

    你听到信仰的声音了么?

    62 引用 • 512 回帖
  • MongoDB

    MongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是一个基于分布式文件存储的数据库,由 C++ 语言编写。旨在为应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似 JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。

    91 引用 • 59 回帖
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    35 引用 • 468 回帖 • 764 关注
  • Jenkins

    Jenkins 是一套开源的持续集成工具。它提供了非常丰富的插件,让构建、部署、自动化集成项目变得简单易用。

    54 引用 • 37 回帖 • 1 关注
  • 小说

    小说是以刻画人物形象为中心,通过完整的故事情节和环境描写来反映社会生活的文学体裁。

    32 引用 • 108 回帖
  • 百度

    百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文网站。2000 年 1 月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

    63 引用 • 785 回帖 • 93 关注
  • CentOS

    CentOS(Community Enterprise Operating System)是 Linux 发行版之一,它是来自于 Red Hat Enterprise Linux 依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定的服务器以 CentOS 替代商业版的 Red Hat Enterprise Linux 使用。两者的不同在于 CentOS 并不包含封闭源代码软件。

    239 引用 • 224 回帖
  • VirtualBox

    VirtualBox 是一款开源虚拟机软件,最早由德国 Innotek 公司开发,由 Sun Microsystems 公司出品的软件,使用 Qt 编写,在 Sun 被 Oracle 收购后正式更名成 Oracle VM VirtualBox。

    10 引用 • 2 回帖 • 16 关注
  • 浅吟主题

    Jeffrey Chen 制作的思源笔记主题,项目仓库:https://github.com/TCOTC/Whisper

    1 引用 • 28 回帖 • 1 关注
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    58 引用 • 25 回帖 • 3 关注
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    188 引用 • 319 回帖 • 251 关注
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    24 引用 • 241 回帖
  • 30Seconds

    📙 前端知识精选集,包含 HTML、CSS、JavaScript、React、Node、安全等方面,每天仅需 30 秒。

    • 精选常见面试题,帮助您准备下一次面试
    • 精选常见交互,帮助您拥有简洁酷炫的站点
    • 精选有用的 React 片段,帮助你获取最佳实践
    • 精选常见代码集,帮助您提高打码效率
    • 整理前端界的最新资讯,邀您一同探索新世界
    488 引用 • 384 回帖 • 9 关注
  • Solo

    Solo 是一款小而美的开源博客系统,专为程序员设计。Solo 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    1441 引用 • 10069 回帖 • 494 关注
  • 负能量

    上帝为你关上了一扇门,然后就去睡觉了....努力不一定能成功,但不努力一定很轻松 (° ー °〃)

    89 引用 • 1251 回帖 • 406 关注
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用 • 8 关注
  • 996
    13 引用 • 200 回帖 • 8 关注
  • 叶归
    8 引用 • 36 回帖 • 17 关注
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 61 关注
  • 职场

    找到自己的位置,萌新烦恼少。

    127 引用 • 1708 回帖
  • FFmpeg

    FFmpeg 是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。

    23 引用 • 32 回帖
  • abitmean

    有点意思就行了

    34 关注