数据从业者不能错过的 kaggle

本贴最后更新于 2323 天前,其中的信息可能已经天翻地覆

工作 5 年以来,有 3 年主要是从事数据分析岗位的,从编写 SQL 到报表展示,可以说是一个熟练工种,请注意,如果自己通过短时间的培训可以快速上手,那么别人也可以,说明这个岗位很大众,接下来就要培养自己的核心竞争力, 既然是核心竞争力,当然就是自己有,大多数人没有的能力,比如在一千个挑一个。在数据行业,核心竞争力就是能从数据中发现别人发现不了的价值。

数据提取、数据展示这些都是成为熟练工种后可以闭着眼睛干的,数据分析,比如说哪个指标上长升了,或者下降了,具体原因是什么,稍加分析,也不难做到,毕竟人人是事后诸葛亮。而有难度的,也更能体现数据价值的,就是数据预测。

没有数据,或者数据很少,则任何牛人都不可能预测出什么。数据预测的基础是大数据,数据之大,之多超越你的想象。一般数据来源于自身业务的积累,互联网上的爬虫(爬虫与反爬看谁更牛),以及程序模拟出的数据,实在不行还可以花钱买数据,现在各大数据平台都有数据可以购买。因此数据的获取也是一种能力,作为数据分析师如果你会爬虫,那么你能为公司节约不少获取数据的成本,这算是一个核心竞争力。

有了数据,这就看人的看家本领了,因此机器学习(ML)是少不了的。但机器学习的各种框架和工具现在已经满大街了,会的人只会越来越多,ML 工具的熟悉使用,很难作为核心竞争力。但工具的使用是基础,否则连怎么做都不知道。不仅要知道怎么做,还要知道为什么这么做,每一种算法都有自己的适应场景,可以解决特定场景的问题,因此对算法的选择和优化是核心竞争力。

当然,数据和英语好的也是种竞争力,玩算法的码农,打拼靠蓝条,像是法师,数学就等于蓝条最大值,数学差,魔法值不高,很快就到瓶颈了。英语影响回蓝速度,影响经验和智力加急速和穿透。

问题来了,这些核心竞争力如何训练出来呢?

工作中训练,别想了,具我所知数据分析工作在绝大多数公司其实就是取数员,无非是按照产品经理或老板的想法把该取的数据取出来,产品经理或老板自然会去分析和决策,数据分析每天忙于沟通和数据搬运,很少有人有时间去再学习,如果工作想出成绩,工作之余的再学习是非常必须的。

工作之余,数据从业者提升核心竞争力的平台是什么?

我想说的是 Kaggle,Kaggle 是一个数据建模和数据分析竞赛平台。企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。企业和研究者可以使用最好的模型解决难题,而统计学者和数据挖掘专家可能获得奖金,还可以获得影响力和工作机会。

想想吧,假如你学有所成,自己创作的模型可以通过这个平台服务于更多的企业,是不是达到一次劳动,服务多个企业的效果了呢? 假如你学无所成,只要在这个平台上多学习,这是不可能发生事件。这就是互联网思维,你的价值可以通过互联网放大 N 倍。

Kaggle 中组织一场竞赛的过程如下:

  1. 竞赛主持人准备数据和问题的描述。Kaggle 对这一过程以及竞赛的建构、数据的匿名化以及集成最终获胜的模型提供咨询服务。
  2. 参与者通过不同的方法进行实验,相互竞赛以获得最优的模型。对于大多数的参与者,他们的提交会根据预测精度被立即评分,并在实时的积分榜上显示。
  3. 在截止时间过后,竞赛主持人为“全球性的,永久性的,不可撤销和免版税地使用获奖作品”支付奖金。亦即竞赛获胜者的算法、软件和相关的知识产权是非排他性的,除非特别指明。

除了公开竞赛以外,Kaggle 还向活跃参与者提供私下的比赛,以及为大学团体提供 Kaggle-in-Class 项目。

Kaggle 有多牛,2017 被谷歌已经收购,后来加入谷歌云平台。根据 Kaggle 官方提供的数据,Kaggle 在全球范围内拥有将近 20 万名数据科学家,专业领域从计算机科学到统计学、经济学和数学。Kaggle 也曾经和 NASA、维基百科、德勤和好事达合作举办竞赛。其中的一项奖项高达 300 万美金的竞赛是 Heritage Health Prize,目的是通过病人看病及吃药住院等数据预测明年病人住院的天数。另一项与微软合作的竞赛则旨在提高 Kinect 的手势识别精度。

Google 首席经济师哈尔·范里安称 Kaggle 提供了一种“将全世界最有才能的数据科学家组织起来并使各种规模的机构都能够触及”的方式。

加入 Kaggle 与全世界最有才能的数据科学家一起共舞吧。

相关链接介绍:

kaggle 官方网站
谷歌宣布收购全球最大数据科学社区 Kaggle
Kaggle 比赛:如何以及从哪里开始

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • RIP

    愿逝者安息!

    8 引用 • 92 回帖 • 423 关注
  • FreeMarker

    FreeMarker 是一款好用且功能强大的 Java 模版引擎。

    23 引用 • 20 回帖 • 477 关注
  • WebSocket

    WebSocket 是 HTML5 中定义的一种新协议,它实现了浏览器与服务器之间的全双工通信(full-duplex)。

    48 引用 • 206 回帖 • 285 关注
  • Follow
    4 引用 • 12 回帖 • 17 关注
  • 书籍

    宋真宗赵恒曾经说过:“书中自有黄金屋,书中自有颜如玉。”

    85 引用 • 414 回帖 • 1 关注
  • Ruby

    Ruby 是一种开源的面向对象程序设计的服务器端脚本语言,在 20 世纪 90 年代中期由日本的松本行弘(まつもとゆきひろ/Yukihiro Matsumoto)设计并开发。在 Ruby 社区,松本也被称为马茨(Matz)。

    7 引用 • 31 回帖 • 280 关注
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 22 关注
  • PWA

    PWA(Progressive Web App)是 Google 在 2015 年提出、2016 年 6 月开始推广的项目。它结合了一系列现代 Web 技术,在网页应用中实现和原生应用相近的用户体验。

    14 引用 • 69 回帖 • 179 关注
  • Office

    Office 现已更名为 Microsoft 365. Microsoft 365 将高级 Office 应用(如 Word、Excel 和 PowerPoint)与 1 TB 的 OneDrive 云存储空间、高级安全性等结合在一起,可帮助你在任何设备上完成操作。

    6 引用 • 35 回帖
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    91 引用 • 113 回帖
  • 30Seconds

    📙 前端知识精选集,包含 HTML、CSS、JavaScript、React、Node、安全等方面,每天仅需 30 秒。

    • 精选常见面试题,帮助您准备下一次面试
    • 精选常见交互,帮助您拥有简洁酷炫的站点
    • 精选有用的 React 片段,帮助你获取最佳实践
    • 精选常见代码集,帮助您提高打码效率
    • 整理前端界的最新资讯,邀您一同探索新世界
    488 引用 • 384 回帖 • 4 关注
  • HTML

    HTML5 是 HTML 下一个的主要修订版本,现在仍处于发展阶段。广义论及 HTML5 时,实际指的是包括 HTML、CSS 和 JavaScript 在内的一套技术组合。

    108 引用 • 295 回帖 • 1 关注
  • Electron

    Electron 基于 Chromium 和 Node.js,让你可以使用 HTML、CSS 和 JavaScript 构建应用。它是一个由 GitHub 及众多贡献者组成的活跃社区共同维护的开源项目,兼容 Mac、Windows 和 Linux,它构建的应用可在这三个操作系统上面运行。

    16 引用 • 143 回帖 • 2 关注
  • FlowUs

    FlowUs.息流 个人及团队的新一代生产力工具。

    让复杂的信息管理更轻松、自由、充满创意。

    1 引用 • 1 关注
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 681 关注
  • jQuery

    jQuery 是一套跨浏览器的 JavaScript 库,强化 HTML 与 JavaScript 之间的操作。由 John Resig 在 2006 年 1 月的 BarCamp NYC 上释出第一个版本。全球约有 28% 的网站使用 jQuery,是非常受欢迎的 JavaScript 库。

    63 引用 • 134 回帖 • 739 关注
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖 • 2 关注
  • 互联网

    互联网(Internet),又称网际网络,或音译因特网、英特网。互联网始于 1969 年美国的阿帕网,是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。

    98 引用 • 367 回帖
  • 一些有用的避坑指南。

    69 引用 • 93 回帖
  • IPFS

    IPFS(InterPlanetary File System,星际文件系统)是永久的、去中心化保存和共享文件的方法,这是一种内容可寻址、版本化、点对点超媒体的分布式协议。请浏览 IPFS 入门笔记了解更多细节。

    20 引用 • 245 回帖 • 237 关注
  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    417 引用 • 3604 回帖 • 1 关注
  • V2Ray
    1 引用 • 15 回帖
  • App

    App(应用程序,Application 的缩写)一般指手机软件。

    91 引用 • 384 回帖 • 1 关注
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖
  • SEO

    发布对别人有帮助的原创内容是最好的 SEO 方式。

    36 引用 • 200 回帖 • 52 关注
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 62 关注
  • 创业

    你比 99% 的人都优秀么?

    81 引用 • 1395 回帖