私活:爬虫&电商

本贴最后更新于 3056 天前,其中的信息可能已经天翻地覆

设想是从美亚、6pm 等电商上把某些品牌的跑鞋 通过爬虫抓取下来,
并转存到自己的电商网站中

问 这个想法可以实现吗? 如果已经有电商、并且提供了 restful 接口、可以新增、修改商品 完成此需求 需要多少 RMB 和 时间?

  • 私活
    6 引用 • 64 回帖 • 2 关注
  • 电商
    6 引用 • 41 回帖
  • 跑鞋
    1 引用 • 15 回帖
  • 外包

    有空闲时间是接外包好呢还是学习好呢?

    26 引用 • 232 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 88250

    有这样接口的可能性不大。如果有接口就简单了, ¥5K,10 天吧~

    如果是页面爬取解析的话,就有点复杂了,还要摸索各种搜索条件,最重要的是每个站点的防爬机制不一样,可能还需要写代理池,¥20K,30 天。

  • zonghua

    人工智能???

  • Angonger

    @88250 好像干过的样子,你为了生存都做了什么

  • crick77
    作者

    @88250 页面抓取的话 不应该取决于抓哪个页面吗? 如果目标页面的内容布局修改了 还负责后续的维护吗

  • crick77
    作者

    @88250 可能没说清楚 接口是自己的电商网站提供的

  • relyn

    需要一次性爬还是说实时的爬

  • LyZane
    1. “某些品牌的跑鞋”是个什么概念?目标明确么?
    2. 数据量有多少?
    3. 数据更新 delay 最长是多久?
    4. 发现新商品的 delay 最长是多久?

    @88250 一句话的需求你也敢接?

  • 88250

    @participants 我不接,我只是来看看的.

  • LyZane

    【接上补充】

    1. 把“跑鞋”抓取下来是个什么概念?要哪些属性?
    2. 图片是直接外链还是要 download?
    3. 规格参数要不要格式化?
    4. 网站改版幅度太大的时候解析配置要更新,这个售后怎么算?
    5. 网站改变防采集策略导致程序要大改怎么算?
  • tomaer

    原站是否有 app,如果有就简单

  • LyZane

    @tomaer 为什么有 APP 就简单呢?有爬 APP 的方法么?

  • tomaer

    @DevAPI app 一般都是 rest 方式。只要你知道 rest 的地址和参数 不就简单多了。我有方法

  • sky_dhx

    我来接把, 实实在在的,我爬过淘宝的商品,

    直接几个问题 你回答就好,
    1.爬哪个网站,地址, 爬哪些东西, 例如 图片 名称价格。。。
    2.如果有手机端 app 的 则更简单,我直接取抓包获取他的 url
    3.获取的数据是每天都爬还是一次性爬,爬完了怎么导入你的数据库里面去,格式都是什么样的,或者 我获取到数据到某个数据库你定时来取,都行,大致这三个问题。
    价格 好商量, 工作量 预估 10-15 天搞定,我用 C# ,

  • sky_dhx

    看错了,居然是 1 年前的,估计早就结束了

    1 回复
  • crick77
    作者

    已经结束了,感谢你的回答。。 不过现在互联网金融当道,爬虫的前途还是不错的

请输入回帖内容 ...

推荐标签 标签

  • 外包

    有空闲时间是接外包好呢还是学习好呢?

    26 引用 • 232 回帖
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    186 引用 • 318 回帖 • 282 关注
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖
  • 创业

    你比 99% 的人都优秀么?

    85 引用 • 1399 回帖 • 1 关注
  • Mobi.css

    Mobi.css is a lightweight, flexible CSS framework that focus on mobile.

    1 引用 • 6 回帖 • 745 关注
  • 强迫症

    强迫症(OCD)属于焦虑障碍的一种类型,是一组以强迫思维和强迫行为为主要临床表现的神经精神疾病,其特点为有意识的强迫和反强迫并存,一些毫无意义、甚至违背自己意愿的想法或冲动反反复复侵入患者的日常生活。

    15 引用 • 161 回帖 • 3 关注
  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖
  • 面试

    面试造航母,上班拧螺丝。多面试,少加班。

    325 引用 • 1395 回帖
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    16 引用 • 130 回帖
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖
  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    9 引用 • 25 回帖 • 1 关注
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1063 引用 • 3454 回帖 • 189 关注
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖
  • 快应用

    快应用 是基于手机硬件平台的新型应用形态;标准是由主流手机厂商组成的快应用联盟联合制定;快应用标准的诞生将在研发接口、能力接入、开发者服务等层面建设标准平台;以平台化的生态模式对个人开发者和企业开发者全品类开放。

    15 引用 • 127 回帖
  • 招聘

    哪里都缺人,哪里都不缺人。

    190 引用 • 1057 回帖
  • 友情链接

    确认过眼神后的灵魂连接,站在链在!

    24 引用 • 373 回帖
  • jsoup

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    6 引用 • 1 回帖 • 484 关注
  • CentOS

    CentOS(Community Enterprise Operating System)是 Linux 发行版之一,它是来自于 Red Hat Enterprise Linux 依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定的服务器以 CentOS 替代商业版的 Red Hat Enterprise Linux 使用。两者的不同在于 CentOS 并不包含封闭源代码软件。

    238 引用 • 224 回帖
  • danl
    146 关注
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 6 关注
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖 • 15 关注
  • 人工智能

    人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

    135 引用 • 190 回帖 • 1 关注
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 7 关注
  • Hprose

    Hprose 是一款先进的轻量级、跨语言、跨平台、无侵入式、高性能动态远程对象调用引擎库。它不仅简单易用,而且功能强大。你无需专门学习,只需看上几眼,就能用它轻松构建分布式应用系统。

    9 引用 • 17 回帖 • 612 关注
  • FlowUs

    FlowUs.息流 个人及团队的新一代生产力工具。

    让复杂的信息管理更轻松、自由、充满创意。

    1 引用
  • 电影

    这是一个不能说的秘密。

    121 引用 • 604 回帖
  • 安装

    你若安好,便是晴天。

    132 引用 • 1184 回帖 • 1 关注