私活:爬虫&电商

本贴最后更新于 3330 天前,其中的信息可能已经天翻地覆

设想是从美亚、6pm 等电商上把某些品牌的跑鞋 通过爬虫抓取下来,
并转存到自己的电商网站中

问 这个想法可以实现吗? 如果已经有电商、并且提供了 restful 接口、可以新增、修改商品 完成此需求 需要多少 RMB 和 时间?

  • 私活
    5 引用 • 64 回帖 • 2 关注
  • 电商
    6 引用 • 41 回帖
  • 跑鞋
    1 引用 • 15 回帖
  • 外包

    有空闲时间是接外包好呢还是学习好呢?

    26 引用 • 234 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 88250

    有这样接口的可能性不大。如果有接口就简单了, ¥5K,10 天吧~

    如果是页面爬取解析的话,就有点复杂了,还要摸索各种搜索条件,最重要的是每个站点的防爬机制不一样,可能还需要写代理池,¥20K,30 天。

  • zonghua

    人工智能???

  • Angonger

    @88250 好像干过的样子,你为了生存都做了什么

  • crick77
    作者

    @88250 页面抓取的话 不应该取决于抓哪个页面吗? 如果目标页面的内容布局修改了 还负责后续的维护吗

  • crick77
    作者

    @88250 可能没说清楚 接口是自己的电商网站提供的

  • relyn

    需要一次性爬还是说实时的爬

  • LyZane
    1. “某些品牌的跑鞋”是个什么概念?目标明确么?
    2. 数据量有多少?
    3. 数据更新 delay 最长是多久?
    4. 发现新商品的 delay 最长是多久?

    @88250 一句话的需求你也敢接?

  • 88250

    @participants 我不接,我只是来看看的.

  • LyZane

    【接上补充】

    1. 把“跑鞋”抓取下来是个什么概念?要哪些属性?
    2. 图片是直接外链还是要 download?
    3. 规格参数要不要格式化?
    4. 网站改版幅度太大的时候解析配置要更新,这个售后怎么算?
    5. 网站改变防采集策略导致程序要大改怎么算?
  • tomaer

    原站是否有 app,如果有就简单

  • LyZane

    @tomaer 为什么有 APP 就简单呢?有爬 APP 的方法么?

  • tomaer

    @DevAPI app 一般都是 rest 方式。只要你知道 rest 的地址和参数 不就简单多了。我有方法

  • sky_dhx

    我来接把, 实实在在的,我爬过淘宝的商品,

    直接几个问题 你回答就好,
    1.爬哪个网站,地址, 爬哪些东西, 例如 图片 名称价格。。。
    2.如果有手机端 app 的 则更简单,我直接取抓包获取他的 url
    3.获取的数据是每天都爬还是一次性爬,爬完了怎么导入你的数据库里面去,格式都是什么样的,或者 我获取到数据到某个数据库你定时来取,都行,大致这三个问题。
    价格 好商量, 工作量 预估 10-15 天搞定,我用 C# ,

  • sky_dhx

    看错了,居然是 1 年前的,估计早就结束了

    1 回复
  • crick77 via macOS
    作者

    已经结束了,感谢你的回答。。 不过现在互联网金融当道,爬虫的前途还是不错的

请输入回帖内容 ...

推荐标签 标签

  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    59 引用 • 25 回帖
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    5 引用 • 16 回帖 • 6 关注
  • WebSocket

    WebSocket 是 HTML5 中定义的一种新协议,它实现了浏览器与服务器之间的全双工通信(full-duplex)。

    48 引用 • 206 回帖 • 280 关注
  • 职场

    找到自己的位置,萌新烦恼少。

    127 引用 • 1708 回帖
  • 反馈

    Communication channel for makers and users.

    120 引用 • 906 回帖 • 290 关注
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    167 引用 • 408 回帖 • 483 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    188 引用 • 832 回帖
  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    948 引用 • 1460 回帖 • 2 关注
  • Lute

    Lute 是一款结构化的 Markdown 引擎,支持 Go 和 JavaScript。

    29 引用 • 202 回帖 • 39 关注
  • jsoup

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    6 引用 • 1 回帖 • 512 关注
  • 负能量

    上帝为你关上了一扇门,然后就去睡觉了....努力不一定能成功,但不努力一定很轻松 (° ー °〃)

    89 引用 • 1251 回帖 • 390 关注
  • Excel
    31 引用 • 28 回帖 • 1 关注
  • 新人

    让我们欢迎这对新人。哦,不好意思说错了,让我们欢迎这位新人!
    新手上路,请谨慎驾驶!

    52 引用 • 228 回帖 • 1 关注
  • 外包

    有空闲时间是接外包好呢还是学习好呢?

    26 引用 • 234 回帖
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    10560 引用 • 48077 回帖 • 60 关注
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    558 引用 • 677 回帖 • 1 关注
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    594 引用 • 3541 回帖 • 1 关注
  • 区块链

    区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法 。

    92 引用 • 752 回帖
  • SEO

    发布对别人有帮助的原创内容是最好的 SEO 方式。

    36 引用 • 200 回帖 • 49 关注
  • Gzip

    gzip (GNU zip)是 GNU 自由软件的文件压缩程序。我们在 Linux 中经常会用到后缀为 .gz 的文件,它们就是 Gzip 格式的。现今已经成为互联网上使用非常普遍的一种数据压缩格式,或者说一种文件格式。

    9 引用 • 12 回帖 • 186 关注
  • flomo

    flomo 是新一代 「卡片笔记」 ,专注在碎片化时代,促进你的记录,帮你积累更多知识资产。

    6 引用 • 143 回帖
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    346 引用 • 761 回帖
  • Netty

    Netty 是一个基于 NIO 的客户端-服务器编程框架,使用 Netty 可以让你快速、简单地开发出一个可维护、高性能的网络应用,例如实现了某种协议的客户、服务端应用。

    49 引用 • 33 回帖 • 54 关注
  • Openfire

    Openfire 是开源的、基于可拓展通讯和表示协议 (XMPP)、采用 Java 编程语言开发的实时协作服务器。Openfire 的效率很高,单台服务器可支持上万并发用户。

    6 引用 • 7 回帖 • 119 关注
  • 京东

    京东是中国最大的自营式电商企业,2015 年第一季度在中国自营式 B2C 电商市场的占有率为 56.3%。2014 年 5 月,京东在美国纳斯达克证券交易所正式挂牌上市(股票代码:JD),是中国第一个成功赴美上市的大型综合型电商平台,与腾讯、百度等中国互联网巨头共同跻身全球前十大互联网公司排行榜。

    14 引用 • 102 回帖 • 293 关注
  • LaTeX

    LaTeX(音译“拉泰赫”)是一种基于 ΤΕΧ 的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在 20 世纪 80 年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由 TeX 所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。

    12 引用 • 59 回帖
  • TGIF

    Thank God It's Friday! 感谢老天,总算到星期五啦!

    293 引用 • 4496 回帖 • 664 关注