一个站内搜索平台?

本贴最后更新于 1967 天前,其中的信息可能已经事过境迁

这两天琢磨的算是分享一下想法吧。实现起来估计又是另一回事了。

【前言】

前两天看到了一个托管在 GitHub Page 上的 Wiki 资料库。外带一个吃了屎一样的 😂 搜索功能。

我想了想,如果做 Google 的 site,没技术的人看不到了,用 Baidu 的 site 搜索,,,算了当我没说。

【要做的】

  1. 一个站长平台,让人家提交这些个网站。
  2. 撸一个蜘蛛,隔两天翻一遍这些个网站。
  3. 一个全文索引的系统,开源的数数,估计第一反应是 es。

【盈利模式】

没想出来,就挂广告吧。

【有什么优势】

  1. 中文支持
  2. 全索引,不想某家伙,新文章出来半年后收录了。。。。
  3. 适用于全静态网站。对动态网站也很好接入。

【难度】

  1. 搜索技术还是很复杂,简单的关键字匹配能实现。但是语境下关键词实意不好处理。
  2. 存储和处理,产本贼大啊。
  3. 有那么多有需求的网站吗?
  • 奇思妙想

    虽然我们的世界构建在想象力上,但光想不实操也是没用的。

    60 引用 • 623 回帖 • 5 关注
  • 头脑风暴
    6 引用 • 71 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 88250

    数据源(站点)主动推送结构化数据到搜索平台上,搜索平台索引入口,站点需要的时候来查询。这个思路已经有比较成熟的商业公司提供,比如 Algolia,之前我一直在用它,后来还是迁移到了自建的 ES 上。

    你的想法好像是反过来用蜘蛛来爬,就和广义上的搜索引擎一样对吧?这样的话好像没有什么优势了啊,有可能是我没有理解你的意思 😂

    1 回复
  • zhshch
    作者

    嗯,索引机制是和正常的搜索引擎一样。但提供站内搜索和通用搜索不太一样。我不会管你的页面有什么竞价或者同类网站竞争。我只专心索引你全站,然后提供一个 api 或者一个入口页面做站内搜索。谷歌收录很快但是有人访问不了,百度对网站不是很友好。

    Algolia 我刚看了看,貌似和我想的差不多。它还提供一个 internal search 的插件类似的东西,好像是在 js 里缓存索引。

    我一开始也想结构化提交然后索引。但是对于一开始说的 GH Page 的网站入侵性太大了。正常的蜘蛛也挺好啊。

    1 回复
  • 88250

    不提交结构化数据的话要按字段过滤排序等高级搜索有点难啊....