你了解的大数据

最近新进的项目组是开发大数据分析平台。

但是平时听了很多大数据，却不太了解。

刚才开会针对目前已经有的需求还有原型组里讨论了一下。

讲原型我还是听得懂的，但是到了后面就很多不懂了。

hadoop hbase solr 都是听说过的，但是只了解一点的基础。其实哪个也不会用。

先说下刚才开会的几个问题吧，有知道的可以跟我叨叨两句。

1.数据导入的时候，往 hbase 保存，一种是批量的 commit，一种是一条一条的 commit。我没有操作过，但是一个同事说他试了发现一条一条的竟然比批量的更快。
不知道为什么。有没有懂滴，讲一下。

2.另外，hbase 存储是怎么个存法（我记得以前看说就是 key-value 的样式，不记得对不对了），有人说了一个通过时间扫描，是什么意思。

3.后面不理解的，我问题都提不出来。。。一般用 solr，我知道是为了建索引的，但是 hbase 里的所有数据在 solr 里面在存储一份，然后建立索引为了查询方便。
可是为什么还要 hbase 那一步骤呀，直接存 solr 不行吗？还是说 solr 不能保存大量数据？那建立索引的时候不是要有数据吗？还是说 hbase 跟 solr 之间不是我想的那种存储方式？那 hbase 跟 solr 倒地有什么关系，怎么运用的。有什么好处。

4.你们工作中会用到算法吗？是做什么用？而你怎么写算法的？

以上，有些问题我觉得我都不知道如何表达去问，可能问的白痴的你们看不懂。。。总之，就是有什么想法就说说看吧，指不定无心插柳的一句话，也能让我开窍。

【bigdata】4.hive 安装

hive的全部安装过程都是在master节点安装 hive 1.上传并解压 tar -zxvf apache-hive-1.2.2-bin.tar.gz -C /hive安装目录 2.配置环境 2.1 配置 hive-env.sh # 跳转到hive配置文件目录 cd /hive安装目录/conf # 修改名称 mv ..

内存占用过高

[图片] 主要笔记太大了频繁卡顿崩溃，只能新建一个空间，把其中一个文件导出来放到新空间编辑；但是空间占用还是太离谱了，这篇本草纲目 200 万字不到，笔记中只有这一个文件，导出的笔记大小 3M，然后我在编辑的过程中内存占用有点离谱（编辑笔记我用的不多，导出这份笔记我用到的主要进行标题分级，也就是 ctrl+alt+1 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

16 回帖

你了解的大数据

注册关于

请输入回帖内容 ...

yangyujiao • 9 年前
作者

@lihaotian_120 这个随便自己怎么理解吧，就是只要用过都可以说一下，哪里用的，什么应用用到的，都可以说一下。我之前一个项目的算法是波士顿一个公司提供的，我们只是调接口，然后最后输出结果，其他都不知道····
其他回帖
88250 • 9 年前
订阅者

对于大数据，我印象最深刻的一个词就是“清洗”，好生动的词。

说道算法，前几天刚刚对社区的 @ 用户名自动完成功能做了一个二分查找优化
88250 • 9 年前
订阅者

@jingxuetao Wordman
88250 • 9 年前
订阅者

@jingxuetao 来来来，帮社区做个 APP 先 😚
查看全部回帖

相关帖子

【bigdata】4.hive 安装

【bigdata】3.idea 连接虚拟机 Hadoop 集群

【bigdata】2.Hadoop 集群模式安装

有没有适合 macos 版本 10.15.7 低版本的思源笔记安装包

高亮后再高亮内容错位

求 SQL 语句：筛选含有某个关键字的链接

内存占用过高

欢迎来到这里！

近期热议

推荐标签标签

最新标签

你了解的大数据

相关帖子

【bigdata】4.hive 安装

【bigdata】3.idea 连接虚拟机 Hadoop 集群

【bigdata】2.Hadoop 集群模式安装

有没有适合 macos 版本 10.15.7 低版本的思源笔记安装包

高亮后再高亮内容错位

求 SQL 语句：筛选含有某个关键字的链接

内存占用过高

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签