DataCleaner
在 github 介绍中描述为“首屈一指的开放源码数据质量解决方案。”,由 Neopost 和 Human Inference 提供支持的开源软件,协议为 LGPL3.0,目前由 68 个发行版本。最新版为 5.5.0,社区下载版为 5.1.5。windows、linux、mac 有分别的安装包。
概览
描述
DataCleaner 是一个数据质量分析,比较,验证和监督的软件.DataCleaner 包括一个独立的图形用户界面分析,比较和验证,并进行监测 web 应用。
功能模块
源码包主要的模块描述:
- api:DataCleaner 的公共 API。 主要是为了构建自己的扩展而提供的接口和注解。
- resources:DataCleaner 的静态资源
- oss-branding:图标和颜色
- test-ware:用于 DataCleaner 的单元测试的类和扩展代码
- engine
- core:核心引擎部分,它允许根据 API 执行作业和组件。
- xml-config:包含读写任务文件和配置文件清理工具。
- env:DataCleaner 可以运行的不同/替代环境,例如 Apache Spark 或 webapp-cluster
- components
- 许多子模块包含内置以及与 DataCleaner 一起使用的其他组件/扩展。
- 标准组件:一个容器项目,它依赖于通常捆绑在 DataCleaner 社区版中的所有组件。 - desktop
- api DataCleaner 桌面应用程序的公共 API。
- ui 适用于桌面用户的基于 Swing 的用户界面。 - monitor
- api DataCleaner 监控模块的 API 类和接口
安装方式
环境要求
- 一台有图形界面的计算机(命令行模式除外)
- java7 或以上
- DataCleaner 的软件许可文件
启动命令
社区 5.5.0 版 zip 下载后直接解压使用 datacleaner.sh 或 datacleaner.cmd 启动。
以上为 DataCleaner 基本情况,以及采用图形界面运行方式。 并不太符合 B/S 方式的修改过程
因为需要了解 desktop-api 和 desktop-ui 的结合方式,并据此开发一套完整 B/S 应用。
通过调研,DataCleaner 提供了一种和 Kettle 类似的运行模式。及在图形界面通过数据源选择, 组件拖动,参数配置,结果输出等一系列拖动操作过程,最终保存为一个任务文件(*.xml)。
其中:
- job-metadata 为任务的元信息,包含描述、作者、时间、属性等。
- source 为数据源信息
- transformation 转换过程块
- transformer 单个转换过程块
- analysis 数据分析块
- analyzer 分析相关模块,包括文件的输出。
其对应的是客户端中的:
对应的列表有:
-
Transform 转换
-
Composition 合并
-
Conversion 转换
-
Data structures 数据结构
-
Date and time 日期和时间
-
Encoding 编码
-
Filter 过滤器
-
Network tools 网络工具
-
Numbers 数值
-
Scripting 脚本
-
Text 文本
-
-
Improve 改善
-
Location 本地
-
Reference data 参考数据
-
-
Analyze 分析
-
Date and time 日期和时间
-
Visualization 可视化
-
Write 写入
-
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于