产品介绍
灵蜂数据集成软件BeeDI
由北京灵蜂纵横软件有限公司研发的数据集成软件BeeDI,
集数据抽取、清洗、转换、装载于一体,通过标准化企业各个业务系统产生的数据,向数据仓库或Hadoop分析平台提供高质量的数据,从而为基于大数据分析的科学决策提供充分的保障。
软件支持跨库数据联邦、基于数据库日志解析的实时数据同步、ETL任务高可用及负载均衡等功能,支持同一数据流向多个接口的分发,同时也支持多个数据流的合并,是一款完全面向数据仓库或Hadoop平台的数据集成产品。
BeeDI包含3个发行版本,分别为BeeDI SE、BeeDI EE和BeeDI CE。
BeeDI SE即BeeDI标准版,单机程序架构,任务的设计、运行及监控集成在一个模块内部。
BeeDI EE即BeeDI企业版,基于C/S架构,客户端BeeDI
Client负责任务配置及远程监控,任务服务器BeeDI RJS负责任务运行(Windows平台提供BeeDI
Monitor负责服务端本地监控),用户可以通过Client远程登录到RJS进行任务的发布,删除、调度或终止。
BeeDI CE即BeeDI集群版,基于分布式架构,客户端BeeDI
Client负责任务配置及运行监控,任务服务器BeeDI RJS负责任务运行,资源管理器BeeDI
RM负责任务在多个任务服务器的自动部署执行,用户可以通过客户端登录到RM进行任务的发布,删除、调度或终止。
数据转换
1.BeeDI支持以下数据接口的读写访问:
Oracle(9i / 10g / 11g / 12c / 18c) |
SQL Server(2005/2008/2012/2014/2016/2019) |
Mysql(5.0 / 5.6 / 5.7 / 8.0) MariaDB |
PostgreSQL(8.0 / 10.1 / 11.8 / 12.3) Greenplum |
DM(7.1 / 7.6 / 8.1) |
Kingbase(7.1 / 8.3) |
Hive(3.1.2)/ Hive On Spark(2.4.5) |
MongoDB(3.3 / 4.4) |
HBase(2.2 / 2.4)/ Phoenix (5.1) |
Cassandra(3.11) |
ElasticSearch(7.9) |
Solr(8.4) |
Kafka(2.1) |
ClickHouse(23.4) |
TDengine(3.0) |
Redis(3.2) |
DB2(8.1 / 9.5 / 9.7 / 10.5 / 11.1 / AS 400) |
Informix(10.0 / 12.10) |
Gbase 8a(8.3) |
Oscar(7.0) |
SAP Hana(2.0) |
Teradata(14.10 ) |
Lotus Notes(7) |
Sybase ASE(12.5 / 15.7) |
Access(97 / 2000 / 2003 / 2016) |
Excel(97 / 2000 / 2003 / 2016) |
SQLite |
Foxpro(6.0) |
Web Service / Http Post |
文本 / XML / Avro |
2.支持各种字段级的映射转换,如类型转换、字段运算、参照转换、字符串处理、字符集转换、空值处理、日期转换、聚集运算、既定取值、字段切分、字段合并、行列转换等。
3
支持各类数据库大对象(LOB)的读写,支持数据库存储过程及函数的调用。
4.支持映射自动匹配,可自动完成异构数据库间数据类型的映射。
5.支持根据主外键对目标表装载顺序自动调整。
6.支持自定义SQL抽取,支持表的动态创建,支持表名的动态生成;支持抽取表及装载表的重定向;支持数据接口的重定向,ETL作业从设计环境到运行环境的无缝移植。
7.支持源表和目标表的差异比较及回补。
8.支持ETL配置过程各个步骤的数据预览。
9.支持Json格式字符串的解析与封装,支持MD5、SHA消息摘要计算,支持DES、AES、RSA数据加密解密。
10.支持MD5、SHA消息摘要计算。
11 支持DES、AES、RSA数据加密解密。
12.支持Zip文件压缩与解压。
数据联邦
数据联邦支持对两路以上数据流(异构数据库或文件)进行关系运算产生一路输出流,包括:
对多路数据流横向连接产生一路扁平输出流,连接方式支持内连接、左外连接、右外连接及全外连接,可以对输出流进行过滤、分组、排序和去重操作。
对多路数据流纵向合并产生一路输出流,支持数据去重操作。
数据同步
BeeDI支持同构或异构库间的数据同步功能,支持全量覆盖、差异更新、增量模式同步数据,其中增量模式包括时间戳、触发器、日志解析三种模式。
增量模式支持数据断点续传功能,在数据同步过程中会自动记录同步断点,当同步环境故障恢复后,软件会读取上次存储的同步断点,依据断点信息从源库抽取未同步提交的数据。断点仅在数据提交成功后记录,可以杜绝数据遗漏的情况发生。
通过触发器或日志解析模式,软件支持同一张表数据的双向同步,软件可以识别增量数据的产生来源,有效避免数据回流现象。
大数据集成
BeeDI支持支持任意关系数据库或文本文件数据到Hadoop系统的传输,也支持将HDFS文本文件及HBase的数据传输到任意关系数据库或文本文件。软件通过Hive接口将数据存为HDFS文本文件,或从HDFS文件中读取数据。
Hive
采用FTP上传数据文件到Hadoop服务器,通过Hive接口将上传的数据文件导入HDFS。
读取数据时,支持对HDFS文件数据进行选择、过滤、分组等操作。
Hive文件格式支持文本文件及Avro。
HBase
BeeDI封装SQL接口访问HBase,支持将任意关系数据库的数据实时同步写入HBase数据库,支持对HBase的增、删、改操作。
读取数据时,BeeDI支持对HBase数据进行选择过滤。
Kafka消息流
BeeDI支持与Kafka消息服务器交互数据,支持各类数据库或文件数据流入Kafka集群,也支持Kafka集群数据存入各类数据库或文件。消息流采用Avro格式封装,支持与其它第三方软件的消息交互。
从Kafka读取消息支持断点续传功能,仅当读取的消息成功处理后程序通知Kafka代理存储分区消息偏移。
向Kafka发送消息时采用异步模式,当需要保证发送的消息全部存入Kafka服务器时,程序提供同步提交功能。
文件同步
BeeDI内置FTP及HTTP文件传输功能,支持远程文件目录到本地的同步,也支持本地文件目录同步到远程机器。软件通过扫描文件大小及修改时间可实现差异文件同步。文件采用多线程并发传输,支持文件的断点续传。
工作流调度
BeeDI内置工作流建模工具和调度引擎,用户可自由定义任务的触发条件及执行路径,控制多任务的协同运行。工作流支持多任务的并发或顺序执行,支持成功、失败、条件三种路径。
支持任务的定时(可基于日、周、月、工作日、时、分、秒等)触发;支持系统命令、外部程序调用。
支持HTTP、FTP等文件传输功能;支持邮件通知功能;提供工作流运行监控视图,通过流程节点及路径的动态轨迹指示向用户反馈工作流任务的执行状况。
WebService
BeeDI可作为数据源向外发布数据,通过与Apache
Tomcat交互,BeeDI可作为WebService供用户调用,交互的数据采用SOAP封装,用户在IE中可直接访问软件发布的数据,用户也可以按照标准的WebService接口创建自己的客户端程序获取数据。
用户可通过HTTP协议远程控制BeeDI中的任何作业,远程启动或停止作业,远程查询作业状态。
集群调度
BeeDI集群版支持ETL任务高可用及负载均衡功能,集群版包含客户端、资源管理器、任务服务器。客户端登录资源管理器发布启动任务,资源管理器负责将任务动态加载到可用的任务服务器运行。当某一服务器出现故障,其上运行的任务将被加载到其它任务服务器继续运行。
脚本调试
BeeDI内置集成脚本开发环境(IDE),支持脚本编辑、执行及调试。用户既可以将图形配置的任务切换到脚本视图进行逐行断点调试,也可以直接创建脚本任务。脚本提供丰富的内置函数,如数据库、网络、文件读取访问函数、字符串、数值、时间处理函数等。另外脚本支持函数自定义,允许用户根据实际业务情况扩展脚本函数。对于某些图形配置不便或难以解决的问题,可以直接使用脚本处理。
数据比对
BeeDI提供任意数据接口间(Oracle、SQL
Server、MySQL、DB2、Elasticsearch、Cassandra、MongoDB、HBase等)表的数据比对功能,支持异构表(不同表名,目标表字段可多于源表)、无主键表的比对。比对结果包含概要统计信息及差异数据明细对照表。
数据追溯
BeeDI提供数据追溯功能,支持对集成环境涉及的任意表进行追溯,识别指定数据表从产生到最终使用途径的各个系统及对应的处理过程,可在全局范围了解数据的使用情况。
数据分析
BeeDI提供数据统计分析功能,可查看任意数据库、文件或Hadoop数据分布情况,对数据进行量化分析,提供记录总数、算术和、平均值、最大值、最小值、方差及标准差指标分析,支持一维、二维、三维数据度量,按照维度特征自动输出饼图、趋势图、及直方图。
性能监测
BeeDI提供ETL性能监测功能,支持ETL各项操作(同步查询、异步查询、联邦运算、日志解析、同步载入、异步载入、批量载入、缓冲更新)与内存关系变化曲线显示,可查看最近10日任一时刻各项操作并发数及内存使用峰值,支持按日、按小时或按分钟查看并发数及内存峰值。
灵蜂数据库复制软件Beedup
由北京灵蜂纵横软件有限公司研发的数据库复制软件Beedup, 提供数据库(Oracle/SQL Server/DB2/MySQL/PostgreSQL/DM)性能及灾备一体化解决方案,软件支持异地数据库实时复制功能,支持异构复制(主从库不同类型、主从对象不同属主模式),复制时主库和从库双活,可以将原有生产主库的数据检索操作转移到从库执行,进而减轻生产库负载;主库出现故障时,从库无需恢复时间可以直接接管原有主库的业务操作从而最小化主库故障造成的不良影响。Beedup采用日志解析技术,满足从PC到服务器、从Windows到Linux 再到Unix环境的数据库同步复制。
Beedup包含2个发行版本,分别为Beedup SE和Beedup EE。
Beedup SE即Beedup标准版,单机程序架构,任务的配置、运行及监控集成在一个模块内部。
Beedup EE即Beedup企业版,基于C/S架构,客户端软件(Beedup EE Monitor)负责任务配置及调度监控,服务器软件Beedup EE Servic负责任务运行,当机器自动重启时Beedup EE Servic可自动运行并执行上次启动的任务。
双活备份
Beedup采用逻辑方式实现数据库备份,通过读取解析主库归档或在线日志,还原其中的DDL及DML操作并按照原始事务单元依次在备库顺序执行。软件通过JDBC连接主备数据库,采用标准SQL语句读写数据库。
跨平台异地备份
区别于基于存储、卷管理或直接还原数据库日志文件的备份方式,Beedup采用JDBC读写主从数据库,对数据库运行平台及版本无要求,当生产库采用高性能设备时,备份库可以选择普通商用配置。Beedup采用断点机制增量读取解析日志,可以忍受苛刻的网络条件。
逻辑错误隔离
Beedup基于逻辑备份方式,可以有效避免主库的逻辑坏块复制到从库。对于一些非常规操作(如TRUNCATE、DROP表等),可以在软件中配置告警,当主库发生错误或恶意操作时,避免备库出现同样操作,保留备库的完整性。
主备库实时在线
区别于存储、卷管理或直接还原数据库日志文件的备份方式,Beedup整个备份过程,从初始化到实时增量备份全部基于SQL接口,主备数据库无需挂起,主库正常相应业务请求,从库用于查询分析,实现数据库负载平衡。
秒级RTO & RPO
Beedup采用事务单元复制主库变化到从库,当主库事务提交后,软件立即读取解析事务变化并复制变化到从库,整个过程秒级完成。当主库发生故障时,可以直接修改从库IP为主库IP,接管其上业务。
数据审计
操作审计
Beedup增量备份时记录所有主库产生的事务信息,包含事务的操作用户、操作时间、操作对象、操作类型等。可以对生产库出现的风险行为进行追根溯源,采取必要措施提高数据安全性。
变更审计
Beedup 企业版提供主表的数据变化及结构变化审计功能,实时跟踪记录主表数据变化,审计信息包含变化时间戳,操作用户,操作类型等。对于每一将要审计的表,软件在从库创建对应跟踪表,对于表记录的每一次变化,都将在跟踪表中存放,并额外存放时间戳、用户、操作类型等信息。另外软件在从库创建结构变化跟踪表,记录所有审计表的结构变化,并额外存放时间戳、用户等信息。数据审计除了可以更细粒度的对数据库风险行为进行追根溯源外,也可以提供CDC服务,第三方采集软件可以从跟踪表捕获表的变化。
复制分析
对各个任务最近10日的复制数据相关信息进行趋势分析,分析信息包括各个任务每日复制数据量、数据量复制排名前10的表的每日数据复制量、每日复制DDL分类数、每日复制DML数、DML复制排名前10的表的每日DML复制数,指定表的每日增删改操作复制数。
双向同步
双向同步典型应用于异地多个数据中心同时对外接受业务请求,且数据实时保持一致的场景。
数据回流
不同于单向备份主库发生的变化全部复制到从库,双向同步需要识别变化数据的来源避免已同步数据的回流现象。Beedup通过事务操作用户屏蔽回流数据。
自增冲突
对于自增主键冲突的情况,无需调整业务系统,Beedup提供自增值到目标库的重新计算并更新相关依赖信息的策略。
流量&存储优化
区别于数据库原生双向同步方式,需在网络上传输所有日志文件并在目标库还原所有数据,Beedup本地读取解析日志后仅向目标库传输DML及DDL(DML及DDL在整个日志文件的占比不超20%),Beedup支持基于模式或表对同步内容进行过滤,可以进一步减少流量及存储开销。
灵蜂数据整合软件Beeload
由北京灵蜂纵横软件有限公司研发的数据整合软件Beeload, 可对企业经营过程中所产生的各类业务数据进行抽取、清洗、转换和汇总,为数据中心实时提供高质量的数据。软件集成了数据转换、数据清洗、增量同步、WebService、工作流调度、任务定制调试、作业监控、SOA服务、数据安全、日志记录、统计分析等功能。
Beeload通过简单直观的图形操作界面,完全本地化的设计风格,帮助用户快速定义ETL规则。集成脚本开发环境,支持脚本的编辑、运行及调试,可充分满足企业的二次开发需求。
Beeload包含2个发行版本,分别为Beeload SE和Beeload EE。
Beeload SE即Beeload标准版,单机程序架构,任务的设计、运行及监控集成在一个模块内部。
Beeload EE即Beeload企业版,基于C/S架构,客户端软件(Beeload EE Client)负责任务配置及远程监控,服务器软件包含Beeload EE RJS和Beeload EE Monitor(仅Windows平台),分别负责任务运行和及本地监控,用户可以通过Client远程登录到RJS进行任务的发布,删除、调度或终止。
数据转换
1.支持数据接口如下表:
Oracle 9i / 10g / 11g / 12c |
DB2 9.5 / 9.7 / 10.5 / 11.1 |
Sybase ASE 12.5 / 15.7 |
SQL Server 2005 / 2008 / 2012 |
Mysql 5.0 / 5.6 / 5.7 / 8.0 |
Access 97 / 2000 / 2003 / 2007 |
Excel 97 / 2000 / 2003 / 2016 |
Foxpro 6.0 |
Informix 10.0 / 12.10 |
PostgreSQL 8.0/10.1/11.8/12.3 |
Gbase 8.3 |
DM 7.1 / 7.6 / 8.1 |
Oscar 7.0 |
Kingbase 7.1 / 8.3 |
Lotus Notes 7 |
OPC UA/DA |
文本/XML/SQLite |
WebService |
2.提供异步ETL过程处理模式,数据抽取、转换及装载过程并行执行,实现数据的高速处理,满足G、T级的数据转换;
3.支持各种字段级的映射转换,如类型转换、字段运算、参照转换、字符串处理、字符集转换、空值处理、日期 转 换、聚集运算、既定取值、字段切分、字段合并等;
4.支持各类数据库大对象(LOB)的读写;
5.支持多字段的混合运算;
6.支持抽取数据的切分、过滤操作;
7.支持映射自动匹配,可自动完成异构数据库间数据类型的映射;
8.支持批量表的迁移映射,迁移信息包括表名、字段属性、主键属性、索引属性等;
9.支持表的动态创建,支持表名的动态生成;
10.支持数据库存储过程及函数的调用;
数据同步
Beeload提供以下数据同步处理机制:
时间戳
触发器
差异比对
Beeload通过同步ETL任务与定时机制的结合实现数据同步功能,软件提供灵活的定时机制(工作流内部定时或作业定时),时间粒度最小可以设为秒级,通过对同步ETL任务周期性的定时触发,达到对变化数据的实时同步。数据从抽取到装载采用原子事务操作,充分保证了数据的完整性。
文件同步
Beeload内置FTP文件传输功能,可以通过FTP传输功能同步远程机器文件夹到本地,也支持本地文件夹同步到远程机器。FTP传输文件采用多线程并发传输,支持文件的断点续传。
工作流调度
软件内置工作流建模工具和调度引擎,用户可自由定义任务的触发条件及执行路径,控制多任务的协同运行
1.支持多任务的并发运行,支持并发任务的同步完成;
2.支持成功、失败、条件等三种路径,支持基于全局变量的条件路径转移;
3.支持任务的定时(可基于日、周、月、工作日、时、分、秒等)触发;
4.支持系统命令、外部程序调用;
5.提供HTTP、FTP等文件传输功能;
6.提供邮件通知功能;
7.流程运行时的动态轨迹指示,向用户反馈子任务的执行状况;
OPC数据采集
Beeload提供OPC数据采集功能,支持OPC DA(Data Access)及OPC UA(Unified Architecture)通信标准访问OPC设备,软件按照设定的采集频率持续读取OPC设备数据,支持对采集的数据进行过滤加工处理,处理完成的数据可选择存入各类数据库或文本文件。
WebService
Beeload可作为数据源向外发布数据,通过与Apache HTTP Server的结合,Beeload可作为WebService供用户调用,交互的数据采用SOAP封装,用户在IE中可直接访问软件发布的数据,用户也可以按照标准的WebService接口创建自己的客户端程序 获取数据。
用户可通过HTTP协议远程控制BeeDI中的任何作业,如远程启动或停止作业,远程查询作业状态。
作业监控
Beeload采用作业调度策略控制任务的运行:
1.支持多个作业的并发运行,可以限制最大运行作业数;
2.支持作业排队机制,当已运行作业达到最大数时,后续启动作业进入排对等待状态;
3.支持作业的优先级设置,多个作业处于排队状态时,优先级高的作业首先进入运行状态;
4.支持作业的启动、暂停、恢复运行和停止等控制;
5.作业支持定时启动,提供多种定时策略,包括日、周、月、工作日、时、分、秒等,通过对作业定时启动可实现作业的循环自动运行;
6.直观的作业执行进度及状态显示;