技术资源
九月 2018
如何在EsgynDB中使用机器学习库
机器学习(ML)库正变得越来越流行,现在有各种各样的这类库 - 维基百科中提及了49个。 这些机器学习库需要庞大的数据,通常此类数据是存储在关系型数据库中的业务数据,比如存放在EsgynDB或以其他形式存储在Hadoop数据湖中。 简单的集成 - JDBC和HDFS 有多种方法连接机器学习库和EsgynDB。 其中一种方法是使用JDBC,这是大多数软件包支持的方法。 用户在他们选择的系统上运行机器 [阅读更多]
三月 2018
使用UPSERT语句,将Apache™Kafka数据导入Trafodion表
Apache™Kafka简介 Kafka是一个流处理服务平台。其中,生产者(Producers)向主题(Topic)中发布消息,消费者(Consumers)读取并处理发布到主题中的消息。Kafka的主题是已发布消息的日志副本集合,这些日志都具有时间戳。可以对主题进行分区,以增加存储容量并提高并行度。 如图1所示,向同一个主题发布消息的不同生产者进程可以: a) 将消息写入特定的分区(蓝色箭头); [阅读更多]
二月 2018
EsgynDB支持与ORC的紧密集成
Apache Hadoop™生态系统的优势之一就是能够整合不同的技术,解决各种大数据问题。要实现良好的整合,就要注意易用性以及数据交换的速度和效率。 EsgynDB™是Esgyn公司的web-scale企业级SQL-on- Apache Hadoop™解决方案,现已支持与Apache ORC™文件的紧密集成。在本文中,我将介绍结合EsgynDB和ORC文件所带来的好处,然后探讨该集成解决的两个重 [阅读更多]
为何HDP需要EsgynDB?
加快从大数据中获取业务价值和见解 使用EsgynDB,可在单个大数据平台上简便地运行OLTP、ODS、BI和分析型工作负载。EsgynDB是唯一一个为不同的数据源提供可插拔数据管理框架的大数据SQL解决方案,用于处理混合工作负载(实时读写),从而最大限度地减少数据迁移和复制。EsgynDB通过在数据库中转换数据(ELT)来降低ETL的成本。其MPP架构可以并行执行查询,确保满足最严格的SLA。成 [阅读更多]
针对MPP数据库数据倾斜问题的技术——Skew Buster
Skew Buster是一种针对MPP数据库运行时数据倾斜引起的性能问题的技术,可以保证在复杂查询的任意阶段,中间数据都可以平均分布,充分利用MPP系统的多节点的并发处理能力。 Skew Buster简介 当今随着信息技术,人工智能,和网络技术的不断发展,企业在生产经营过程中产生的历史数据非常容易就达到上百T,甚至P级别,因此依赖单机的scale up能力已经无法满足。MPP数据库能够线性地横向 [阅读更多]
简述Trafodion DCS工作流程及原理
DCS是Data Connectivity Service即数据连接服务的简称,是Trafodion非常重要的组成部分,它接收连接请求,并合理分配连接请求,借助Zookeeper完成HA的功能。 简介 最近越来越多的人在Trafodion社区问到关于DCS的一些问题,我在这里给大家统一介绍一下这个Trafodion的重要组成部分。DCS是Data Connectivity Service即数据连 [阅读更多]
五月 2017
EsgynDB是唯一运行整个TPC-DS基准测试的SQL-on-Hadoop解决方案
评估数据库BI/分析工作负载的最佳基准是TPC-DS。EsgynDB已与Apache ORC深度集成并优化了性能,虽然处理TPC-DS型工作负载的结果还有待提高,但目前的结果还是较为可观。 在处理运营型工作负载领域,目前EsgynDB还未棋逢对手。在进行TPC-DC测试时,EsgynDB使用Hive(利用Tez引擎)与ORC进行性能对比。 TPC-DS基准测试的数据量是10TB。EsgynDB能够 [阅读更多]
一月 2017
[视频] 使用HDFS冷热数据的架构注意事项
使用HDFS冷热数据 以下的视频是易鲸捷专家关于HDFS冷热数据的介绍。 热数据是指,您希望快速访问的数据(主要用于报告)。冷数据是指,不常访问的数据(主要用于BI或分析)。可以设置一定的数据量(例如,最新的100GB数据)、特定的时间段(1天或1周)、特定的数据集,识别相应的热数据。 企业使用不同的平台,分别存储和管理热数据、冷数据。因此,数据需要从一个数据库迁移或复制到另一个数据库。不同用途的 [阅读更多]
[视频] 使用SQL查询JSON——EsgynDB Crunchbase演示
JSON是通过基于web的API进行数据存储和交换的实践标准。使用API调用访问JSON数据是耗时的,需要开发人员具备高层次的专业知识。而SQL更加简便,可以加快应用程序的迭代开发。在EsgynDB的演示中,说明了如何使用SQL查询Crunchbase的数据。 Crunchbase通过其JSON格式的API,提供公司、创始人、投资者、员工的相关信息。由于EsgynDB支持结构化、半结构化、非结构化 [阅读更多]
十二月 2016
[视频] EsgynDB + Tableau演示
EsgynDB+Tableau集成演示 无缝集成 EsgynDB能像连接到其他数据库一样,非常简便地连接到Tableau。您只需提供IP地址和用户凭证。进行集成的预测试和支持时,将Tableau作为EsgynDB的标准组件。 自助式BI/分析 使业务分析师能够使用数据湖,无需Java开发人员和数据科学家的参与。 支持数据仓库的交互式查询,无需为了加速查询而进行Tableau级的数据缓存。 支持大数 [阅读更多]
十一月 2016
[网络研讨存档] 提供Hadoop混合事务和分析处理(HTAP)
Hadoop混合事务/分析处理(HTAP) 随着业务敏捷性的提高,事务型数据的实时和近实时分析也变得越发重要。对于资深的数据库从业人员,事务和分析属于两个不同的系统。这种竖井式的方法会产生:昂贵的ETL过程,专门化的数据集市,SLA问题,尤其是造成对旧数据的分析。 目前的架构趋势是,在同一个数据存储中同时进行事务和分析处理。Gartner将这样的功能称为混合事务/分析处理(HTAP)。 Gar [阅读更多]
十月 2016
Apache Zeppelin在Apache Trafodion上的可视化——已更新
介绍 Apache Trafodion(正在孵化)和EsgynDB(Esgyn的商业版)支持数据可视化工具(例如,Apache Zeppelin和Tableau),具有标准JDBC/ODBC连接。本文重点介绍如何实现Apache Zeppelin在Trafodion上的可视化。 Apache Zeppelin基于web,数据专家可以通过该工具进行大规模数据挖掘和可视化的协作。大规模数据分析的工作 [阅读更多]
[下载] 您的SQL引擎是否发挥了效果?
您是否正在选择合适的SQL引擎? 要从各种各样的SQL引擎中挑选合适的一款并非易事。所有的SQL-on-Hadoop引擎(无论是否开源)号称具有的功能都如出一辙。那么,如何才能省去长达数周的开发,并选择真正强大的SQL引擎? 如何选择强大的SQL引擎? 阅读我们的指南,本指南包括以下内容: 如何挑选成熟的SQL引擎 向您的SQL-on-Hadoop供应商提出13个问题 确保您可以实现真正的扩 [阅读更多]
九月 2016
[视频] 风险分析——金融服务演示
风险分析数据仓库演示 您是否正在努力解决目前数据仓库的实现的各种问题?在专有数据库(例如,Oracle和Teradata)上实现的数据仓库在以下方面存在很多问题:扩展,加载,查询性能,缺少对非结构化数据的支持……如果您的企业实行基于Hadoop的Big Data计划,那么EsgynDB可以帮助您迁移当前的数据仓库环境或帮助您卸下一些工作负载,便于您充分利用Hadoop并克服当前专有数据仓库系统的局 [阅读更多]
易鲸捷IoT平台演示视频
物联网(IoT)演示视频 您是否正在建立或准备建立一套IoT解决方案? 物联网(IoT)每分钟都会生成大量数据。因此您需要一套全面的IoT数据管理系统,支持快速摄取、实时警报、报告和预测分析。由于IoT是实时的,因此不适用传统的数据处理方式。 EsgynDB是可以同时处理所有IoT工作负载的All-in-one SQL数据库。观看以下视频,了解Esgyn的IoT解决方案。 无论您准备在云端(例如, [阅读更多]
八月 2016
探寻理想数据库——O’Reilly Media出版
混合事务/分析处理的挑战 数据库正经历如火如荼的发展。十年前,web-scale的公司纷纷从专有的关系型数据库转变为通过NoSQL和Hadoop处理Big Data用例。如今,由于各种各样的原因,趋势又走向了基于SQL的解决方案。各个公司真正需要的,是可以处理其所有运营型工作负载、OLTP、BI和分析型工作负载的一套系统。那么,是否存在这样的一体化数据库呢? O’Reilly发布的此项报告是由易 [阅读更多]
七月 2016
[下载] 比较各种Hadoop SQL引擎
要从各种各样的Hadoop SQL引擎中挑选合适的一款并非易事。如果所有的SQL-on-Hadoop引擎(无论是否开源)号称拥有的功能都如出一辙,那么您需要一项清单,用于比较各种产品。下载清单,使您无需浪费宝贵的开发资源来进行昂贵的实验。 本项清单涉及以下内容: 您需要的基本功能。ANSI SQL?开源?运行UDF? 您的SQL-on-Hadoop解决方案应该支持何种类型的工作负载?目前,您可 [阅读更多]
[网络研讨存档] 从MapReduce到SQL-on-Hadoop
MapReduce是从基于Hadoop的Big Data实现中检索数据的标准机制。但是由于创建和维护MapReduce的复杂度和成本较高,这套机制逐渐被淘汰。如今,开发人员都在寻求基于SQL的解决方案。观看我们的网络研讨存档视频,了解从MapReduce到SQL的转变所带来的以下好处: 加速应用程序的开发 利用SQL工具和资源 最大程度降低对数据专家和Java程序员的依赖 通过Big Dat [阅读更多]
[网络研讨存档] 通过Big Data实现业务转型——六个用例
观看我们的网络研讨视频,通过六个用例了解Big Data的潜力。 数据驱动业务。 客户导向。 提高业务敏捷性。 在全球经济中进行有效的竞争。 通过IoT和企业的数据湖,通过Big Data实现更多。 您将了解到: 如何识别机遇 如何评价Big Data的用例 如何制定战略路线 如何选择合适的开源堆栈 本视频的适用人群: Big Data开发人员,架构师和IT管理人员 产品和部门负责人 C [阅读更多]
不断成熟的Hadoop生态系统依然存在不足之处
不断成熟的Hadoop生态系统依然存在不足之处 最近,随着Hortonworks宣布推出由Apache HAWQ支持的Hortonworks HDB,Hortonworks和Hadoop周围的生态系统也不断发展。Hadoop已有10年的历史,虽然其相关性常常遭受质疑,但依然是很多全球性企业Big Data项目的关键基础。 随着基础技术的不断发展,自主创新起着至关重要的作用,客户和开发人员不得不自行 [阅读更多]
选择合适的SQL引擎替代MapReduce作业
众望所归的新趋势 目前的趋势是摆脱MapReduce,降低构建和维护MapReduce作业的复杂度并提高性能,同时利用现有的IT资源。至于如何摆脱MapReduce、如何替代MapReduce作业、使用怎样的工作负载,这些问题都是战略性的决策。同时,要考虑Hadoop可以发挥怎样的战略性作用,使企业通过数据获得利润。 由于要访问存储在HDFS的数据,就要使用MapReduce中的键,因此MapR [阅读更多]
六月 2016
使用Docker容器安装Apache Trafodion
使用Docker容器安装Apache Trafodion 我们很高兴地推出Apache Trafodion 2.0(正在孵化)Docker。现在,全球的开发人员都可以快捷地在Linux上安装单节点的Apache Trafodion。 通过Apache Trafodion和EsgynDB(Esgyn的商业版),您可以使用SQL-on-Hadoop,减少或消除MapReduce对数据的访问和处理。与其 [阅读更多]
三月 2016
管理日志、IoT和事件数据的设计模式
管理日志、IoT和事件数据的设计模式 Trafodion在IoT(物联网)空间、电信和网络安全中的一个常见应用场景是用一个非常大的单表,记录实时事件。用户希望快速摄取新数据,查询数据,并清理过时的数据。 对于这种情况,我们一般建议客户使用一种设计模式。该模式包含三个要素:Salting、分块和Stripe合并。 Salting 第一个要素是salting,在集群中平均分布数据。通过salting [阅读更多]
二月 2016
EsgynDB Manager
EsgynDB Manager 简介 EsgynDB Manager 是一款适用于EsgynDB的基于Web的企业管理工具,它允许数据库管理员: 监控Esgyn节点和Esgyn服务的运行状态。 监控集群或节点的关键系统、HBase和EsgynDB的各项运行时指标。 监控并管理(取消)EsgynDB查询。 查看详细的编译时和运行时查询统计信息,包括可视和文本解释计划。 生成系统资源使用情况的电子 [阅读更多]
其他RDBMS到Trafodion的数据迁移
本文介绍了如何将数据从现有的RDBMS迁移到Trafodion数据库。从其它的RDBMS或外部数据源向Trafodion集群中导入大量的重要数据,可以通过下面两步完美实现: 在Trafodion集群中,将数据从源头导入Hive表。使用下列方法之一: 在Trafodion系统中,使用一个类似Apache SqoopTM的工具,将数据从远程的RDBMS(例如,MySQL或Oracle)迁移到Hive表 [阅读更多]
一月 2016
Trafodion + Kafka = Trafka
Apache Kafka的Apache Trafodion消费者 本文介绍了如何实现Apache Trafodion与Apache Kafka的无缝结合。我们展示了Trafodion如何轻松地获取数据,如何结合不同的开源组件,从而使用 Apache Kafka、 Trafodion、 HBase 和Hadoop创建近实时的流式处理工作流。 如何实现各组件的结合? 什么是Kafka?Kafka是一个 [阅读更多]
Apache Trafodion 1.3 发布
Apache Trafodion(正在孵化)宣布完成了Apache孵化器项目的第一个版本。Trafodion 1.3 修复了多种bug,增加了新功能、改进了Apache Trafodion页面。点击此处或查看版本说明。 这3个月内,有很多新的贡献者和代码提交者参与了Trafodion项目。该项目的社区正在日益壮大,致力于构建开源的、分布式、全量ACID的Hadoop生态系统数据库。Trafodio [阅读更多]
Hibernate的Trafodion方言
对象-关系映射(ORM)提供了一个框架,应用程序可以使用一个对象范例,查询并操作数据库中的数据。该框架以多种语言实现,封装了数据操作所需的代码。这样,您无需了解SQL,即可使用一个对象访问数据,该对象隐藏了每个数据库查询语言的变化。 假设有以下的Employees表: Id Name Address Department Salary 1 John Milpitas, CA Engineer $ [阅读更多]
十二月 2015
双活的运营型SQL-on-Hadoop工作负载
周二,Esgyn发布了EsgynDB企业版2.0,新增了多种功能的支持。本文介绍了跨数据中心的全面双活事务支持。对于跨多行、表和/或服务器的事务,Hadoop生态系统支持在异地、各集群或表中复制关键的运营型业务数据。该功能支持异地的高可用集群,因此对关键数据是非常重要的。如果由于自然灾害、同城状况、人为错误导致集群offline,则可以立即启用另一个peer集群,并实现零事务丢失。 通过双活配置, [阅读更多]
十月 2015
如何造就一流的数据库?
相比于其他的SQL-on-Hadoop解决方案,Trafodion具有怎样的优势?“在Hadoop上运行运营型工作负载”一文中,我指出了Trafodion专注于运营型工作负载(OLTP、ODS)。本文介绍了Trafodion和其他SQL-on-Hadoop解决方案在技术上的差异。 本文中,我探讨了造就一流数据库的四个关键要素,介绍了Trafodion是如何实现这些要素的。您可以将Trafodio [阅读更多]
九月 2015
在Hadoop上运行运营型工作负载
相比于Oracle、IBM DB2、Microsoft SQL Server、Informix、MySQL、PostgreSQL、Teradata等关系型数据库以及Impala、Tez、Hive、Drill、Presto等SQL-on-Hadoop解决方案,Apache TrafodionTM(正在孵化)具有怎样的优势? Apache Trafodion是一流的数据库,与上述的关系型数据库并驾齐驱 [阅读更多]