分享
DataOps_大数据新战线_彭锋.pdf
下载文档

ID:209654

大小:921.48KB

页数:4页

格式:PDF

时间:2023-03-08

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
DataOps_ 数据 战线 彭锋
数字经济DIGITAL ECONOMY 64COvER StORY 2022封面虽然“大数据”概念已流行十余年,但大多数企业仍然不能真正实现运用大数据进行数字化转型。而 DataOps 技术的出现,正好为普通企业的数字化转型带来了新希望。本文简要介绍了 DataOps 的基本概念,并解释了为什么 DataOps 对每个想要从数据中获取真正价值的公司都至关重要。文彭锋 智领云联合创始人、CEO自流行词“大数据”出现十多年后,大数据似乎只对少数公司有用。在硅谷,几乎所有的独角兽企业都广泛使用大数据来推动他们的数字转型的成功。在中国,像 BAT 这样的公司已经掌握了大数据的艺术,同时我们也有像字节跳动这样主要以大数据技术为基础的超级独角兽公司,令人遗憾的事实是,对于大多数公司来说,大数据要么仍然是流行词,要么的确是难以实现。幸运的是,一门新学科正在崛起,是解开普通公司数据能力,推动公司数字化转型的关键。它就是 DataOps,与 DevOps 明显相似的名称以及与 DevOps 类似的软件开发角色,是数据工程师希望简化数据的使用并真正实现以数据来驱动企业成功的方法。什么是 DataOpsDataOps 是一种面向流程的自动化方法,由数据分析团队使用,旨在提高质量并缩短数据分析的周期时间。DataOps 的定义会随着时间的推移而DataOps:大数据新战线数字经济官方微信赛迪网官方微信DOI:10.19609/10-1255/f.2022.12.008652022 年第 12 期数字经济Dig it a l Ec o n o myDigital Economy 发展,但其关键目标非常明确:提高数据分析的质量并缩短数据分析的周期。DataOps 并不会使数据分析变成一项简单的工作。实施成功的数据项目仍然需要大量工作,例如深入了解数据和业务的关系,良好的数据使用规范以及一个公司的数据驱动的文化培养。不过,DataOps 将极大地提高人们使用数据的效率并降低使用数据的门槛,公司可以更快、更早、更好地开始使用数据,并且成本和风险更低。DataOps 解决的问题大数据的大多数应用可以分类为 AI(人工智能)或 BI(商业智能)。此处的 AI 是指广义的人工智能功能,包括机器学习、数据挖掘以及其他从数据中获取以前未知知识的技术。BI 则是更多地使用统计方法将大量数据汇总到更简单的报告,供人们理解。简而言之,AI 使用各种数据算法来计算新的东西,BI 则是统计人们可以理解的数字。编写 AI/BI 程序并不难。你可以在几个小时内设置一个 TensorFlow 的人脸识别程序。或者使用 Matlab 绘制一些数据,甚至使用 Excel 也并不难实现这个目的。问题在于,要实际使用生产结果来支持面向用户的产品或根据这些神奇的数字来决定公司的命运,你需要的不仅仅是手动工作。Dimensional Research 的一项调查发现,对于想要实施大数据应用的公司来说,以下问题最为困难:确保数据质量;控制成本;满足业务需求和期望;量化大数据项目的价值;很难找到具有大数据专业知识的人;修复性能和配置问题;选择正确的数据框架;技术资源不足;保持运行可靠性;数据项目花费的时间比预期的要长;要管理的技术或供应商太多;开放对更多消费者的数据访问;难以创建可操作的信息;复杂问题解决和调试。谷歌数据分析师的另一项研究发现,对于大多数机器学习项目,只有 5的时间花在编写 ML 代码上,另外 95的时间用于设置运行 ML 代码所需的基础设施。在这两项研究中,我们可以很容易地看到许多艰苦的工作实际上并不是在编写代码。整个基础设施的准备工作以及高效运行生产级别的代码是非常费时费力的,而且经常伴随着各种风险。在谷歌的研究中,他们引用了我的前同事 Jimmy Lin 和 Dmitry Ryaboy(来自推特分析团队)的话:我们的大部分工作可以被描述为“数据管道工”。实际上,DataOps 使管道工的工作更简单和高效。DataOps 目标功能DataOps 旨在减少整个分析周期时间。因此,从搭建基础架构到使用数据应用的结果,通常需要实现以下功能:部署:包括基础架构和应用程序。无论底层硬件基础设施如何,配置新系统环境都应该快速而简单。部署新应用程序应该花费几秒而不是几小时或几天。运维:系统和应用程序具备可扩展性、可用性、监视、恢复和可靠性。用数字经济DIGITAL ECONOMY 66COvER StORY 2022封面户不必担心运维,可以专注于业务逻辑。治理:数据拥有安全性、高质量和完整性,包括审计和访问控制。所有数据都在一个支持多租户的安全环境中以连贯和受控的方式进行管理。可用:用户应该能够选择他们想要的工具,并根据需要轻松运行它们。应对不同分析、ML、AI 框架的支持整合到系统中。生产:通过调度和数据监控,可以轻松地将分析程序转换为生产应用,构建从数据抽取到数据分析的生产级数据流水线,并且数据的使用应该很容易由系统管理。简 而 言 之,它 类 似 于 DevOps 方法:从编写代码到生产部署的路径,包括调度和监视,应由同一个人完成,并遵循系统管理的标准。与提供许多标准CI、部署、监控工具以实现快速交付的DevOps 类似,通过标准化大量大数据组件,新手可以快速建立生产级的大数据平台并充分利用数据的价值。DataOps 方法论DataOps 的主要方法论仍处于快速发展 阶 段。像 Facebook 和 Twitter 这 样的公司通常会有一个专门的数据平台团队处理数据运营并实现数据项目。但是,他们的实现方式大多通过公司现有的 Ops基础设施集成,因此通常不适用于其他人。我们可以从他们的成功中学习经验,并建立一个可以由每家公司轻松实施的通用大数据平台。要构建 DataOps 所需的通用平台,我们认为需要以下技术:云架构:使用基于云的基础架构来支持资源管理、可扩展性和运营效率。容器:容器在资源隔离和提供一致的dev、test、ops 环境中的作用对于实现数据平台至关重要。实时和流处理:实时和流处理现在在数据驱动平台中变得越来越重要,它们应该是现代数据平台的一等公民。多分析引擎:将 MapReduce 传统的分布式处理框架和 Spark、TensorFlow等日常广泛使用的框架进行集成。集 成 的 应 用 程 序 和 数 据 管 理:DevOps 的常规实践可以应用于应用程序管理,但是数据管理以及应用程序和数据之间的交互需要很多额外的工作。多租户和安全性:该平台应为每个人提供一个安全的环境,以便每个人都可以使用这些数据并对每个操作进行授权、验证和审核。Dev 和 Ops 工具:该平台应为数据科学家提供有效的工具,以分析数据并生成分析程序,为数据工程师提供大数据流水线的工具,并为其他人提供消费数据和结果的方法。云原生 DataOps 应用场景对于中小客户,可以直接在公有云使用 DataOps,开箱即用、无需运维、按需付费。有大量的数据应用可供参考和直接使用,产生的数据应用可以支持生产决策,如果需要私有发布可以快速迁移。对于大中型企业,在公有和私有云上672022 年第 12 期数字经济Dig it a l Ec o n o myDigital Economy建设云原生大数据平台,通过标准化组件降低运维复杂度及成本。通过资源混排以及更细粒度的资源调度提高资源使用效率。对于大型集团型企业,在私有、混合云上建设私有 DataOps,允许业务部门以多租户方式共享数据平台能力,避免重复建设,便于内部各部门间应用隔离、资源计费、提升数据 ROI。云原生 DataOps 构建的典型应用场景包括:数据集成和交互查询;实时大屏展示;数据驱动应用;数据 API 服务;机器学习模型;BI 报表。践行 DataOps 需要合适的工具目前的大数据技术对于普通人来说仍然太难使用。部署一个适合生产环境的数据平台仍然是一项艰巨的任务。对于已经开始这一过程的公司来说,他们的数据平台团队大部分时间仍在做相似的事情,就像重新造轮子。有些公司已经意识到这些问题,并开始采用不同的方法来解决这个问题。其中一些使用基于容器的解决方案,另外一些以 Hadoop 为中心构建其平台。但对于企业用户来说,更加容易践行云原生DataOps方法是找到一款正确、合适的工具来帮助他们实践 DataOps 方法论。实际上,我们可以使用诸如新一代 在 线 DataOps 大 数 据 平 台 BDOS Online 这样的工具及平台,解决目前繁杂的数据开发问题,在实践中降低迈入数据大门的门槛。BDOS Online 是基于云原生 DataOps方法论及架构体系进行的大数据平台的产品实践。在云平台上运行大数据应用,使数据不再孤立地分布于多个云、位置的孤岛中,而可以从任何地方流畅安全地进行移动,并以一致、整体的方式管理数据从准备到报表阶段的整个生命周期。通过自动化、面向流程的数据分析方法,将人员、流程和技术进行结合,极 大 简 化 数 据 管 道 并 提 高 数 据 运 营 效率。为数据团队在统一环境进行高效协作提供便利,轻松地对数据系统作出频繁和可预测的重大变更。为高质量数据提供访问权限,保持安全和隐私控制,对数据分析管道进行全流程监控,从而帮助企业构建完整的、全功能的一站式DataOps 流程。责任编辑:杜玢翰

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开