现在,企业对数据观念的转变已经将数据管理推向了新的高度。数据科学是现在数据管理的核心组成部分,但数据管理和数据科学往往被视为两种不同的活动。数据科学家工作在数据分析师、数据工程师和DBA之间,他们把时间花在为数据分析和竞争情报做好数据基础设施上。但是,在不断发展的下一代数据市场中,数据管理和分析将是市场成功的核心差异化因素,因此,数据管理和数据科学必须协同工作。
《福布斯》的一篇文章提到了Everest Group的一项研究,该研究指出,到2025年,全球数据管理和分析市场将达到1350亿美元。多年来,这个市场的厂商已经从功能到流程转向平台导向。在平台导向中,数据不再被视为业务流程的副产品,而是业务的神经中枢。
数据管理与数据科学:区别
一个组织的数据管理职能全面控制企业数据的获取、存储、质量、治理和完整性,从而监督该组织内所有数据相关政策的制定和实施。但是,数据管理团队只管理数据资产,它通常不参与数据的核心技术应用。数据管理职能部门拥有所有的数据。在网络研讨会 "数据管理与数据战略 "中,Peter Aiken谈到了 "组织数据管理需求与数据战略需求的优先级"。
另一方面,组织中的数据科学职能部门对数据资产的所有 "技术应用 "进行构思、开发、实施和实践。在这个意义上,"技术应用 "意味着涉及企业数据的科学、技术、工艺和业务实践。
数据科学团队从不拥有任何数据,他们只是收集、存储、处理、分析数据--然后向企业其他部门报告数据驱动的成果,以获得业务收益。数据科学家被认为是数据科学和相关技术的专家,他们依靠高度专业化的知识(统计学、计算机科学、人工智能等知识)为企业提供数据驱动实践的建议。
在实际工作中,数据科学职能隶属于组织的数据管理职能。数据科学团队为组织带来了一套核心技术技能,以实施数据管理政策、程序和准则所规定的最佳实践。
数据管理实践VS数据科学实践
随着数据的数量和复杂性急剧上升,数据管理已成为业务运作的最重要方面之一。数据管理做法涉及制定与数据有关的政策、程序、角色、责任和严格的访问控制机制。
完善的数据管理战略,以数据治理为重点,实现商业价值的最大化,目前已成为企业领导者和经营者讨论的中心议题。企业中的数据管理团队负责构思和制定所有的政策。
组织中不同部门的数据专业人员负责在日常数据相关工作中执行和遵循所有政策和准则。正如《数据管理与数据治理》中所解释的那样,数据治理已被确定为数据管理的核心组成部分。《数据管理与数据治理:改进组织数据战略》中解释了这一点。
在数据科学领域,战略政策、程序和准则在数据技术项目的实施过程中起着重要作用,尽管在这个阶段没有一个管理角色直接出现。换句话说,组织数据战略家通过塑造管理数据的政策、程序和准则来结束他们的工作;然后,数据科学家或其他数据专业人员的职责是遵守政策和准则,以确保组织-数据战略蓝图的完整。
数据管理策略人员也会思考可能出现的违规行为和处罚措施,以便通过控制措施来监督企业数据策略的实施。
关于数据管理,数据科学家应该知道什么?
《迈向数据科学》指出,最近的几次技术运动要求数据科学家重新思考数据管理实践,以实现高级分析。这些技术运动是:
- 数据存储成本降低,容量增加
- 流媒体数据的物联网设备的崛起
- 重塑数据湖,存储和分析多类型数据。
- 大数据分析
- 使用机器学习模型
随着上述内容在现代企业中占据中心地位,数据科学家现在面临的挑战是建立正确的治理支持的数据基础设施,以进行高级分析并提取增值的见解。
增强型数据管理:减轻数据科学家的负担
在典型的增强型数据管理系统中,数据集成、数据质量、主数据管理(MDM)、元数据管理和数据库管理系统(DBMS)这五项核心数据科学活动通过工具完全或部分自动化。
通过使用先进的AI、Ml或分析工具,数据科学家可以从 "繁重的数据准备工作 "中解脱出来。通常情况下,数据科学家约有80%的时间花在为分析准备数据上;这些工具消除了这种耗时的参与--为复杂的分析工作留下了充足的时间,其中可能包括模型开发或数据解释。增强型数据管理被列为Gartner 2020年十大数据分析趋势之一。
数据法规在数据管理和数据科学中的作用
一般数据隐私条例(GDPR)和CCPA等数据法规的出现,为现有的数据管理实践增加了一个与数据科学重叠的新维度。新法规提供了更好的管理机制,尤其是在数据隐私、数据安全和道德方面,但却使AI驱动的数据科学平台变得复杂。现在,数据管理者不仅要考虑对数据隐私、安全和伦理实施严格的控制,还要担心先进技术(AI、ML)对数据治理的影响。
在以法规为中心的数据治理、数据管理和数据科学实践的新世界中,这些活动仍将是平行的活动,但会在一些情况下发生交叉。
这种碰撞的最终结果是什么?供应商和服务提供商将进行合并、收购和整合。
从严格的技术角度来看,Gartner已经奠定了企业数据管理和数据科学实践的以下可观察的转变。
- 在实践中学习
- 业务信息架构
- 思考建立数据中心,加强数据治理。
- 要集中或去中心化,新的CDO角色,不管是首席数据还是首席数字。
数据管理和数据科学如何协调?
在理想的业务场景中,数据管理和数据科学实践相统一,才能获得最佳结果。那么,这两种实践如何协调呢?
- 通过双方就维护数据治理准则达成协议
- 通过更好地了解数据管理和数据科学的重叠方式和位置。
- 通过建立一个结构良好的数据科学框架,使初级数据科学家能够完成工作。
根据Quora上的讨论,数据管理专注于治理良好的数据收集和数据访问。数据科学侧重于从数据分析中得出战略业务决策。数据管理的缺失表明 "数据科学由于数据质量差或无法访问而提供糟糕的分析结果 "的风险。
发表评论