拥有坚实的数据战略的组织将促进商业成功。

思考

为什么每个组织都需要数据策略

在过去的二十年里,组织看待和处理数据的方式发生了巨大的变化。传统上,企业将数据视为其活动的副产品,除了完成交易的记录之外,几乎没有任何价值。

如今,数据的数量和多样性要大得多——来自网络、移动应用程序、社交网络、企业系统、运营技术、传感器和物联网网络——许多组织认为,如果分析正确,这些数据可以为他们的市场和经营环境提供一个窗口

数据科学部门如雨后春笋般涌现,试图利用权力的数据.通过使用分析、机器学习和人工智能(AI),组织寻求在运营和市场互动的所有方面指导决策,同时实现自动化等新功能。

数据“FOMO”的麻烦

尽管快速的技术变革带来了兴奋和一些真正的进步,但它仍将组织机构置于一个尴尬的境地。在一个不断变化的环境中,有限的资源应投资于何处并不总是明确的。在缺乏确定性的情况下,决策的动机可能只是害怕错过(FOMO)。围绕数据的不确定性在很大程度上是合理的。

我们现在收集的数据量是前所未有的,处理数据爆炸对社会的各个层面来说既是一个机会,也是一个问题。

但对于企业来说,对机会的感知,加上对错失良机的恐惧,已经导致了大量的投资数据和分析基础设施,没有一个清晰的战略或了解如何从这些投资中获得价值。

去年澳新银行机构投资了13亿美元在数据分析工具或软件。但是,同样是这些组织中的60%表示,他们只有“初级”或“基本”级别的数据成熟度。一个2021全球数据报告该机构调查了全球1000多家公司,发现尽管进行了大量投资,但由于基础设施和管理实践,许多组织未能利用其数据。

事实上,参与调查的89%的澳大利亚组织报告称,他们正在努力管理自己的数据。调查显示,企业充斥着他们找不到、不信任、无法理解的数据,最终被证明对决策或实现新功能毫无用处。

同样,一个2020年的调查对澳大利亚200多名IT领袖的调查显示,他们对数据战略和数据管理高度关注。例如,90%的IT领导者担心他们将如何处理快速增长的数据量。图1显示了澳大利亚组织报告的担忧。

澳大利亚数据策略和数据管理调查

澳大利亚数据策略和数据管理调查

我们描绘了一幅令人担忧的画面,但这些统计数据可以通过数据策略得到改善。

101年数据策略

渐渐地,企业开始认识到设计处理数据的策略的必要性。许多公司已经投资了收集大量数据所需的所有基础设施和软件,但它们缺乏总体战略。通过策略,我们指的是文件化的程序和管理实践,以确保这些数据是可发现的,高质量的,并且对组织内的数据从业者可用。

数据策略可以是将数据库管理系统、数据湖、分析应用程序、报告系统和可视化工具的投资整合在一起所需的机制。事实上,数据策略应该独立于底层技术,从而实现真正是关于在数据实践和目标上调整组织改变人们处理数据的方式

强调黑暗数据

暗数据是收集和存储但从未使用过的数据。尽管一些黑暗的数据是为了监管或合规目的而持有的,组织中持有的数据量让我们对其数据策略的有效性有了一些了解。据估计,一个平均组织的暗数据占收集到的总数据的比例从超过50%到一个高达90%

在一个每天收集7.5万亿g数据的世界里,这是非常多的数据。一个组织产生或使用的数据中,真正被分析的比例甚至更小。2017年,IBM估计,大多数公司只分析1%的数据[1]

暗数据代表失败的数据策略。这是假设一开始就有人认为收集和存储数据是一个好主意。能够按预期使用数据的过程应该是经过深思熟虑的数据策略的结果之一。这同样适用于停止收集和处理发现根本不需要的数据。

设计数据策略

从头设计数据策略是一项很大的任务。它需要解决治理问题,例如组织中谁可以查看什么数据,谁负责执行协议和流程,收集和保留哪些数据,如何管理数据质量和上下文,以及如何安全地、低成本地存储数据。

虽然这些都是重要的问题,但如果数据不能用于改善决策制定或开发组织内的新能力,那么保护和治理数据就没有意义。数据策略需要处理数据管理的某些关键方面,以促进和改善在组织内提供和使用数据的方式。

数据必须是可发现的

首先,数据必须是可发现的。约翰从会计的笔记本电脑上得到的Excel电子表格不是可发现的数据,因为需要它的人不太可能找到它。

在任何数据项目中,当人们试图识别和跟踪他们需要的数据时,都会浪费很多时间。原则需要是人们可以在自助服务的基础上找到和访问相关数据。

实现可发现性的通常方法是建立和维护数据目录。这是一个集中的元数据数据库识别组织的数据资产以及与数据相关的运营、公司和治理细节。数据目录允许用户搜索、筛选和浏览机构的数据资产,实现自助服务。

虽然可以手动维护数据目录,但是有很多第三方产品可用。这包括来自三大云供应商的基于云的产品,旨在使用自动化和AI算法从源数据中提取元数据来创建和维护数据目录。

由于在包括塔、交换机和交易所在内的物理资产的巨大网络上收集了大量数据,因此迫切需要统一数据源,以提供跨资产更好的可见性,以便做出更准确的决策。

每个物理资产都有其维护和升级的复杂性和需求,并且数据以pdf格式分布在多个系统中,这是一项具有挑战性的任务。为了实现这一点,创建了一个具有活动3D模型的单一系统环境,具有一致的数据获取、管理、组织和存储的方法整个网络。

这解决了单独存储数据和切换回历史系统的问题,这意味着员工可以访问他们知道是最新的和可信的数据。

通过掌握正确、优质、可信的信息,这些机构正在实现重大价值,包括通过自动化流程节省时间,如塔的结构分析,或电力可行性审计,以了解他们的网站使用了多少电力。他们现在可以密切地观察他们所做的每一件事,以确定什么可以被自动化,然后将这个过程推入他们唯一的真相来源。

案例研究
电信供应商跨不同的资产基础统一数据

电信公司跨不同资产基联合数据

数据必须存档

一旦建立了数据目录,它还可以用作数据文档的存储库。对于分析师或数据科学家来说,没有什么比一个带有神秘字段头、没有文档的CSV文件更令人沮丧的了。在分析中,一个常见的花费时间的方法就是找出数据到底代表了什么。

模棱两可或难以理解的字段名通常是罪魁祸首——我们看到的是增量还是原始读数?允许的值是多少?它们是读数还是计算值?等。

对任何被视为数据源的数据集强制规定最低文档级别,强化了自助服务数据的概念。它确保用户拥有解释数据所需的所有信息,而无需花费宝贵的时间跟踪和询问主题专家。建立数据文档的最低标准应该是数据策略的关键部分,而数据目录是保存文档的方便地方。

必须积极地管理数据质量

正如我们上面看到的,在澳大利亚的组织中,一个非常普遍的问题是员工对他们所能获得的数据高度不信任。有效的数据策略可以通过记录数据质量管理过程来解决这个问题。

这些流程应应用于所有入职数据,同时还应记录和提供数据质量流程的结果。从技术角度来看,可以实现类似于以下的数据概要分析方法:

  1. 在数据的生命周期中尽早审查数据,测试数据的准确性、一致性、完整性、完整性(有效性)和及时性。
  2. 将数据与自己的元数据进行比较,以识别和解决任何不一致和异常。
  3. 运行统计模型并使用标准化指标报告数据的质量,如空值的数量或错误与数据的比率(数据目录是一个很好的地方)。

质量控制措施的类型和水平将取决于所讨论的数据,但在考虑数据质量策略时,还有一些更广泛的想法可以应用。

跟踪数据质量问题的方法与跟踪软件开发中的bug的方法相同。

提供一种机制,让用户报告数据质量问题,指派适当的数据管理员进行纠正,并保存关于该问题的讨论日志。

数据策略还可以要求在错误纠正期间遵循一般原则。例如,可以规定数据质量问题应在尽可能接近摄入点的地方处理,而不是在下游数据处理的一部分进行补救。

为此,数据捕获在结构化的形式中,应该优先使用强制良好数据卫生的软件(例如使用执行字段验证和健康检查的网页),而不是手动数据输入和大量自由文本。数据策略的目标不仅是产生高质量的数据,而且还确保组织内的人对数据有信心。

悉尼水务公司需要调整他们的系统,以减少陈旧的基础设施对环境和社会的影响,但预计建设改善成本为55亿澳元。为了减少开支,我们利用统计分析和模拟方法,制定了改善潮湿天气流量计划。

6个具有历史资产数据的独立数据库被整合到一个单一的参考系统中,并与数字资产数据相结合,创建一个数字平台,根据数据分析和现场检查,在地理上绘制每个资产的状况和位置。

这优化了运营和维护计划,以降低新的高成本资产的支出,但通过减少潮湿天气下的雨水排放,悉尼水务公司能够改善其环境和社会影响。

案例研究
优化运营和维护计划,尽量减少悉尼水务对环境和社会的影响

水对环境和社会的影响

数据应该支持分析和新功能

收集无法分析或用于实现新功能的数据没有什么价值。一个组织的数据战略应该认识到这一点,通过建立数据管理流程来实现高效和有效的分析和报告,这有助于开发基于机器学习和AI的新能力。

例如,只有在基于具有上下文的数据时才可能进行有意义的分析。因此,数据应该与元数据相关联,从而为其提供上下文,并在整体数据体系结构中定位它——也就是说,每个数据集都应该用基本元数据进行注释或“标记”。

而且,单个数据项目处理单个数据集的情况非常罕见。在许多公司中,数据科学家和分析师构建自己的数据管道,为每个新项目反复集成来自多个来源的数据。这需要大量的时间,而且可以在数据吸收过程中更有效地完成——理想情况下只需一次,然后自动完成。在没有注释数据的情况下,执行高级分析,如机器学习和人工智能,也是非常困难的(事实上,监督机器学习甚至需要单独的记录被“标记”)。

建立良好的上游数据管理实践是经过深思熟虑的数据策略的重要组成部分。

它应该确保分析中使用的所有数据的来源都很容易跟踪,数据具有上下文和含义,并且可以通过组合不同的数据集快速创建新的数据源。这不仅提高了分析团队的效率,还有助于确保组织内的每个人都在使用相同的数据,这些数据可以被理解和信任。

元数据力量的一个经典例子是互联网广告。我们都曾因为在电子邮件中观看、搜索或谈论的内容而在互联网上受到定向广告的影响。之所以会出现这种情况,是因为谷歌和Facebook等公司擅长从自己的系统中自动收集原始数据,对其进行注释,并将其结合起来,形成每个上网用户的丰富行为档案。

这些配置文件使用机器学习不断更新,并能够预测每个用户的兴趣、态度和未来可能的行为。不管你是否同意这种做法,它是非常有效的。而这正是许多公司犯错的地方——他们无法整合来自不同系统的原始数据,从而形成一幅关于他们的业务或客户的连贯图景。如果没有这种综合能力,他们将无法释放出高级分析、机器学习和人工智能的潜力,即使这些技术的应用领域已经很清楚。

那么,您准备好数据策略了吗?

澳大利亚的组织显然面临着如何处理数据和从分析中获得可操作的见解的问题。这种情况的根本原因通常是缺乏处理数据的总体策略。许多组织已经在数据基础设施和分析能力方面进行了投资,但没有考虑到将这些整合在一起所需的基本流程和管理实践。

我们刚刚谈到了发展一个健全的数据策略的几个方面,但许多组织为了使他们的数据收集活动与分析实践相结合,并促进更好和更可信的分析,还有很多工作要做。这个转变不会容易,但是好的数据策略是使公司能够利用高级分析的关键基础,并从他们在数据收集和分析方面的投资中获得真正的价值。


关于作者

Eric Louw他是Aurecon的数据、风险和分析总监。他拥有20年领先管理咨询公司和独立战略顾问的经验。他与人合著了三本商业书籍,以及许多文章和学术论文。


参考文献

哈扎德,M.艾哈迈德(2017年1月3日)。制造业转型的大数据挑战”。IBM大数据与分析中心。

不幸的是,您使用的是Aurecon不支持的web浏览器。

请将您的浏览器更改为以下选项之一,以改善您的体验。

支持的浏览器:

最重要的