◆◆0

数据湖真的已经没落了吗？

yuyuxi 2020-12-04 BI, 商业智能（BI）, 大数据应用, 大数据资讯, 行业新闻 3,318 views

就在不久前，整个数据世界还在沸沸扬扬地讨论如何创建集中式数据存储，以最大限度地提高数据的可用性，从而达到高级分析的目的。博客们大声疾呼反对数据湖，支持组织良好的数据库，开源社区团结在Hadoop生态系统周围，大数据技术飞速发展。本文就这个状况回顾一下推动数据湖采用的一些假设，并注意一下这些假设的稳定性。

假设1: "数据存储很贵，所以建立属于自己的Hadoop数据湖，经济效益看起来更有吸引力。"

事后看来，这个假设如何？

可以肯定的是，Hadoop中每GB存储的TCO可以比传统RDBMS系统的成本低5%甚至更低。但是，即使是最有经验的企业也很快了解到运营一个企业集群有多难。开源软件的不断更新，管理环境的技能稀缺，以及生态系统的相对不成熟，都造成了难以管理的技术故障和依赖性。除此之外，一旦Hadoop完成了三次数据复制，管理员需要快照和副本来克服Hadoop更新的局限性，1TB的RDBMS数据可能会在湖中变成50TB。这些节省下来的钱就这么多了。

新兴的现实：云和云数据仓库

亚马逊、微软和谷歌急于用托管的、基于云的环境来填补这些生产力的空白，这些环境简化了管理，使数据科学家更快地提高生产力。接下来，消费模式取代了Hadoop on-pre环境的资本成本，这意味着人们不太愿意简单地将所有大型数据集倾倒到一个中央环境中。相反，他们根据分析需要加载数据。因此，这就产生了从大型的on-prem数据湖转移到小型的基于云的数据池塘的效果，这些数据池塘是为目的而建立的。再进一步，新的云仓库通过基于SQL的工具使访问和查询这些数据变得简单，这进一步向非技术消费者释放了数据的价值。

假设2: "大数据太大了，搬不动。移动一次数据，把电脑移到数据上"。

事后看来，这个假设是怎样的？

数据湖的一个关键假设是，网络和处理速度的限制意味着我们无法将日志文件等数据的大副本移动到集群中进行数据分析。Hadoop也是面向批处理的，这意味着这些类型数据的大批量处理是非常不切实际的。事实证明，数据复制和流媒体的改进，以及网络方面的巨大收益，导致这种情况没有我们想象的那么真实。

新兴的现实：数据虚拟化和流媒体

技术的改进意味着企业可以选择如何访问数据.也许，他们希望将查询从事务性系统卸载到云环境中；数据复制和流媒体现在是简单的解决方案。也许，交易系统是为高性能查询而构建的；在这种情况下，数据虚拟化功能可以使该数据按需提供。因此，企业现在可以选择让数据更多地按需提供给DataOps流程，这意味着并不总是需要将所有企业数据物理地集中在一个位置。

假设3: "读时的数据湖模式将取代写时的数据仓库模式。"

事后看来，这个假设如何？

人们已经厌倦了IT团队将ETL写入数据仓库所花费的时间，并迫切希望简单地释放数据科学家对原始数据的处理。有两个主要的症结所在。首先，数据科学家往往不能轻易地找到他们要找的数据.其次，一旦他们有了数据，分析负责人很快就会发现，他们的ETL只是被数据纠缠工具所取代，因为数据科学仍然需要清理，如标准化和外键匹配。

新兴的现实：数据目录和数据运营

智能数据目录已经成为寻找所需数据的关键。现在，企业正试图通过简单的解决方案，在工作场所建立起用户在家中享受的谷歌搜索一样的搜索方式，以查找和访问数据，而不管保存数据的数据存储的物理位置在哪里。DataOps流程也已经出现，它是建立基于领域的数据集的一种方式，这些数据集经过精心规划和管理，可以实现最大的分析生产力。因此，数据科学家应该能够轻松地找到并信任他们用来发现新的见解的数据，经过深思熟虑的技术和流程的融合应该能够使数据管道和分析管道快速运行，以支持这些新发现。这个过程可以实现实时分析。

在Qlik寻求现代化的数据分析架构时，这些关键的新兴现实是他们需要思考的重点：

基于云的应用和分析架构
数据仓库/RDBMS结构在云中的重新崛起，以实现价值最大化（想想Snowflake）。
数据流以减少关键数据的延迟
数据虚拟化，以减少数据的复制，直到需要为止。
数据目录，仔细清点和管理企业数据的访问。
DataOps流程的出现，为数据和分析管道创造了快速上市的时间。

点击获取Qlik

关于Qlik

Qlik的愿景是一个数据素养的世界，每个人都可以使用数据来改善决策并解决他们最具挑战性的问题。只有Qlik提供端到端的实时数据集成和分析解决方案，以帮助组织访问所有数据并将其转化为价值。慧都作为Qlik官方的中国合作伙伴，我们为Qlik的中国用户提供产品授权与实施、定制分析方案、技术培训等服务，旨在让中国企业的每个Qlik用户都能探索出数据的价值，让企业形成分析文化。了解更多信息，请咨询在线客服>>