丹•沙利文

随着云技术的采用,公司可以扩展其技术基础设施,了解如何利用存储在云服务器中的所有数据成为竞争的当务之急。公共云平台允许数据科学家收集深入的见解,因为这些服务支持数据科学的整个生命周期,从数据探索和收集到部署模型或解释发现。

混合和多云基础设施随着云计算越来越流行,企业不再需要依赖单一供应商来满足每一个云计算需求。数据团队在这方面有很多选择工具和平台有几个因素会影响我们的选择。这就是为什么我鼓励公司和我的学生考虑谷歌云平台(GCP)解决方案的任何数据科学应用在他们的多云结构。

GCP作为公共云基础设施提供商的地位日益提高,目前已成为继亚马逊AWS和微软Azure之后的第三大公共云提供商。每个云提供商在功能方面都有自己的优势和劣势,但我觉得GCP真正从竞争对手中脱颖而出的是数据科学和机器学习。

在本文中,我将分享使GCP成为数据科学团队强大工具的五大优势。

1.易用性

用户首先注意到的事情之一谷歌云平台(GCP)是指开始使用虚拟机和云存储有多容易。数据科学家可以通过图形用户界面启动虚拟机和容器,上传数据,并开始分析工作。此外,GCP为许多基础设施配置参数提供了合理的默认值,这意味着数据科学家在配置防火墙规则和安全组等方面花费的时间更少。

如果您正在处理大型数据集,您可以将数据上传到云存储,您可以在多个存储类别中进行选择。如果需要低延迟访问来自不同地理区域的数据,可以使用多区域存储;较不频繁访问的数据可以存储在近线或冷线存储。同样,所有这些都可以通过图形用户界面完成。

谷歌助理云工程师:2021年获得认证

2021年8月

  • 111次讲座
  • 所有级别
4.5 (5,900)

学习如何通过考试的家伙谁写的官方认证指南谷歌|丹·沙利文

探索课程

2.计算选项范围

GCP提供多种计算资源,您可以根据需要选择最佳配置。如果您需要完全控制服务器和操作系统,可以使用ComputeEngine。托管实例组可以轻松创建实例,并根据需要自动上下扩展实例。

如果您喜欢部署容器,库伯内特斯发动机提供托管集群,而Cloud Run是一个用于运行无状态容器的无服务器选项。Compute Engine和Kubernetes Engine都支持gpu和tpu的使用。

3.数据科学的托管服务

花时间配置和管理服务器会减少分析数据和构建模型的时间。有了GCP,团队可以使用托管服务来减少公共数据科学工作的运营开销。

CloudDataProc是一个托管Spark/Hadoop服务,允许您快速启动集群。与通常连续运行的内部Spark集群不同,Dataproc集群通常是短暂的。您需要时启动它们,工作完成时关闭它们—这些功能可以带来显著的节约。

云数据流是一种用于steam和批处理的托管服务,非常适合在分析之前预处理大型数据集。GCP服务集最近增加的一项服务,即云数据融合,也可用于提取、转换和加载(ETL)和ELT工作流。

4.使用SQL构建模型

存储了这么多结构化数据关系数据库,SQL是一项基本的数据科学技能。GCP提供了BigQuery,一个管理的分析数据库,它使用SQL作为查询语言。

更重要的是,BigQuery SQL允许用户在SQL中创建回归和分类模型,包括线性回归、二元和多类逻辑回归、K-means聚类、时间序列预测、XGBoost以及运行TensorFlow模型。如果您想使用SQL,并且需要扩展到pb的卷数据集,那么BigQuery是一个可以考虑的选项。

5.告诉你的故事

一旦您完成了分析,就应该构建数据背后的故事,并在整个组织中共享这些结果。诸如Cloud Data Studio之类的工具使团队能够构建交互式仪表板,包括可以帮助非技术团队成员更好地理解数据故事的可视化。

云数据工作室与BigQuery以及其他服务集成,包括谷歌分析和谷歌广告。谷歌收购了流行的商业智能平台,客户现在有了一个高端的商业智能分析和报告平台,可以了解涌入公司的不断增长的数据。

为了开始使用GCP中的数据进步,我建议你和你的团队通过完成谷歌助理云工程师认证.通过此考试所需的技能有助于理解计划和配置云解决方案、监控云操作、部署应用程序、管理公司云环境等所需的GCP基础知识。

让你的团队。领导行业。

使用Udemy for Business订阅您所在组织的在线课程和数字学习工具库。

请求一个演示

最后更新的网页:2020年7月