丹•沙利文

随着云采用允许公司扩展其技术基础架构,了解如何利用存储在云服务器中的所有数据成为竞争命令。公共云平台允许数据科学家收集深层洞察,因为服务支持数据科学的全部生命周期,从数据探索和收集到部署模型或解释一个人的调查结果。

混合和多云基础设施越来越流行的是,公司不必依赖单一供应商来满足每一个云需求。数据团队有各种各样的选择工具和平台几个因素会影响我们所做的选择。这就是为什么我鼓励公司和学生考虑在其多云结构中的任何数据科学应用程序中考虑Google云平台(GCP)解决方案。

GCP作为公共云基础设施提供商正在越来越受欢迎,目前在亚马逊的AWS和Microsoft的Azure之后作为第三大公共云提供商等级。每一个云提供商在功能方面都提供自己的优点和缺点,但我觉得GCP真的从竞争对手中脱颖而出,是在数据科学和机器学习中。

在本文中,我将分享五个差点,使GCP成为数据科学团队的强大工具。

1.易用性

用户注意到的第一件事之一谷歌云平台(GCP)是使用虚拟机和云存储器开始的容易。数据科学家可以从图形用户界面旋转虚拟机和容器,上传数据和启动分析作业。此外,GCP为许多基础架构配置参数提供合理的默认值,这意味着数据科学家花费更少时间配置防火墙规则和安全组等内容。

如果您使用的是大型数据集,可以将数据上传到Cloud Storage,在Cloud Storage中可以选择多种类型的存储。如果您需要低延迟访问来自不同地理区域的数据,您可以使用多区域存储;访问频率较低的数据可以存储在Nearline或Coldline存储器中。同样,所有这些都可以通过图形用户界面完成。

谷歌助理云工程师:获得认证2020

最后更新2020年8月

  • 110讲座
  • 中级水平
4.5 (3,963)

从写谷歌|官方认证指南的家伙那里学习如何通过考试丹苏里瓦

探索课程

2.计算选项范围

GCP提供各种计算资源,您可以为您选择,为您的需求选择最佳配置。如果您需要完全控制服务器和操作系统,则可以使用Compute Engine。托管实例组使得可以轻松创建实例并根据需求自动缩放它们。

如果您喜欢部署容器,Kubernetes发动机提供托管集群,而Cloud Run是运行无状态容器的无服务器选项。Compute Engine和Kubernetes Engine都支持使用gpu和tpu。

3.数据科学的托管服务

花费时间配置和管理服务器将带走可能花费分析数据和构建模型的时间。使用GCP,团队可以使用托管服务来减少常见数据科学工作的运营开销。

Cloud DataProc是一个托管的火花/ Hadoop服务,允许您快速旋转群集。与通常不断运行的前提的火花群不同,DataProc集群通常是短暂的。当您需要它们并在您的工作结束时关闭它们时,请启动它们 - 能够导致大量储蓄的功能。

Cloud DataFlow是蒸汽和批处理的托管服务,并且非常适合在分析之前预处理大数据集。GCP一组服务更新,云数据融合也可用于提取,转换和负载(ETL)和ELT工作流程。

4.使用SQL构建模型

存储了这么多结构化数据关系数据库,SQL是一项基本数据科学技能。GCP提供了一个使用的管理分析数据库BigQuerySQL.作为查询语言。

更重要的是,BigQuery SQL允许用户在SQL中创建回归和分类模型,包括线性回归、二进制和多类逻辑回归、K-means聚类、时间序列预测和XGBoost,并允许用户运行TensorFlow模型。如果您希望使用SQL并需要将数据集扩展到pb级,那么BigQuery是一个可以考虑的选项。

5.告诉你的故事

完成分析后,是时候建立了数据背后的故事并在组织中分享这些结果。像云数据工作室这样的工具使能团队构建交互式仪表板,包括可帮助非技术团队成员更好地理解数据故事的可视化。

Cloud Data Studio与BigQuery以及其他服务集成,包括Google Analytics和Google广告。随着谷歌收购流行商业智能平台,景族,客户现在拥有高端的商业智能分析和报告平台,可供他们使用涌入公司的日益增长的数据。

为了开始使用GCP中的数据进展,我建议你和你的团队通过完成GCP建立一个平台的基础知识水平谷歌助理云工程师认证。通过此考试所需的技能可以帮助您了解规划和配置云解决方案、监控云操作、部署应用程序、管理您公司的云环境等所需的GCP基础知识。

让你的团队。领导行业。

通过Udemy为Business获取组织的在线课程和数字学习工具库的订阅。

请求一个演示

页面上次更新:2020年7月