丹•沙利文

由于采用云计算使企业能够扩展其技术基础设施,了解如何利用存储在云服务器中的所有数据变成一个有竞争力的当务之急。公共云平台使数据科学家收集的深刻见解,因为服务支持科学数据的整个生命周期,从数据的勘探和采集通过部署模型或解释一个人的调查结果。

混合和多云基础设施越来越受欢迎的是,公司不再需要依靠单一的供应商来满足每一个云需求。数据团队有广泛的选择当它涉及工具和平台和几个因素会影响我们作出的选择。这就是为什么我鼓励公司和我的学生考虑谷歌云平台(GCP)的解决方案为他们多云架构内的任何数据科学中的应用。

GCP作为公共云基础设施提供商的日益普及,目前被列为亚马逊的AWS和微软的Azure之后的第三大公共云提供商。每个云供应商提供其自身的优点和缺点,当涉及到的功能,但在这里我觉得GCP真的从它的竞争对手中脱颖而出是在数据科学和机器学习。

在这篇文章中,我将分享五个差异化,使GCP数据科学团队的强大工具。

1.易用性

其中的第一件事情通知用户有关谷歌云平台(GCP)是多么容易上手的虚拟机和云存储。数据科学家可以旋转的虚拟机和容器,上传数据,并开始分析工作全部由一个图形用户界面。另外,GCP提供了合理的默认值对于很多基础设施的配置参数,这意味着数据的科学家花费更少的时间配置的东西像防火墙规则和安全组。

如果您正在使用大型数据集时,您可以将数据上传到云存储,您可以在几类存储中进行选择。如果你需要从不同的地理区域数据的低延迟访问,您可以使用多区存储设备;不经常访问的数据可以存储在近线或COLDLINE存储。同样,所有这些都可以通过图形用户界面来完成。

谷歌副云工程师:2020年获得认证

最后更新2020年8月

  • 110个讲座
  • 中级水平
4.5 (1931)

从编写谷歌|官方认证指南的人那里了解如何通过考试丹沙利文

探索课程

2.计算范围选项

GCP提供了各种计算资源,您可以根据需要选择最优配置。如果需要完全控制服务器和操作系统,可以使用Compute Engine。托管实例组使得创建实例和根据需要自动伸缩实例变得很容易。

如果您喜欢部署容器,Kubernetes引擎提供托管集群,而云运行是运行无状态容器的无服务器选项。计算引擎和Kubernetes引擎都支持gpu和TPUs的使用。

3.数据的科学管理服务

花时间配置和管理服务器免受可能被花费在分析数据和建立模型时带走。随着GCP,团队可以使用托管服务,以减少普通数据科普工作的运行成本。

云Dataproc是管理星火/ Hadoop的服务,让您快速旋转起来集群。与内部部署的Spark集群通常连续运行,Dataproc集群通常是短暂的。功能,可导致显著的储蓄 - 当你需要他们,并关闭他们当你的工作完成后,您启动它们。

Cloud Dataflow是一种用于steam和批处理的托管服务,非常适合在分析之前对大型数据集进行预处理。GCP服务集合中最近添加的云数据融合也可用于提取、转换和加载(ETL)和ELT工作流。

4.建立模型与SQL

存储了这么多结构化数据关系数据库,SQL是一个重要的数据的科学技能。GCP提供的BigQuery,有管理的分析型数据库,使用SQL作为查询语言。

更重要的是,BigQuery SQL允许用户在SQL中创建回归和分类模型,包括线性回归、二元和多类logistic回归、K-means聚类、时间序列预测、XGBoost等,并允许用户运行TensorFlow模型。如果您想使用SQL,并且需要扩展到pb的卷数据集,那么可以考虑使用BigQuery。

5.告诉你的故事

一旦你完成你的分析,它的时间打造出来的数据背后的故事,并分享在整个组织中那些结果。像云数据Studio工具使团队构建交互式仪表板,包括可视化,可以帮助非技术团队成员更好地理解数据的故事。

云数据工作室与BigQuery集成以及其他服务,包括谷歌Analytics(分析)和谷歌的广告。随着谷歌收购了流行的商业智能平台,Looker现在客户有一个高端的商务智能分析和报告提供给他们的平台,使不断增长的数据涌入公司的感觉。

要开始使用GCP数据的进步,我建议你和你的团队构建平台的知识基础水平通过完成谷歌准云工程师认证。通过该考试所需的技能使您能够理解计划和配置云解决方案、监视云操作、部署应用程序、管理公司的云环境等所需的GCP基础知识。

使您的团队。引领行业。

获取订阅的在线课程和数字学习工具库与您Udemy组织业务。

申请演示

最后更新日期:2020年七月