
当前位置:网站首页 >新闻资讯
勒索病毒引出重大话题:公有云比私有云更安全?
发布时间:2017-05-27 13:44:57来源: 北京鼎轩科技有限责任公司
数据工程师往往把重点放在软件工程、数据库设计、生产环境代码上,并确保数据在来源(在那里它被收集)和目的地之间平稳地流动(在目的 地那里通过统计摘要提取和处理,或通过数据科学算法产生结果,并最终转移到源或其他地方) 。数据科学家却需要了解数据的流动和如何优化( 尤其是使用Hadoop时) 。实际上不是优化数据流本身,而是数据处理的步骤,从数据中提取出价值 。数据科学家与工程师和商业人员一起工作 定义指标、设计数据收集方案,并确保数据科学流程与企业数据系统(存储、数据流)有效地集成。对于在小公司工作的数据科学家,尤其如此, 这也是数据科学家应该能编写可被工程师重复使用的代码的原因。
发现:识别良好的数据源和指标。有时(与数据工程师和业务分析师一起工作),对应该创建的数据提出需求。
获取:获取数据,有时通过API、网络爬虫、互联网下载或数据库,有时是从内存数据库获取数据。
提炼:从数据中提取信息,做出决策,增加投资回报率,并采取行动(比如,在自动投标系统中,确定最佳的投标价格)。它包括以下内容。
— 通过创建数据字典和进行探索性分析,对数据进行探索。
— 清洗数据杂质。
— 通过数据汇总进一步提炼数据,有时是通过多层汇总或分层汇总来实现的。