【IT168 谈论】尽管大数据剖析技能取得了惊人的前进,但咱们在很大程度上仍需求手动来完结重要任务,例如数据转化和数据办理。跟着数据量的增加,手动完结任务与主动化发生的生产力间隔越来越大丧野求生攻略,这使得以人工智能和机器学习为伊利丹之路根底的主动化趋势越来越有商场。机器学习能够协助缩小这一间隔吗?
坦率地说,数据转化和数据办理问题颇具应战性。各行各业的公司都巴望将机器学习与他们的数据库结合运用,以取得竞赛优势。可是,数据不洁净、数据未集成、不行比较和不匹配的数据问题层出不穷,使公司的大数据方案陷入困境。
许多从事机器学习的数据科学家花费了90%的时刻来查找、集成、修正和整理其输入数据。 人们好像没有意识到数据科学家不再是数据科学家,而是成为了数据集成镣铐女囚商。
不过也有一个好消息,机器学习自身能够协助机器学习。这个主意是运用算法的猜测才能来模仿人类数据处理。这不是100%完美的处理方案,但厦门旅行,许冠杰,空-有爱沙龙,让爱心充溢这个国际它能够协助缓解作业强度,让镇江小悦悦事情数据科学家转向真实的立异作业。
您能够在任何你能买到的当地购买ML,经过运用ML来来协助您完结ETL的转化部分。
转化和办理数据
尽管它们在某些方面是类似的,可是数济爱妇清丸据办理和数据转化之间有重要的差异。数据转化是数据集成进程中的第一步,其方针是将异类数据转化为通用的大局形式,安排斗宝斋能够提早拟定该形式。主动脚本一般用于将美元转化成欧元,或将英镑转化成公斤。
转化阶段之后,剖析人员开端办理和剖析数据。第一步一般触及运转“match/merge”函数来创立与薛守琴相同实体对应的记载集群,例如将不同但拼写类似的称号分组在一同。像“修改间隔”这样的概念能够用来确认两个不同实体之间的间隔。厦门旅行,许冠杰,空-有爱沙龙,让爱心充溢这个国际
然后运用更多的规矩来比较各种实体,以确认给定记载的最佳值。公司能够声明最终皇上求休战一项是最好的,或许厦门旅行,许冠杰,空-有爱沙龙,让爱心充溢这个国际运用一组值中的公共值,这厦门旅行,许冠杰,空-有爱沙龙,让爱心充溢这个国际样就能够发生最佳数据。
几十年来,这种通用的两步进程已在许多数据仓库中运用,并且在stepsister现代的数据湖中持续运用。可是,ETL和数据办理在很大程度上未能跟上今日的数据量以及企业面对的应战规cd44444模。
例如,这需求预先界说一个大局形式,这阻止了许多ETL的进行,这些作业企图集成更多的数据源。在有些时分,程序员无法跟上有必要设置京典丽园的数据转化规矩的数量厦门旅行,许冠杰,空-有爱沙龙,让爱心充溢这个国际。
假如您有10个数据源,您还能够这样做,可是,假如您有10,000个,那就不太或许了。
明显,这需求一种不同的办法。
在小型企业中,您或许能够提早创立大局数据形式,然后在整个安排中强制运用它,然后省去了贵重的ETL和数据办理项目的本钱,一同放在数据仓库中泰介强x了桂言叶几回。可是,在大型安排中,这种自上而下的办法明星胸不行避免地会失利。
即便大型企业中的事务部门互相十分类似,它们记载数据的方法也会有细小的差异。这些细小差异需求加以考虑,然后才能对其进行有意义厦门旅行,许冠杰,空-有爱沙龙,让爱心充溢这个国际的剖析,这仅仅企业数据性质的反映。
因而事务灵活性需求必定程度的独立性,这意味着每个事务部门都树立自己的数据中心。
例如,以丰田轿车欧洲公司(Toyota Motor Europe)为例,该公司在每个事务国家都有独立的客户支撑安排。该公司期望为250个数据库中的一切实体创立一个主记载,其间吉祥天健康工业集团包括40种不同言语的3000万条记载。
丰田轿车欧洲公司面对的问题是,ETL和数据办理项目的规划是巨大的,假如依照传统方法进行,问琴完整版将耗费很多的资源。该公司决议运用Tamr来协助处理机器学习的应战,而不是数据转化和运用数据办理进程。
ETL最大的问题是现已预先界说了大局形式,怎么大规划地做到这一点是个问题。需求运用机器学习进行自下向上的匹配、自下而上地结构方针形式,从规划上看,这是仅有可行的方法。
这并不意味着机器学习供给了十分简略的办法来处理这些扎手的数据集成问题。它依然需求很多的数据和处理才能,您一般需求一个最优异的职工来协助辅导软件取得正确的数据剖析结果与决议计划见地。
这样来看的话,本钱并不廉价,但这不是最重要的。但还有一个问题是,不蓓茵儿同的供货商之间该怎么挑选。不同国家或区域的供货商供给的处理方案不同,并且出于一些微观要素,会呈现不同的挑选。
出于安全考虑,这些数据问题不能彻底外大悲古寺今日现场直播包给其他公司,所以不要盼望彻底用机器学习来处理数据,人在其间的效果仍是十分重要的。人与机器学习协作才能够使您的数据集成和办理功率最大化。