预约成功
相似度模型中需要将观察值和原型进行比较,以得到相应的相似度得分。观察值与原型相似度越高,其得分也就越高。一种度量相似度的方法是测量距离。观察值与原型值之间的距离越近,观察值的得分就越高。当每个客户细分都有一个原型时,该模型可以根据得分把客户分配到与其最相似的原型所在的客户细分中。
相似度模型有原型和一个相似度函数构成。新数据通过计算其相似度函数,就可以计算出相似度得分。
1、什么是大数据相似度模型——相似度距离
通过出版社的读者比一般大众要富有,而且接受教育的程度要高为例。通常前者要比后者在富有程度、教育程度的比例大三倍。这样我们就可以给读者一个讯息——“工资很高,并且受过良好的教育”。
如果要把对读者的描述表示成一个可以识别该杂志潜在的读者的模型,就需要对理想的读者做出精确的定义,并以此来量化潜在读者与理想读者之间的相似程度。
相似度和距离是同一概念的两种不同描述方式,但是它们度量的方向不同。使用距离作为度量指标时,如果两个事物彼此非常靠近,那么两者就很相似。所以当两者距离很小时,相似度就会很高。
例如:出版社的理想读者的受教育程度是16年,年收入100000美元。那么受教育14年,年收入75000美元的潜在客户与理想客户之间的相似度是多少呢?另外它们与受教育12年,并且年收入为150000美元的潜在客户又有多少相似呢?这时候,我们要选择一个度量的标准,欧式距离。当我们计算一潜在客户与理想客户(x=16,y=100000)之间的距离时,就会发现收入在计算中占了主导地位,因为它的取值比教育年限大的多得多。这就引入另一个问题:度量尺度。解决方法:将两值分别减去相应的平均值然后除以相应的标准差。这样就把两者转化成分数,然后用分数代替原来的值来计算欧式距离。
欧式距离仅计算距离方法之一。这里才采用欧式距离只是为了将原型目标的一种统计描述与某种距离函数结合起来,搭建一种相似度模型。有了潜在用户与理想客户之间的距离,就可以对潜在客户排序,或者将距离作为另一种计算的输入,得到预期收入或相应概率。
2、什么是大数据相似度模型——构建相似度模型的步骤
构建相似度模型,首先是要对原型进行描述,或得到一个用于与其他对象进行比较的理想对象。这些描述必须表示为度量,对于那些与理想值较近或较远的对象,这些变量的取值要明显不同。
首先,要解决三个问题
(1)“差”记录与“好”记录有什么区别?
(2)理想的“好”记录看起来是什么样子的?
(3)如何度量与理想对象之间的距离?
括内容安全与威胁管理、身份管理、访问控制等;安全服务主要包括安全咨询、等级评测、风险评估、安全审计、运维管理、安全培训等方面。
以上就是对于《什么是大数据相似度模型?想做好大数据工程师就一定要学会》的详细分析,从文字大家可以看到,如果你想进入大数据行业,就一定要对这些大数据的基础知识有所了解。如果你想知道更多大数据的相关知识,可以点击下方资料下载链接。