61阅读

数据挖掘的概念与技术-技术型人才与技能型人才的概念辨析

发布时间:2018-04-21 所属栏目:数据挖掘技术

一 : 技术型人才与技能型人才的概念辨析

技术型人才与技能型人才的概念辨析

就人才类型而言,目前比较一致的看法是:总的人才可分为学术型、工程型、技术型和技能型四类。其中技术型和技能型人才由职业教育来培养,但两者是有区别的。

技术型人才也称工艺型、执行型、中间型人才,他们在生产第一线或工作现场从事为社会谋取直接利益的工作,只有经过他们的努力才能使工程型人才的设计、规划、决策转换成物质形态或者对社会产生具体作用。这种人才又可分为三类:生产类,如工厂技术员、工艺工程师、农艺师、畜牧师、植保技术员等;管理类,如车间主任、作业长、工段长、设备科长、护士长、护理部主任以及行政机关中的中高级职员;职业类,如会计、统计、牙技师、导游、空勤人员、农业生产经营者等。技术型人才要有一定的理论基础,但不必达到工程型人才要求,而更应强调理论在实践中的应用。由于他们大都是在生产现场工作,因而与工程型人才相比具有以下特征:一是相关专业知识面要——61阅读——更宽广,如工艺人员除需要工艺知识外,尚需经济、管理等方面的知识;二是综合应用各种知识解决实际问题的能力更强,特别要具备解决现场社会性问题的应变能力,以及一定的操作技能;三是由于生产现场的劳动常常是协同工作的群体活动,因此,人际关系能力、组织能力是这类人才极为重要的素质;四是在人才成长过程中,更强调工作实践的作用。

技能型人才也称技艺型、操作型人才,是在生产第一线或工作现场从事为社会谋取直接利益的工作,主要应掌握熟练的操作技能以及必要的专业知识。他们与技术型人才的区别在于主要依靠操作技能进行工作。技术工人不属于这类人才,一些高技术设备的操作者,虽有操作任务,但不能简单地归入技能型人才,尚须分析其智力含量的多寡,才能决定其是技术型人才还是技能型人才。

把上述各种人才类型与教育联系起来,培养技术型人才的可称之为技术教育,培养技能型人才的可称之为职业教育(或技能教育)。①在国外,同样存在这两种教育,分别为vocational education和technical education。因此,职业技术教育既能够培养技术型人才又能够培养技能型人才。

从中可见,技能型人才和技术型人才不仅有分工二的区别,还有层次的区别。同时,不可否认两者有交叉重叠之处。随着科技的进步,智能含量在许多工二作中都占一定的比例,其交叉重叠之处确实在加宽。尽管如此,两者仍然不可等同。

二 : SQL Server 2008 数据挖掘的概念(1)

数据挖掘是从大型数据集中发现可行信息的过程。数据挖掘使用数学分析来派生存在于数据中的模式和趋势。通常,由于这些模式的关系过于复杂或涉及数据过多,因此使用传统数据浏览无法发现这些模式。

这些模式和趋势可以被收集在一起并定义为“数据挖掘模型”。挖掘模型可以应用于特定的业务方案,例如:

◆ 预测销售额

◆ 向特定客户发送邮件

◆ 确定可能需要搭售的产品

◆ 查找客户将产品放入购物车的顺序序列

生成挖掘模型是大型过程的一部分,此过程包括从提出相关数据问题并创建模型以解答这些问题到将模型部署到工作环境的所有事情。此过程可以使用下列六个基本步骤进行定义:

◆ 定义问题

◆ 准备数据

◆ 浏览数据

◆ 生成模型

◆ 浏览和验证模型

◆ 部署和更新模型

以下关系图说明过程中每个步骤之间的关系,以及 Microsoft SQL Server 2008 中可用于完成每个步骤的技术。

SQL Server 2008 数据挖掘的概念(1)_数据挖掘概念与技术

尽管关系图中所示的过程是一个循环过程,但是每个步骤并不需要直接执行到下一个步骤。创建数据挖掘模型是一个动态、交互的过程。浏览完数据之后,您可能会发现数据不足,无法创建适当的挖掘模型,因此必须查找更多的数据。或者,您可以生成数个模型,但随后发现这些模型无法充分地回答定义的问题,因此必须重新定义问题。您可能必须在部署模型之后对其进行更新,因为又出现了更多的可用数据。可能需要多次重复过程中的每个步骤才能创建良好的模型。

SQL Server 2008 提供用于创建和使用数据挖掘模型的集成环境,称为 Business Intelligence Development Studio。该环境包括数据挖掘算法和工具,使用这些算法和工具更易于生成用于各种项目的综合解决方案。

创建数据挖掘解决方案后,您可以使用 SQL Server Management Studio 维护和浏览该解决方案。

定义问题

与以下关系图的突出显示相同,数据挖掘过程的第一步就是明确定义业务问题,并考虑解答该问题的方法。

SQL Server 2008 数据挖掘的概念(1)_数据挖掘概念与技术

该步骤包括分析业务需求,定义问题的范围,定义计算模型所使用的度量,以及定义数据挖掘项目的特定目标。这些任务转换为下列问题:

◆ 您在查找什么?您要尝试找到什么类型的关系?

◆ 您要尝试解决的问题是否反映了业务策略或流程?

◆ 您要通过数据挖掘模型进行预测,还是仅仅查找受关注的模式和关联?

◆ 您要尝试预测数据集的哪个属性?

◆ 列如何关联?或者如果有多个表,则表如何关联?

◆ 如何分发数据?数据是否具有季节性性质?数据是否可以准确反映业务流程?

SQL Server 2008 数据挖掘的概念(1)_数据挖掘概念与技术

若要回答这些问题,可能必须进行数据可用性研究,必须调查业务用户对可用数据的需求。如果数据不支持用户的需求,则还必须重新定义项目。

此外,还需要考虑如何将模型结果纳入用于度量业务进度的关键绩效指标 (KPI)。
准备数据

如以下关系图中突出显示的那样,数据挖掘过程的第二步就是合并和清除定义问题步骤中标识的数据。

SQL Server 2008 数据挖掘的概念(1)_数据挖掘概念与技术

数据可以分散在公司的各个部门并以不同的格式存储,或者可能包含错误项或缺少项之类的不一致性。例如,数据可能显示客户在产品推向市场之前购买该产品,或者客户在距离她家 2,000 英里的商店定期购物。

数据清除不仅仅是删除错误数据,还包括查找数据中的隐含相关性、标识最准确的数据源并确定哪些列最适合用于分析。例如,应当使用发货日期还是订购日期?最佳销售影响因素是数量、总价格,还是打折价格?不完整数据、错误数据和输入看似独立,但实际上有很强的关联性,它们可以以意想不到的方式影响模型的结果。因此,在开始生成挖掘模型之前,应确定这些问题及其解决方式。

通常,您使用的是一个非常大的数据集,并且无法仔细查看每个事务。因此,必须使用某种自动化的形式(如,在 Integration Services 中)来浏览数据并找到这些不一致。Microsoft SQL Server 2008 Integration Services (SSIS) 包含完成该步骤所需的所有工具,步骤内容包括转换到自动执行数据清除和合并。

需要特别注意的是用于数据挖掘的数据不必存储在联机分析处理 (OLAP) 多维数据集中,或者甚至不必存储在关系数据库中,但是您可以将它们作为数据源使用。您可以使用已被定义为 Analysis Services 数据源的任何数据源执行数据挖掘。这些数据源可以包括文本文件、Excel 工作簿或来自其他外部提供程序的数据。

浏览数据

如以下关系图中突出显示的那样,数据挖掘过程的第三步就是浏览已准备的数据。

SQL Server 2008 数据挖掘的概念(1)_数据挖掘概念与技术

您必须了解数据,以便在创建挖掘模型时作出正确的决策。浏览技术包括计算最小值和最大值,计算平均偏差和标准偏差,以及查看数据的分布。例如,通过查看最大值、最小值和平均值,您可以确定数据并不能代表客户或业务流程,因此您必须获取更多均衡数据或查看您的预期结果所依据的假定。标准偏差和其他分发值可以提供有关结果的稳定性和准确性的有用信息。大型标准偏差可以指示添加更多数据可以帮助改进模型。与标准分发偏差很大的数据可能已被扭曲,抑或准确反映了现实问题,但很难使模型适合数据。

借助您自己对业务问题的理解来浏览数据,您可以确定数据集是否包含缺陷数据,随后您可以设计用于解决该问题的策略或者更深入地理解业务的典型行为。

BI Development Studio 中的数据源视图设计器包含数种可用于浏览数据的工具。

此外,在创建模型时,Analysis Services 还会针对该模型中包含的数据自动创建统计摘要,您可以进行查询以便用于报告或进一步分析。
生成模型

如以下关系图中突出显示的那样,数据挖掘过程的第四步就是生成一个或多个挖掘模型。您将使用从浏览数据步骤中获得的知识来帮助定义和创建模型。

SQL Server 2008 数据挖掘的概念(1)_数据挖掘概念与技术

通过创建挖掘结构定义要使用的数据。挖掘结构定义数据源,但只有对挖掘结构进行处理后,该结构才会包含任何数据。处理挖掘结构时,Analysis Services 生成可用于分析的聚合信息以及其他统计信息。基于该结构的所有挖掘模型均可使用该信息。

在处理模型之前,数据挖掘模型只是一个容器,指定用于输入的列、要预测的属性以及指示算法如何处理数据的参数。处理模型也称为“定型”。定型表示向结构中的数据应用特定数学算法以便提取模式的过程。在定型过程中找到的模式取决于选择的定型数据、所选算法以及如何配置该算法。SQL Server 2008 包含多种不同算法,每种算法都适合不同的任务类型,并且每种算法都创建不同的模型类型。

此外,还可以使用参数调整每种算法,并向定型数据应用筛选器,以便仅使用数据子集,进而创建不同结果。在通过模型传递数据之后,即可查询挖掘模型对象包含的摘要和模式,并将其用于预测。

您可以在 BI Development Studio 中使用数据挖掘向导或使用数据挖掘扩展插件 (DMX) 语言来定义新的模型。

务必记住,只要数据发生更改,必须更新数据挖掘结构和挖掘模型。重新处理挖掘结构以进行更新时,Analysis Services 检索源中的数据,包括任何新数据(如果动态更新源),并重新填充挖掘结构。如果您具有基于结构的模型,则可以选择更新基于该结构的模型,这表示可以根据新数据保留模型,或者也可以使模型保持原样。

SQL Server 2008 数据挖掘的概念(1)_数据挖掘概念与技术

浏览和验证模型

如以下关系图中突出显示的那样,数据挖掘过程的第五步就是浏览您已经生成的挖掘模型并测试其有效性。

SQL Server 2008 数据挖掘的概念(1)_数据挖掘概念与技术

在将模型部署到生产环境之前,您需要测试模型的性能。此外,在生成模型时,您通常需要使用不同配置创建多个模型,并对所有这些模型进行测试,以便查看哪个模型为您的问题和数据生成最佳结果。

Analysis Services 提供的工具可帮助您将数据分成定型数据集和测试数据集,使您可以更准确地评估基于相同数据的所有模型的性能。您使用定型数据集生成模型,并通过创建预测查询来使用测试数据集测试模型的准确性。在 SQL Server 2008 Analysis Services 中,生成挖掘模型时可自动执行该分区操作。

可以使用 BI Development Studio 中数据挖掘设计器内的查看器来浏览算法发现的趋势和模式。还可以使用该设计器中的工具(如,提升图和分类矩阵)来测试模型创建预测的性能。若要验证模型是否特定于您的数据,或者是否可用于推断总体,您可以使用称为“交叉验证”的统计方法来自动创建数据子集,并参照每个子集测试模型。

如果您在生成模型步骤中创建的所有模型都无法正常工作,则必须返回到此过程的上一个步骤,并重新定义问题或重新调查原始数据集中的数据。

部署和更新模型

如下面的关系图中突出显示的那样,数据挖掘过程的最后一步是将性能最佳的模型部署到生产环境。

SQL Server 2008 数据挖掘的概念(1)_数据挖掘概念与技术

当生产环境中部署了挖掘模型之后,便可根据您的需求执行许多任务。下面是一些可以执行的任务:

使用模型创建预测,然后可以使用这些预测作出业务决策。SQL Server 提供可用于创建预测查询的 DMX 语言,同时还提供有助于生成查询的预测查询生成器。

创建内容查询以检索模型中的统计信息、规则或公式。

直接将数据挖掘功能嵌入到应用程序。您可以包括含有一组对象的分析管理对象 (AMO),应用程序可使用这组对象创建、更改、处理以及删除挖掘结构和挖掘模型。另外,可以直接将 XML for Analysis (XMLA) 消息发送到 Analysis Services 实例。

使用 Integration Services 创建一个包,在这个包中,挖掘模型用于将传入数据合理地分离到多个表中。例如,如果数据库不断地通过潜在客户进行更新,则可以结合使用挖掘模型和 Integration Services 将传入数据拆分为可能购买产品的客户和不可能购买产品的客户。

创建可让用户直接对现有挖掘模型进行查询的报表。

在查看和分析后更新模型。任何更新都要求您重新处理该模型。

随着组织传入的数据不断增多,应将动态更新模型并进行一致更改(以便提高解决方案的效率)作为部署策略的一部分。

三 : 模仿八目鳗口器的概念挖掘机

模仿八目鳗口器的概念挖掘机_八目鳗
这台挖掘机有八目鳗一样危险的口器,是今年红点设计大赛中震惊了评委的两项挖掘机概念设计的其中一份。

图中这台挖掘机名为“海格力斯”,是英国考文垂大学几名硕士研究生设计的未来挖掘机。挖掘机最厉害的之处是位于最前端的旋转剪切头以及能够持续转移挖掘出的土石的螺旋钻和传送带,这样的设计可以大大提高挖掘的速度。

模仿八目鳗口器的概念挖掘机_八目鳗

在全世界参选的数千份作品中,红点设计大赛最后只挑选出了40份设计,上面提到的鳗鱼挖掘机就是其中一份。这40份设计会角逐有德国著名设计研究院Design Zentrum Nordrhein Westfalen组织的红点设计大奖赛的“最佳概念设计中的最佳奖”这份殊荣。

周五在新加坡红点博物馆举办的颁奖仪式上,同样来自考文垂大学的另一个设计团队的Pangea概念挖掘机获得了“最佳概念设计奖”。 Pangea同样具有连续除土设计,还能精准挖掘出各种类型的洞。

模仿八目鳗口器的概念挖掘机_八目鳗
想挖什么洞挖什么洞的Pangea挖掘机。

红点设计大赛创立于1955年,可以说是设计领域的奥斯卡大奖,本次比赛有来自63个国家的4750个队伍和个人参与,这两只队伍的脱颖而出实属不易。

其它获奖概念设计还有一台便携式能量收集装置、可以侧放不滚动的红酒瓶、以及一个把包包背在后背打开就能成为婴儿车的背包。

考文垂大学交通和工业设计专业的研究生团队耗时三个月时间,在和工程咨询公司Ricardo的合作下共同完成了这份概念设计,这台挖掘机可以让工地的挖掘作业更有效率。

参与海格力斯设计的学生分别有Selin Ko?a?an、Chi Liu、 Danny McElchar、 Apostolos Papamatthaiakis和 Rahil Rupawala。

参与Pangea 设计的学生分别有Qing Ji、 Chinnawat Chutimachalothorn、 Tiago Cardoso、 Joe Hughes、Ganesh Prabhu Thenrajan、Qixuan Wu和Tianye Zhang。

[王大发财viaGlobal Construction Review]

四 : 京东在数据挖掘方面对推荐技术的优化

京东集团高级副总裁张晨总结:京东是一家以互联网科学引领的网络零售企业,零售是它的基因,而零售最根本的是要给用户做好服务,京东可以通过技术手段把服务体验提升更多。

物流已经成为京东的核心竞争力,在今年618大促期间,有大量的商品实现了当日达,要让物流更快可以通过大数据的方式来实现,例如对某个居住小区的消费偏好进行分析,可以预先判断哪些商品最畅销,把商品放在小区附近的配送站,当有消费者下单,便可实现配送,这样能提升用户体验。

提升用户体验的第二方面,是在大数据的基础上实现的精准推送。零售企业对商品是否畅销的一个判断是周转率,而京东要实现提升周转率便是对商品的精准推送,“千人千面”产品体现的是这样的思路,京东商城研发部“推荐搜索部”刘尚堃表示:“在当前推荐位的情况下,再提升40%、50%的效能是能做到的,因为京东个性化首页产品上线的时间并不长。”

张晨认为,数据量越大,后发的价值越大,因为京东的商品大多数属于自营,货品有来源、质量有保障、交易是真实的,这些让京东成为“中国互联网企业里数据最好的公司之一,用这些优质的数据反过来服务好用户,可挖的细节太多,是一件做不完的事情。”


京东的数据主要两大类,用户行为数据和基于内容的数据。京东会根据用户的行为数据构建用户画像,比如是不是有小孩,是不是男性,在京东的生命周期怎么样,促销的敏感度如何,在家还是单位购物多,购买率的等级是什么?京东会根据用户的行为做推荐,这大多是通过离线数据计算的。此外,系统还会根据用户的实时行为进行推荐,比如判断出用户喜欢浏览牙刷的品类,喜欢电动牙刷,而且偏好声波类电动牙刷。

通过“共现矩阵”的办法,京东推荐系统可以度量商品到商品的、用户到用户的商品、商品到商品的相似指数。比如用户对某个商品的分值比较高,浏览的分值比较高,购买的分值更高。通过这些办法,可以找到比较贴近其需求和爱好的产品推荐给消费者,在这些基础算法之外,京东还会应用高级算法提升推荐的效果。

京东还会通过一些模型进行推荐,比如用户的购买力模型、周期商品购买模型、LDA模型等。例如,京东现在有大量第三方商家,会存在有“一品多商”的问题,京东就会用图片相似等方法做过滤。

在排序上,京东会进行两级预估,先预估CTR(点击率),再预估CVR(转化率),由此进行排序。这是如何实现的呢?对于任何一个商品,京东都认为它具备品牌、中心词、类目、扩展属性等指标,可以用销售量来度量。每个商品和商品之间有一张购买的网,每个商品的pagerank也可以使用,这个指标不但考虑了数量问题,还考虑了网状关系,考量的指标还有评论数、好评度、浏览深度等。拿一个实际的例子来说,如果某用户购买产后塑身产品,那么孕妇装虽然有关联度,但这种关系会被剧烈地降低权重,因为逻辑上是先怀孕后生产再塑身。

京东个性化与排序平台部高级总监邹宇分享了对冷启动用户的处理方法。所谓的“冷启动”是指一个新用户,系统中没有他的行为数据。这个时候,京东做法就是根据人以群分的归类法则。比如基于社交关系推荐。当然如果这些没有,可能找更粗的人群分群的方式,比如性别、年龄、地域。当然最极端的情况下,完全没有,那就根据最近的热点进行类别多样化精选推荐的策略,把每一类当下最流行的商品拼在一起推荐给新用户去看,这其实是试探的过程,然后根据用户的交互反馈,慢慢向用户主信息上收敛。

重视实验与监控迅速确认算法优劣

京东推荐平台部总监刘思喆介绍,在推荐系统中,京东非常重视实验与监控。京东是算法和架构分离,架构可以管顶层工程,算法就是每天尝试各种各样的特征、数据、规则,以及流量最终的效果怎么样。

京东推荐的实验系统采用了外部的页面配置。流量实时生效,而且流量比例是可以任意分配的。简单修改某一个线上实验,它的流量就可以实现秒级线上更新,第二天甚至实时可以看到结果。京东的分流策略常用两种,第一种是随机,每次刷新看到的结果可能都不一样,比如十组实验,每一版都是10%的概率呈现;第二种就是相对固定,一旦看到第一次结果之后,就保证你以后看到的结果都是这个样子。京东的实验系统支持版本回溯,算法工程师一旦出现误配,可以找回相关的版本和权限。

除了实时实验之外,京东实验系统同样有离线debug平台支持,输入参数可以是一个或多个SKU,也可以是类,进行不同实验的结果召回,定位不同实验的效果。这样算法工程师可以通过自测几个小的例子,迅速找到自己的算法,在没有切流量之前问题在哪,或者到底好在什么地方。

持续优化迭代提升推荐系统价值

刘思喆认为,算法优化必须逐步迭代。不可能忽然上一个很牛的算法保证效果提高50%,工程师之间的相互交流有助于提高算法优化效果。

而通过数据的挖掘,京东也会发现,某些用户从来不点任何推荐,不点任何广告,也就是对这个东西完完全全不感冒。那可能京东也有可能对该用户隐藏推荐系统。“用户如果能深度地参与到推荐系统里面来,当然可能是无意识的,这时推荐系统才真正做到了极致。”

邹宇认为,京东大数据的价值越来越大。举例来说,互联网展示广告的点击率通常能到千分之一就不错了,转化率更低,通常是万分之几。但京东的搜索转化率高于这种广告转化率的几个数量级,因此,京东的数据会有越来越高的价值,京东的推荐系统在推动业务成长方面的作用也将越来越重要。

本文标题:数据挖掘的概念与技术-技术型人才与技能型人才的概念辨析
本文地址: http://www.61k.com/1144257.html

61阅读| 精彩专题| 最新文章| 热门文章| 苏ICP备13036349号-1