垃圾邮件过滤-垃圾邮件过滤|张杭烽：百度也玩垃圾邮件你见过吗？

发布时间：2018-03-17 所属栏目：贝叶斯垃圾邮件过滤

一 : 垃圾邮件过滤|张杭烽：百度也玩垃圾邮件你见过吗？

NO.1 张杭烽：百度也玩垃圾邮件你见过吗？

在网络营销推广过程中，EDM邮件群发被越来越多的网络公司、企业甚至个人采用，因此国内也成立了很多专业从事电子邮件营销服务的公司。这中间，除了正规运作的网络门户/平台，是根据网站用户管理的需要，与会员进行有效的信息互动外，更多的是企业和个人（包括灰色服务领域，如发票代理等）发送的广告邮件，这就是我们常说的“垃圾邮件”！

本来这也是一种业态，有需求就会有供应，见怪不怪了！

关键是，张杭烽昨天收到一封很雷的垃圾邮件：来自百度的垃圾邮件！发信邮箱帐号：mail@

来自百度的垃圾邮件

本来看到垃圾邮件，张杭烽的第一反应就是一个字“删”！但这次，我删除邮件后，脑海中突然回忆起刚才看到的发件人邮箱好像是百度。天啊，开什么玩笑，百度也发垃圾邮件？难道我眼睛出毛病了吗？好奇心的驱使下，我“后退”到删除的邮件截下了刚才的邮件图片。

。www.61k.com）

无独有偶，遇到同样问题的朋友在网上也能找到：

来自百度的垃圾邮件

看来mai@的名字还真不少啊，又是“黄晓东”又是“崔瑞”的。

可据目前了解的信息，百度官方貌似没有EDM相关业务啊，那这个邮箱背后究竟藏着什么秘密呢？

不知道，朋友们有没有收到过百度发送的垃圾邮件，请拿出来分享！呵呵

NO.2 垃圾邮件过滤设置怎么设置

垃圾邮件过滤设置怎么设置

现在一般的邮件服务提供商的WEB邮件系统中都有“过滤垃圾邮件”设置的功能，你只需要到相关的页面按照提示1步1步的操作即可了，一般都是把你要过滤掉的邮件来源地址列到过滤器里，用分号或逗号隔开。这是在WEB邮件系统中的设置。

另外现在象FOXMAIL这样的邮件客户端软件里都会有过滤器管理的功能，你只要打开过滤器进行相关设置即可达到你要的过滤效果了。FOXMAIL的过滤器在菜单“帐户”->“过滤器...”里即可设置。（其他如OUTLOOK软件也有相关功能的，不过个人推荐你使用FOXMAIL，比较好用的1款邮件客户端软件。）

NO.3 gmail邮箱如何过滤垃圾邮件？

打开“Gmail邮箱”，在邮箱中点击垃圾邮件，然后点击右上角的按钮，展开列表选择“过滤此类邮件”。

点击了“过滤此类邮件”之后，Gmail会弹出一个过滤邮件的设置。在设置中，用户可以精准设置过滤邮件的主题、收件人等信息。

过滤信息设置好后，点击右下角的“根据此搜索条件创建过滤器”，进入后可以对垃圾邮件处理的方法进行设置，如：收到邮件直接跳过收件箱或删除邮件等。所有都设置完后，用户就可以点击“创建过滤器”了。

如果用户想查看过滤器的信息或者对过滤器进行修改或删除，可以打开Gmail邮箱的设置界面，点击“过滤器”进入就能看到不同的过滤器，在侧边栏可以对过滤器进行修改或删除。

NO.4 电子邮件营销必知：垃圾邮件过滤方法和原理

作为一个电子邮件营销工作者，了解垃圾邮件的过滤方法和原理是理所当然的一件事。］下面博主为大家介绍一下垃圾邮件过滤方法和原理。

一、以黑名单为标准的过滤方法。

目前有一些主要从事垃圾邮件黑名单的组织和机构，这些组织专门接受用户的垃圾邮件投诉，如果经过他们确认为垃圾邮件，那么，该组织会将垃圾邮件的发送方服务器IP地址列入黑名单。一般来说，ISP服务商一般会共享该组织的黑名单数据库，一旦某个IP地址被列入黑名单，那么难逃厄运，ISP服务商一般都会屏蔽该IP地址下的所有邮件。

二、ISP服务商使用防火墙过滤邮件。

防火墙的原理很简单，主要是采用各种过滤器以及上文提到的黑名单数据库，进行一定的数据算法来过滤垃圾邮件，这些算法比较复杂，往往不为外界所知道。这也就导致了很多正常邮件也被列入了垃圾箱。

三、采用触发式过滤算法识别垃圾邮件。

这种触发式过滤算法的原理是：使用过滤软件检查邮件标题、发信人、正文内容、邮件中的链接和域名、电话号码、QQ号等，如果发现带有广告性质，出现了垃圾邮件的典型特征，则给这封邮件打一个垃圾邮件特征分数，当累计到一定数值的时候，则被评判为垃圾邮件，直接被服务器过滤掉。

NO.5 中文垃圾邮件过滤技术研究

研究与开发

中文垃圾邮件过滤技术研究

章建军

，张建伟1，张洪渊

(1.温州大学物理与电子信息工程学院，温州325035；2.温州大学城市学院，温州325035）

摘

要：介绍现在普遍采用的几种垃圾邮件过滤方法，对基于内容的过滤方法中的贝叶斯算法

和Winnow算法进行详细的介绍。[目前研究中文垃圾邮件的各类文献都基于不同的语料库，缺乏算法之间的效果比较分析。分别实现贝叶斯和Winnow的改进算法，并对

CCERT的一个公开邮件语料库进行测试。测试结果表明，两种算法都达到较好的过

滤效果。

关键词：垃圾邮件过滤；贝叶斯算法；Winnow算法

引言

根据思科2009年底的《年度安全报告》[1]估计，

技术之一。

（2）逆向域名解析

即通过DNS查询来判断邮件发送者的IP与其声称的域名是否一致，如果不一致则予以拒收。这种方法可以有效过滤来自动态IP的垃圾邮件，适合于对MTA、MDA（MailDeliveryAgent，邮件发送代理）等有固定域名和IP的节点。

（3）RBL过滤

2010年全球范围的垃圾邮件量与2009年的水平相

比，可能会增加30~40%。中国互联网协会反垃圾邮件中心于2009年5月发布的调查报告[2]显示中国网民平均每周收到的垃圾邮件数量为17.68封，占邮件总数比例为57.52%。垃圾邮件给互联网以及广大的使用者带来了很大的影响，垃圾邮件过滤技术的重要性不言而喻。

RBL（RealtimeBlackholeList，实时黑名单）是基于用户投诉和采样积累而建立的，由域名、IP等组成

的专有数据库。这些数据库保存了频繁发送垃圾邮件的主机名、IP等信息，供各个MTA进行实时查询来决定是否拒绝相应的邮件。这种方法比较直观，也很高效，但是由于数据库内容的正确性和实时性难以保证，所以在一定程度上反而会拒收一些合法的正常邮件。

（4）关键词过滤

关键词过滤技术通常创建一些简单或复杂的与垃圾邮件关联的单词表来识别和处理垃圾邮件。某些关键词大量出现在垃圾邮件中，例如一些病毒的邮件标题：test。这种方式类似反病毒软件利用的病

垃圾邮件过滤技术现状

由于电子邮件是一种半结构化的文本文件，包

括邮件信头信息和邮件正文信息两部分，因而对垃圾邮件的过滤也主要集中于对邮件头的结构和邮件正文过滤两种方式。目前主要的垃圾邮件过滤技术有：

（1）用户认证

简单地说就是收信端对发信用户进行认证，仅允许通过认证的用户进行远程转发，避免MTA（Mail

TransportAgent，邮件传输代理）服务器被垃圾邮件

发送者利用。用户认证也是信息安全中最为基础的

收稿日期：2010-02-02

修稿日期：2010-03-01

作者简介：章建军（1984-），男，浙江缙云人，硕士研究生，研究方向为信息安全、数据库技术与智能信息处理

垃圾邮件过滤中文垃圾邮件过滤技术研究

研究与开发

毒特征，可以说这是一种使用简单的内容过滤方式来处理垃圾邮件方法，它的基础是必须创建一个庞大的过滤关键词列表。

这种技术缺陷很明显，过滤的能力同关键词有明显联系，关键词列表造成错报可能性比较大，系统采用这种技术来处理邮件的时候消耗的系统资源会比较多。并且，一般躲避关键词的技术例如拆词、组词就很容易绕过过滤。

（5）基于内容的过滤方法

基于内容的过滤方法通过人工智能和模式识别的相关理论和算法对邮件做出分类，过滤掉垃圾邮件（由于分类器具有一定的错误率，实际应用都是将该类邮件放入一个独立的垃圾邮件文件夹中）。主要的分类技术有贝叶斯分类算法、线性分类算法、决策树算法、支持向量机，kNN（k-NearestNeighbor,k近邻）算法等，在邮件过滤上都有涉及。笔者也分别实现了贝叶斯算法、Winnow算法的邮件过滤器，并对一个公开的垃圾邮件语料库进行了测试比较。

（6）基于语义的过滤方法

理论上，基于语义的过滤方法可以理解邮件的准确意义，跟人工理解判断的结果应一致，即可以达到完美的过滤垃圾邮件效果。然而，现在的自然语言理解技术还不是十分完善，考虑邮件系统过滤对于效率有一定的要求，这类过滤方法还只是停留在理论阶段。

（7）基于邮件网络的过滤方法

基于众多邮件发送者和接收者间所构建的网络，模拟社会网络的一些处理技术进行过滤。由于垃圾邮件发送者多为一对多的单向发送垃圾邮件，与正常邮件联系者之间存在的关系有明显的区别。通过邻接矩阵和普分解等算法可以达到过滤垃圾邮件的效果。文献[3]、[4]中都对此类方法进行了模拟测试，并取得了一定的效果。然而，该方法只考虑邮件头的方式在现实中很难实行。因为垃圾邮件发送者可以伪造任意的邮件头（见文献[5]和[6]），该方法的数据基础不可信，最终的结果很难达到很好的效果。

综合以上方法，现在普遍应用的邮件过滤方案是：第一步，通过用户认证禁止匿名的邮件发送者，然而这不能对自己架设邮件服务器的垃圾邮件发送

者进行有效控制；第二步，通过逆向域名解析，实时黑名单，关键词过滤等方法对进入的邮件进行全局性的初步过滤；第三步，对于上一步不能判断的邮件，通过各类基于内容的过滤方法对其进行判断。由于此类算法的灵活性和多样性，达到的过滤效果也不尽相同，业界对垃圾邮件过滤研究的关注点也在于此类方法。文献[7]中将贝叶斯过滤与人工免疫相结合，设计实现了一种基于贝叶斯和人工免疫的混合垃圾邮件过滤算法；文献[8]通过邮件头和正文构造邮件的指纹来提高贝叶斯过滤的性能；另外，文献

[9]、[10]从贝叶斯算法本身的参数估计和属性相关性

出发对贝叶斯算法进行优化。文献[11]通过随机地选取英语的核心单词“注入”到邮件中攻击分类器，实验模拟显示其攻击方法可成功地降低分类器的准确率。综合各论文的成果，虽然在实验模拟时达到了一定的效果，然且基本上都是在英文语料库的基础上进行模拟的结果。在中文邮件的过滤中，由于中文语法更加复杂，需要做更多分词等预处理，过滤的效果并不是十分理想，文献[12]中对其自己构造的中文垃圾邮件语料库做测试也只能达到80%左右的准确率。

2贝叶斯算法和Winnow算法在邮件过滤系统中应用

模式识别的各类算法广泛应用于文本分类领

域，当然其中就包括垃圾邮件过滤这一典型的文本分类领域，然而由于邮件系统对于实时性的要求，过于复杂的算法并没有得到广泛的推广，而类似贝叶斯、线性分类算法等简单易于实现并且有很好的效果的算法得到广泛的应用。

2.1贝叶斯算法

贝叶斯过滤（BayesianFiltering），即通过贝叶斯算法对邮件进行分类，用户可以有针对性地对各类邮件采取自己的相应策略。

贝叶斯算法是概率论中的一种统计方法，是

ThomasBayes所创建的统计学计算公式，随着信息

技术的发展需要，这种算法被广泛应用于信息技术的文本分类中，并得到了很好的分类效果。最基本的形式是朴素贝叶斯分类器思想：即由邮件文本中抽取出各类关键字属性dx，假设各个属性之间相互独

2010.03

趮趧

垃圾邮件过滤中文垃圾邮件过滤技术研究

张杭烽垃圾邮件过滤|张杭烽：百度也玩垃圾邮件你见过吗？

研究与开发

立，然后计算属于各个类别的后验概率P（cj|dx）,再将文本分类到概率最大的类别中去。［]计算过程中用到的贝叶斯公式：

P（cj|dx）=P（c）P（d|c），j=1，2，…，|C|

P（dx）

Winnow分类算法是一种典型的线性分类器，其

主要思想是：

首先，通过对训练集的特征选择得到各类邮件的特征集合。初始化各个类特征的权重向量为（W1,

式中的c为所属的分类，|C|指分类的总数，一般为垃圾邮件和非垃圾邮件两类。P（cj）是类的先验概率，P（cj|dx）是类的条件概率，P（dx）主要是对各个类别概率作归一化。先验概率和条件概率都是通过训练集来学习得到的，P（cj）即为训练集中各类邮件所占的比例；P（dx|cj）为所属类别中出现特征属性dx的比例。特征属性dx是多个关键字的集合（t1，t2，…，tn，

W2,…,Wn）=（1,1，…，1），类的阈值θ为训练集中平均

每封邮件包含的特征数量；

然后，进入错误反馈学习过程。从训练集得到邮件，比较特征集合将邮件文本表示为X=（X1,X2，…,

Xn），易知Xi只能取0或1两个值，0表示该特征未出现，1表示出现该特征词句。

（1）对于特定的类，如果ΣWiXi>θ，表示分类器

i=1n

n为特征个数）。因为假设特征之间相互独立，由复

合概率公式有：

i=1n

预测训练邮件属于该类。如果预测正确，直接进入下一封的训练。否则，要降低分类器的权重：对于在邮件中出现的特征，将其相应的权重向量位直接赋值为0或乘上一个小于1的正数。即对i=1,2,…,n，若

Xi≠0，则Wi:=0或Wi:=αWi，0<α<1。

（2）如果ΣWiXi<θ，表示分类器预测训练邮件

i=1n

对于邮件分类，一般都只是把邮件分为两类：即垃圾邮件（Spam）和正常邮件（Ham）。图1给出了贝叶斯分类算法的训练和分类流程。左边描述的是通过训练集得到特征属性及其类条件概率。右边描述了将邮件内容向量化预处理，到计算后验概率，再结合分类的风险得出风险最小的整个分类决策过程。

文本不属于该类。如果实际上所训练邮件属于该类，则要相应地提高分类器的权重：对i=1，2，…，n，若Xi

≠0，则Wi:=βWi，β>1。

图2Winnow邮件过滤器流程

图1贝叶斯邮件过滤器流程

上面描述的是Winnow算法的最基本形式，此外还有BalancedWinnow算法，主要区别在于Bal-

2.2Winnow算法

垃圾邮件过滤中文垃圾邮件过滤技术研究

研究与开发

ancedWinnow算法有两个权重向量W+、W-，用Wi-Wi代替Wi。]其训练策略为：

（1）如果Σ（Wi-Wi）Xi>θ，但邮件不属于该类，

i=1n

表2BalancedWinnow算法CCERT语料库测试结果

对于i=1,2,…,n，若Xi≠0，则通过Wi:=αWi，Wi:=βWi（其中0<α<1，β>1）降低权重。

++--

而对于Winnow算法，我们实现了Balanced

（2）如果Σ（Wi-Wi）Xi<θ，但邮件属于该类，对

i=1

Winnow过滤算法。针对Winnow算法的错误反馈特

点，我们对α=0.2，β=2.0的属性更新参数进行了5轮十组交叉测试，每轮的平均结果如表2所示。从表中5轮测试结果可以看出，Winnow具有较强的稳定性，正确率也较高，然而其召回率和精确率并不理想。分析原因，主要是语料库中垃圾邮件数是正常邮件数量的2倍强，而且正常邮件判为垃圾邮件的比例很少，因而保持了较高的正确率，从加权错误率的数据中也可以看出Winnow构建的过滤器也具有很强的实用性。

于i=1，2，…，n，若Xi≠0，则通过Wi:=βWi，Wi:=αWi（其中0<α<1，β>1）提高权重。

++--

BalancedWinnow算法对权重的收敛速度更快，

而且有可能出现Wi-Wi为负值的情况。此外还有许多其他形式的Winnow算法。与朴素贝叶斯分类器相比，Winnow算法不需要特征之间的独立性假设。

2.3测试结果及其分析

由于目前公开的中文垃圾邮件语料库较少，研究中文垃圾邮件的各类文献都基于不同的语料库，缺乏算法之间的效果比较分析。因而，笔者分别实现了贝叶斯和Winnow的改进算法，并对中国教育和科研网紧急响应组（CCERT）提供的一个邮件语料库[13]（2005-Jun）进行了测试。根据文献[14]的评价标准，测试结果主要判断标准有召回率、正确率、精确率和加权错误率。

对于贝叶斯过滤器，系统中，用风险调节因子k对每个属性的非垃圾邮件权重P（di|ch）进行调节取代对后验概率的调节，经过对语料库十次交叉验证测试，实验k对结果的影响如表1所示（表中λ为加权评价因子，即正常邮件误判为垃圾邮件的损失是垃圾邮件误判为正常邮件损失的λ倍，表2同）。实验表明，贝叶斯算法具有良好的效果。

表1贝叶斯算法CCERT语料库测试结果

结语

本文对邮件过滤中的各类方法进行了简要总

结，并介绍了应用最为广泛的贝叶斯算法以及基于错误反馈的Winnow算法。通过对这两类算法实现的测试表明，这两类方法在中文垃圾邮件过滤的应用中效果明显。考虑这两类算法的特点，可以发现这两类算法有很强的互补性，下一步将对这两类算法的结合进行研究，构造更为实用、效果更佳的过滤系统。

参考文献

[1]Cisco2009AnnualSecurityReport[EB/OL].[2]2009年第一季度中国反垃圾邮件状况调查报告[EB/OL].http://www.anti-

[3]P.OscarBoykin,.LeveragingSo-cialNetworkstoFightSpam[J].IEEEComputerSociety,April2005,38（4）:61~68

[4]UngsikKim.AnalysisofPersonalEmailNetworksUsingSpectralDecomposition[J].InternationalJournalofCom-

2010.03

趰趧

垃圾邮件过滤中文垃圾邮件过滤技术研究

研究与开发

puterScienceandNetworkSecurity,2007,7（4）:185~188[5]Refdom.追踪垃圾邮件来源（V1.0）[M/OL].XFocusSe-curityTeam.#2

[14]王斌，潘文峰.基于内容的垃圾邮件过滤研究[J].中文

信息学报，2005，19（5）:1~10

[10]刘震，周明天.基于核方法的贝叶斯邮件分类网络研

ResearchonChineseSpamFilterTechnology

ZHANGJian-jun1,

ZHANGJian-wei1

ZHANGHong-yuan2

（1.CollegeofPhysics&ElectronicInformationEngineering,WenzhouUniversity,Wenzhou325035；

2.CollegeofCity,WenzhouUniversity,Wenzhou325035）

Abstract:Introducesseveralspamfilteringmethodwidelyused,andthenintroducestheBayesian

algorithmandWinnowalgorithmindetails.CurrertlyvarioustypesofliteratureofstudyofChinesespamareallbasedondifferentcorpus,lackofcomparativeanalysisofeffectsbe-tweenalgorithms.Implementsthesetwoalgorithms,andtestsaChinesespamcorpuswhichfromtheCCERT.Asthetestresultshowsthatthetwoalgorithmshavereachedagoodfilteringeffect.

Keywords:SpamFiltering；Bayesian；WinnowAlgorithm

二 : 垃圾邮件过滤设置怎么设置

垃圾邮件过滤设置怎么设置

三 : gmail邮箱如何过滤垃圾邮件？

　　打开“Gmail邮箱”，在邮箱中点击垃圾邮件，然后点击右上角的按钮，展开列表选择“过滤此类邮件”。