论文范文网-权威专业免费论文范文资源下载门户!
当前位置:毕业论文格式范文>论文范文>范文阅读
快捷分类: 板框过滤实验论文摘要 毕业设计垃圾邮件过滤技术外文翻译 论文过滤软件 协同过滤推荐算法开题报告

关于过滤论文范文 非法网页过滤系统模型相关论文写作参考文献

分类:论文范文 原创主题:过滤论文 更新时间:2024-03-03

非法网页过滤系统模型是关于过滤方面的的相关大学硕士和相关本科毕业论文以及相关过滤布论文开题报告范文和职称论文写作参考文献资料下载。

摘 要:含有非法或不良信息的网页层出不穷,但是总体来说,正常网页数量远大于非法网页的数量.基于这一现实考虑,文章结合关键词匹配过滤方法、智能内容过滤方法的优势,提出一种两层非法网页过滤系统模型.经过试验,证明该模型具有较好的非法信息过滤效果.

关键词:非法信息过滤;关键词匹配;双层过滤

中图分类号:G434 文献标识码:A 文章编号:1672-4437(2016)02-0057-05

1 引言

2013年中华人民共和国国家统计局统计数据显示:全国共有大约320万个网站,而总的网页数已达1500亿;[1]截至2014年12月,中国网民规模达到6.49亿,其中学生占网民总数的23.8%.在这个“无网不欢”的时代,网络内容是否有用、是否健康、是否安全成为人们关心的一个重要问题.事实证明,互联网是一把双刃剑,它给人们的日常生活、工作和学习带来诸多便利,人们可以通过互联网答疑解惑、可以通过互联网和他人进行交流,还可以通过互联网购买自己心仪已久的商品等等;然而对于青少年网络用户来说,诸如 、暴力、反动、诈骗、 等不良信息对他们人生观、世界观和价值观的形成造成很大冲击,也严重影响着社会风气、国家形象和社会言论.[2]如何设计一个高效的网页内容过滤软件,将网络中的不良信息过滤掉,从而呈献给广大网民一个安全、健康、积极向

上的网页成为广大学者的一个重要研究热点.

2 主要网页过滤技术

2.1 基于URL名单的过滤技术

目前为止,该技术是所有网页过滤技术中最为成熟的技术,国内外出名的网页内容过滤软件基本都是采用的此种过滤技术,如Websense,网康等.URL名单过滤技术的工作原理如下图所示:[3]

1.接收用户访问网页请求;

2.网关等设备将请求转给网页内容过滤系统;

3.网页内容过滤系统将用户请求网页和URL数据库对比;

4.根据上一步对比结果判断用户请求网页内容合法性;

5.网页内容过滤系统根据相应决策将判定结果返回给网关等设备;

6.网页内容过滤系统查询、判定的结果反馈到集中报表系统.

该技术简单方便,不仅提供了不良网站、非法网站的内容分类,还提供了普通网站的分类,因此,不仅能满足用户对不良网站的过滤,还能对一些常规网站的内容进行控制管理;但是,URL名单的准确性和适用性还需要不断提高,虽然一些好的软件开发商已经有数以千万的网站清单,但也不可能覆盖整个互联网中所有的网站,URL数据库也无法做到实时更新.

2.2 关键词过滤技术

关键词过滤技术的核心原理就是在网页的文本信息中检索事先设置好的关键词列表,如果在网页文本里找到关键词列表里的词,就判定该网页内容包含非法信息;过滤原理非常简单,但在实际的使用中效果并不理想.

1.容易造成拦截过度,即可能将一些正常的页面归类为非法页面,比如含有“ ”的关键词名单,在过滤中,会将出现“杜绝 ”之类句子的正常网页错误的过滤掉.

2.不法分子有可能利用该过滤技术的漏洞,将不良信息嵌入到图片里边,而该过滤技术对不良图片却无能为力.

2.3 模式过滤技术

模式过滤技术是对名单过滤和关键词过滤两种方法改进后的版本,模式过滤比关键词过滤有更高的准确率,和名单过滤相比,又大大减少了对人工干预的依赖性.

模式过滤原理为:研究并提取出过滤对象的一些特征,然后通过这些特征对网络内容进行划分,从而确定哪些属于非法网页并对之做相应处理.如用xi(i等于1 to n)表示从过滤对象中提取的特征,用S(xi)表示这些特征的匹配情况,那么,一个网页的模式匹配可以描述成:S(X)等于S(x0)∧S(x1)∧等∧S(xn),n为提取的该对象的特征个数,S(xi)取值为0或1,0表示匹配失败,1表示匹配成功,∧为逻辑和运算,当S(xi)均为1的时候,S(X)值仅为1,表示该网页为非法网页.[3]

2.4 图像过滤技术

图像过滤主要是采用图像特征提取和人工智能等计算机图像信息处理方法分析、理解图像的内容,达到过滤阻截含有不良信息图片的目的.图像过滤可以分为两个步骤:特征库的建立和匹配过滤.具体可描述为:(1)用某种方法,比如;在图片纹理、形状、颜色等特征基础上分析并提取不良图片特征并将之建立成图片特征库;[4](2)用待检测图片的图片特征和特征库进行匹配,从而实现过滤.图像过滤技术虽然不存在滞后性,但其过滤精度、效率和耗时却是需要改进的缺陷.

2.5 智能文本内容分析过滤

该方法主要针对文本类型网页,整个过程也包括两个步骤:规则库的建立和智能过滤.规则库在初始状态要通过人工干预方式训练样本数据,从而得到初始规则库.而之后的过滤,就用规则库来判断网页合法和否,而且每进行一次有效的过滤,就将此次过滤的状态和结果保存到规则库,实现规则库的实时丰富,提升规则库的有效性.虽然该方法过滤的准确性较高,但同时也降低了其过滤效率.

3 网页文本过滤系统设计

随着互联网的普及和发展,各种含有非法或不良信息的网页层出不穷,但是总体来说,正常网页数量远大于非法网页的数量.基于这一现实考虑,本文结合关键词匹配过滤方法、智能内容过滤方法,提出一种两层非法网页过滤系统模型.下面给出两层过滤系统模型图:

3.1 第一层过滤系统模型

本系统将关键词匹配过滤方法放到第一层,起到基础过滤的作用,也充分发挥了关键词匹配过滤速度快的优点.可以将不含非法关键词的网页也就是合法网页直接推送给用户,而对于包含非法关键词的网页再送到第二层过滤系统进行进一步的判断,实行更准确的过滤.也弥补了智能内容过滤方法速度慢的缺陷.在大量网页同时需要检测过滤的时候,可以大幅度减少速度慢的第二层过滤系统,从而为用户节省更多的时间.具体的关键词匹配过滤系统模型如下图所示:

总结:本论文为免费优秀的关于过滤论文范文资料,可用于相关论文写作参考。

参考文献:

1、 超高层建筑基坑支护方案决策系统模型应用分析 摘 要:在超高层建筑中,基础工程对整个建筑物的安全和寿命有举足轻重的影响,与一般建筑物基础不同,超高层建筑基础已被构成地下空间的地下室和深大基础。

2、 广西隆林—乐业地区岩溶水系统结构概念模型分析 摘要:广西百色市隆林—乐业地区属于右江水系及红水河水系,可划分为三个岩溶区:隆或岩溶区、平塘岩溶区和蛇场岩溶区,岩溶水系统可分为:地下河子系统、。

3、 基于BS结构和RABC模型相结合对学生科研项目管理系统研发 摘 要:为提高对学生科研项目管理的效率,通过将B S结构与RABC模型相结合的方式,提出开发学生科研项目管理系统的新思路,为促进学校的学生专业技。

4、 低温环境下CO2空气源热泵系统模型实验 摘要:主要研究了在低温环境下利用CO2空气源热泵进行采暖的可行性。建立了一个静态的CO2空气源热泵的数学模型,并且充分考虑了各组成部件(空气冷却。

5、 非法侵入计算机信息系统罪的构成要件 摘 要:随着人类社会的信息化程度不断提高,计算机的发展程度也日新月异。计算机缩短了国家之间的距离,却也把计算机化的犯罪带到了人们的身边。针对计算。

6、 基于OpenGL邦宝模型积木分析系统设计和实现 摘 要:由于传统单凭经验使用插座式积木搭建大型场景模型时会出现费时费力,无法提前统计成本等难题,所以急需开发出一个积木智能搭建系统。邦宝模型积木。