毕业论文网

j论文范文a图片操作论文范文 图片论文文献资料

《网络图片搜索采集器的设计》概括:本文是一篇图片操作论文范文,可作为选题参考。

陈志伟

(福州大学工程技术学院,福建福州350002)

摘 要:Web信息数据是网络上最庞大,也是最丰富的信息资源.工具通过C#编程实现,采用正则表达式手段,针对HTML的信息进行分析、过滤、整理、采集,实现了对Internet网络上WEB文档数据的自动化、无人值守的操作.软件模拟baidu“图片”频道,通过读取HTML信息内容,搜索出页面中的图片信息,并进行分类保存等操作.

关键词:C#编程;HTML分析;Regular Expressions

中图分类号:TP311

文献标识码:A

文章编号:1673-9884 (2010) 05-0117-04

1. 引言

HTML语言是目前网络上应用最为广泛的,也是构成WEB文档的主要语言.现在Internet网上的运用大部分都是以HTML信息的方式体现出来.因为HTML是纯文本内容,并由标记表示出关键元素的信息,因此HTML内容一般需要通过浏览器解析后才可浏览.但是使用人工进行检阅、分析、提取内容的方式容易出现错误,会产生疏漏,效率低下等问题.如何在海量的WEB文档中快速、有效的发现信息呢?针对这个问题,本软件模拟Baidu“图片”频道的搜索工作原理,使用Visual Studio.Net 2008开发工具,结合MS SQL Server2005,实现了在HTML上分析搜索采集图片的操作.

j论文范文a图片操作:如何给拍拍店铺添加自定义分类栏与分类栏加图片操作教程

2总体设计

WEB网络上庞大的交错的超链接,使得采集工具软件可以根据这些链接自动发现新的站点和页面,再通过新的站点自动发现其他新的站点和页面.如此递归操作就可以使得采集分析不间断的进行.总体设计逻辑如图1.

首先在数据库内设置一个初始URL,程序第一次运行访问此URL,再通过这个URL搜寻到页面上其他URL信息,并保存URL信息到数据库,若有发现图片,则也保存图片路径到数据库.通过URL找出新的URL,这样以达到自动、地毯式搜索的方式.

获取HTML信息会因为网络连接情况不同而产生延时,因此,程序设计,除了UI线程以外,获取URL,生成HTML,分析HTML内容等操作都放在独立的操作线程内完成.

3数据库设计

考虑到并发操作和搜索页面数据量大的问题,数据库使用MS SQL Server2005.需要用到的信息较少,数据库只需要用两个表来保存两种信息:(1)页面网址信息,(2)图片信息.

3.1 页面网址信息:

URL表,用来保存所搜索到的URL信息,根据这些URL,再搜索这些页面上的图片信息,若已经搜索过图片的URL,则把“IsDisposal”字段置为1.“URL”字段保存页面地址,并设置唯一值属性,这样保证不会采集相同信息的页面数据.

3.2图片信息: 为了不在本地产生大量的图片文件,占用大量空间,软件模仿baidu的数据处理方式,仅仅保存图片在网络上的URL,而不保存实际图片文件.

4. 功能界面

界面主要分成四个部分,一个是操作区,用来打开和搜索URL信息.一个用来显示当前搜索的URL地址.用两个dataGridView,分别显示URL表和Im-age表信息.当双击当前图片URL,则图片显示在下方的pictureBox中.

搜集图片需要进行Web访问请求,需要耗费时间,因此,搜索操作需要放置在独立的线程内进行,防止界面无响应.

5. 程序设计

程序分为界面和后台多线程操作两个大部分.通过多线程读取分析URL和图片信息,并保存到数据库,同样利用多线程读取数据库数据并显示在界面上.程序被分开放在三个不同的类文件内:(1)功能界面模块;(2)数据访问模块;(3) Web分析模块.

5.1 功能界面模块

(1)“打开URL”:即显示出当前数据库中所收集的URL信息,并标记出是否已经采集过页面信息.

(2)“打开图片库”:即显示出当前数据库中采集的图片URL信息,当双击此信息后,在下方的pic-tureBox中显示出对应的网络图片.

(3)“开始搜索”,“结束搜索”:创建或停止多线程操作,以开始或结束对Web资源的搜索.

(4)双击“当前图片”则在下方的pictureBox显示当前的搜集到图片.

在.Net程序中,为了保证界面刷新速度,对URL和图片的搜寻都使用多线程完成,在子线程中操作UI控件刷新方法是不安全方法,需要在窗体的构造函数中加入如下代码,保证UI线程成界面线程同步.代码如下: System.Windows.Forms.Form.Chec kForlllegaIC rossThreadCalls等于false,

5.2数据访问模块

数据访问模块比较简单.操作仅仅是把搜寻到的新的URL及图片保存到数据库.连接字符串放在txt文件中,并在构造函数读出数据库的连接配置.

软件采用SqlCommand对象对数据库进行“增删改’’操作,使用数据库这样“连接”操作方式,效率高,对服务器压力小.软件界面显示的数据则通过SqlDataAdapter采用“非连接”操作方式,把数据缓存在DataSet中,可以减少对数据库的频繁操作.

5.3 Web分析模块

此模块是设计的核心模块,它用来读取HTML文本内容,并对HTML文本内容进行正则表达式匹配.

5.3.1 获取HTML方法:根据给定的URL,获取HTML页面内容,返回对应URL值的HTML内容.因为有多线程操作,所以代码使用Lock进行同步操作,同时操作做了容错处理,如果读取内容大小超过2MB,则丢弃此页面.代码如下:

6. 结束语

本软件设计是以搜索采集图片为例,描述使用C#结合正则表达式对HTML数据的分析和处理能力,根据这样的设计思路,同样可以搜索采集mp3、论文范文i、a论文范文、Email等网页内容,针对这些数据内容可进行加工和整理以达到进一步利用的目的.

总结:

大学硕士与本科图片操作毕业论文开题报告范文和相关优秀学术职称论文参考文献资料下载,关于免费教你怎么写图片操作方面论文范文。

您可能感兴趣的话题

金融服务论文 杂志报刊 大众文艺杂志社 会计毕业论文范例 电子科学与技术专业导论论文 现代营销杂志社 杂志在线阅读 自考论文答辩时间 药品质量管理论文