网站新闻信息采集分析系统

邦富网站新闻信息采集分析系统由信息采集模块、自动分类模块、存储发布模块、非结构化信息搜索引擎、相关性引擎和网页快照模块等诸多功能模块组件构成。各模块间通过规范的数据接口相联系,但又相对独立。

1.信息采集模块

邦富BFS分布式系统架构针对互联网舆情监控所要求的搜索深度深、采集精度高和抓取速度快等要求,邦富软件进行了专门的优化,采用了分布式多线程并发指令执行体系结构、增量实时索引、智能分词等多项先进技术,采集和数据管理效率非常高,管理员可以灵活设置更新周期。客户端采用可视化的配置工具,灵活配置应用属性页的抓取信息。经顾客严格测试,漏搜率明显低于其他厂商,用中低端硬件可达到理想的采集效果。

邦富互联网新闻信息采集分析系统包括Spider组件、File组件和Monitor组件,分别负责网络信息采集、文件系统信息采集和数据库信息采集。

Spider组件:Spider组件用来将Internet/Intranet的信息导入信息库,它采用先进的多线程并发架构设计,能够高效采集互联网、局域网、专网内网上的各种信息资源。在对网页类型的支持上,邦富互联网新闻信息采集分析系统的Spider组件具有世界领先的技术,不仅可以采集常见的动态或静态网页,还能够支持Javascript制作的动态网页,以及多种认证网站的信息采集,皆为业界独有。

File组件:File组件用来采集文件系统中的多种文档信息,目前支持基于MS Windows和Linux两大操作系统的多种文件系统,包括FAT32、NTFS、EXT、EXT16、EXT32等。支持的文档类型包括.txt、.rtf、.pdf、.doc、.ppt和.xls等。

Monitor组件: Monitor组件用来将数据库数据批量导入系统信息库并保持时实同步。系统在第一次创建信息库时需将数据库数据一次性导入(其中还包括对多表、甚至多个数据库通过联合查询或视图等方式进行数据的整合),此后,Monitor组件通过数据库Trigger机制保持信息库对数据库内容变化的实时更新。

2. 头条新闻获取模块

通过获取各大网站的头条新闻,并根据新闻的评论数和点击率进行分析,在首页实时显示当前评论数排行和点击率排行,并对时政热点、社会热点等进行分析,列出当天的热点文章。

3. 热点排行榜模块

邦富的舆情热点是一个在实践中颇受各用户欢迎的功能,通过绑定主题检测技术自动获取网民对新闻的点击率、评论数,加以统计网页被转载情况、相同文章数、相似文章数等信息,智能分析本地区近期热点,对该舆情的新闻报道、论坛热帖、境外报道等进行收集分析,显示其变化趋势、传播路径、各网站报道情况等生成专题页面,实现很多各大网站的专题所没有的内容和分析功能。

同时,可通过自动聚类技术,邦富系统可自动聚焦这段时间当地的网上热点信息,并以3D聚类图和2D信息岛图展现聚类过程和结果,让用户直观的了解到热点舆情的分布和关联。

4. 存储发布模块

邦富互联网新闻信息采集分析系统所采集分类后的信息将会保存到数据库中,并自动发布至网页,供用户直接进行浏览,该功能即通过发布模块为完成。

信息存储:邦富互联网新闻信息采集分析系统支持标准数据存储接口,可以根据用户实际使用环境将采集分类后的信息进行存储。这里的存储不仅包括信息标题、正文、时间等内容,还包括采集到的网页上的正文图片、文章智能摘要、重复文章信息、相关文章信息等大量内容。用户可以通过简单的接口调用方便的将这些信息导入到其他应用系统中,满足更多应用。

自动发布:邦富互联网新闻信息采集分析系统能够将经过采集分类后的信息自动发布至发布界面,用户可以登录系统网址,根据自己的权限方便的浏览所需要的信息。该发布系统不仅可以显示经过抽取后的信息内容,还能够显示采集到的网页正文图片,文章智能摘要、网页快照、重复文章列表、相关文章等大量丰富的内容。

权限控制:邦富互联网新闻信息采集分析系统的发布模块具有权限控制功能,不同用户不同的权限能够看到不同范围的信息内容,适应组织内权限级别的要求,保证信息的安全性。

发布信息维护:邦富互联网新闻信息采集分析系统的发布信息可以根据用户需求随时进行维护调整,用户可以在管理界面中对发布信息进行屏蔽或者彻底删除操作。屏蔽的发布信息可以重新发布。

5. 非结构化信息检索引擎

邦富互联网新闻信息采集分析系统的非结构化信息搜索引擎负责将采集模块所采集的各种类型的信息内容进行解析,并建立高速索引供用户快速检索查询之用。

第一次创建索引:由信息采集模块对信息源进行提取,将提取获得的信息传送给非结构化信息搜索引擎对获得的数据信息进行快速索引,建立硬盘索引。并在建立好硬盘索引的基础上,启动检索服务,用户即可开始对信息进行检索。

增量式实时索引:邦富互联网新闻信息采集分析系统对不同的信息源采用不同的实时同步机制,将其捕捉到的信息的变化(增、删、改)立即传送给信息采集子系统,该系统经过格式标准化后(XML)提交给非结构化信息搜索引擎进行即时内存索引,使信息一旦被采集到即可被立刻检索到。

内存和硬盘索引:索引由两部分组成。一部分是内存索引,用于对实时数据进行索引。一部分是硬盘索引,用于对历史积累的大量数据进行索引。检索工作有由两部分索引共同完成。非结构化信息搜索引擎根据数据库更改情况、用户的检索情况,选择合适的时间完成将内存索引向硬盘索引的合并。

用户检索的响应:当用户提交一个检索时,该检索经过检索请求接口后,在内核中由内存实时索引检索和硬盘索引检索共同完成。检索的结果通过检索响应接口提交给用户。

6. 相关性引擎

邦富互联网新闻信息采集分析系统具有业界领先的相关性引擎模块,能够对采集到的各种信息进行自动分析处理,抽取每则信息的语义特征,建立信息间的相关性模型网络,为用户提供各种信息相关性查询结果。

信息特征抽取:邦富相关性引擎首先对采集输入的信息进行特征抽取,根据算法抽取每则信息的代表特征,并加以存储和处理。

自动标引:在信息特征抽取完成之后,相关性引擎会根据这些特征为每则信息建立自动标引,标注出每则信息的特征属性。

建立相关性模型:邦富相关性引擎以先进的算法为基础,加以专门的优化形成邦富相关性引擎的特有算法。通过这套算法对抽取出的信息特征进行运算,建立信息间的相关度模型,算出每条信息间的相关度系数。

自动聚类:根据邦富特有的相关性算法,相关性引擎可以对输入的全部信息进行自动聚类,根据用户配置生成单遍或层次聚类结果,从而让用户可以发现看似不同的信息间的本质联系,形成信息间的语义逻辑网络。

7. 网页快照模块

邦富互联网新闻信息采集分析系统独有的网页快照模块能够在本地保存网页被采集时的内容,正如该网页被用照相机拍下一幅快照一样,所以称之为网页快照。通过网页快照能够提高网页访问速度,用户通过浏览网页快照即可在本地快速浏览网页内容。而且在原网页无法访问的情况下,同样能够通过网页快照了解网页信息。