宝德云服务器搭建云服务数据中心(2)
业务需求分析
科技园互联网情报采集与智能分析系统架构
情报管理和规划
根据该大学科技园的实际情况,需要系统采用灵活的情报分类体系定义方式,以方便科技园灵活定义情报需求。为此,需要预先规划欲收集情报的行业,欲采集的主题。系统能根据园区诉求会生产网站采集频道,并确定信息采集源。
信息采集
由于园区采集的信息涉及面广,因而需要系统支持多种信息源的采集,除了包括论坛,博客,新闻,政府门户网站等静态网页信息,还应包含一些政策法规文件的电子文档(如pdf,doc,xls,ppt等),培训用视频和图片文件等。需要系统能够提供异构信息整合工具,将非结构化信息结构化,转换为统一的数据格式进行存储,对外能提供统一的查询和统计接口。
信息自动分类
大学科技园需加工和处理的信息类型多样,包括政策法规信息,竞争对手信息,园区内部信息,舆情口碑信息,创业培训资源,如何对这些资源进行分类管理,有序使用,是一个迫切需要解决的问题,为此平台应集成信息自动分类功能,能将自动归类后,形成不同频道,便于园区进行查询和归档。除此之外,系统还应该提供分类规则定义工具和自动训练器,用户可以自定义分类主题和分类规则,进行灵活分类;系统还集成分类训练器功能,用户指定类别和训练样本后,自动生成训练模型进行分类预测。
自动排重
互联网存在大量重复信息,如果能对这些重复信息进行自动判定,那么为情报人员节约大量时间,系统排重除了能够支持url的排重外,还能支持内容排重功能,能抽取文档的特征词,设定内容相似度阈值,来调整排重的召回率和准确率。
自动摘要
摘要是以提供文献内容梗概为目的,不加评论和补充解释,简明、确切地记述文献重要内容的短文。如果计算机程序能根据文章的外在特征抽取能够表达其中心意思的原文部分句子作为摘要,那么将会大大大幅情报人员的工作效率。系统能输出反映文章大意的静态摘要,基于用户查询输出反映查询意图的动态摘要。(责任编辑:admin)
- “扫一扫”关注融合网微信号
免责声明:我方仅为合法的第三方企业注册用户所发布的内容提供存储空间,融合网不对其发布的内容提供任何形式的保证:不保证内容满足您的要求,不保证融合网的服务不会中断。因网络状况、通讯线路、第三方网站或管理部门的要求等任何原因而导致您不能正常使用融合网,融合网不承担任何法律责任。
第三方企业注册用户在融合网发布的内容(包含但不限于融合网目前各产品功能里的内容)仅表明其第三方企业注册用户的立场和观点,并不代表融合网的立场或观点。相关各方及作者发布此信息的目的在于传播、分享更多信息,并不代表本网站的观点和立场,更与本站立场无关。相关各方及作者在我方平台上发表、发布的所有资料、言论等仅代表其作者个人观点,与本网站立场无关,不对您构成任何投资、交易等方面的建议。用户应基于自己的独立判断,自行决定并承担相应风险。
根据相关协议内容,第三方企业注册用户已知悉自身作为内容的发布者,需自行对所发表内容(如,字体、图片、文章内容等)负责,因所发表内容(如,字体、图片、文章内容等)等所引发的一切纠纷均由该内容的发布者(即,第三方企业注册用户)承担全部法律及连带责任。融合网不承担任何法律及连带责任。
第三方企业注册用户在融合网相关栏目上所发布的涉嫌侵犯他人知识产权或其他合法权益的内容(如,字体、图片、文章内容等),经相关版权方、权利方等提供初步证据,融合网有权先行予以删除,并保留移交司法机关查处的权利。参照相应司法机关的查处结果,融合网对于第三方企业用户所发布内容的处置具有最终决定权。
个人或单位如认为第三方企业注册用户在融合网上发布的内容(如,字体、图片、文章内容等)存在侵犯自身合法权益的,应准备好具有法律效应的证明材料,及时与融合网取得联系,以便融合网及时协调第三方企业注册用户并迅速做出相应处理工作。
融合网联系方式:(一)、电话:(010)57722280;(二)、电子邮箱:2029555353@qq.com dwrh@dwrh.net
对免责声明的解释、修改及更新权均属于融合网所有。