经典案例

提升大数据领域整体竞争力

  • 咨询电话

    0871-67365705

    咨询微信

    二维码即将上线,敬请期待

    咨询邮箱

    ht@ynhuitian.com

舆情采集分析系统
  



互联网信息采集系统

系统利用主题网络爬虫的特点,高效地、聚焦地、自适应地从多源、多格式的数据源中获取行业的原始信息数据,使得行业信息的收集具有高覆盖率。然后,对收集到网页进行网页去重、噪音过滤等处理,形成统一的文档格式并存于原始文档库中。再依据原始文档库建立起倒排索引,建立网页倒排索引库。用户可通过网页检索模块实现网页文档的查询与管理。原始文档库作为行业信息抽取的数据源。


互联网信息抽取融合系统

通过对行业信息的规范化表达,总结文本中行业信息的语言描述特征,归纳文本中时空信息描述的语言结构,建立描述行业信息标注体系。同时以大规模网页文本为数据源,建立大规模的标注数据源,形成高质量的时空信息标注语料库。同时基于时间地理学理论,设计实现行业信息的时空匹配方法,将结构化、定性化的行业信息有机、直观地表示在空间和时间轴上,实现行业实体演化空过程的空间化处理。

互联网舆情采集分析系统

针对当前网络文本中的行业信息,建立舆情关键词,描述舆情话题间的热度差异、内容特征、关联关系以及倾向趋势,对比不同阶段的政府信息发布、公众翻译、媒体报道,分析事件的背景,研究时间产生的原因,为政府部门相关决策的制定提供相应的理论支撑。

互联网信息公开查询系统

以网络爬虫技术和信息挖掘技术为支撑,依托政府门户网站系统建立信息公开查询系统,提供各业务类别办事咨询、法律法规查询、表格资料下载、办事引导及结果查询等服务。同时,利用新媒体时代下人际媒体和大众媒体的优点,将行业信息公开查询系统通过公众微信、短信服务等主流新媒体形式推送给大众,塑造政府公信,引导社会舆论。