数据引擎之深层网络数据搜索

201655

23:02

暗网(深层网络)

Web按照信息隐藏深度分为暗网(Deep Web)和浅层网(Visible Web)。传统搜索引擎(如BaiDu,Google等)仅能索引到浅层网的页面上信息;暗网即指在线填写表单并提交至后台服务器才能获得的页面。据BrightPlant的调查得知暗网所蕴含的信息量是浅层网几百倍,数据结构化程度高,有着极强的领域专业性,大多是各行各业专业人员不断积累的结果。

如括生物物种、食品化学、中医药、基因蛋白、化学、文献、专利、商品经济及金融、法律等海量数据,分布在互联网中各个数据网站上(法律更多是书面文本发行的内容),绝大数数据是现在的搜索引擎所访问不到的。但在科技研发创新,经济活动却是极其重要。

 

现有搜索技术的缺陷

现有的搜索引擎基关键词索引技术,很难搜索高度结构化的数据,如百度的以关键词为核心的学术搜索搜索准确率不高;现有搜索引擎离化散结果网站列表,不能满足人们多维信息整合需求。这使人们在筛选网站,跨网站收集数据与数据甄别上花费了太多重复工作——绝大多数据人在收集类似数据时,人与人之间存在着太多的重复工作。

 

数据引擎

通过加载自动来自网页、网站下载的各种数据格式的数据,按照源的关系结构配置之后,形成数据网络,就可以实现数据搜索服务。能自动识别输入类型,结果有极高的准确度; 实现多维数据的自动聚合; 能有效的提高人们收集数据的工作效率。

 

 

互联网下一个机会

来自于互联网深层网络的数据,以数据引擎为驱动引擎,汇集形成各行各业的数据形成数据网络(大数据),提供从数据搜索服务到大数据深度挖掘智能分析,将对行业科技创新及经济活动起来极其深刻的影响!