|
本帖最后由 lililili 于 2012-9-2 07:41 编辑
都说了是内部测试的网页为何还要抓
360搜索推出独立域名,周鸿祎强调360搜索是基于机器学习技术的第三代搜索引擎,具备“自学习、自进化”能力,发现用户最需要的搜索结果。360搜索的机器学习究竟有何奥秘? 百度工程师通过一个设饵钓鱼的实验,让360浏览器抓取用户隐私的秘密暴露无遗。
首先,百度工程师制作了一个保存在服务器个人文件夹下的简单网页,没有任何外链,由于搜索引擎爬虫只能通过链接爬行网页,因此这个网页是完全封闭的,不可能被搜索引擎抓取到。
第二步,百度工程师用360浏览器打开了这个网页。并通过各种搜索引擎不间断试验,显示网页均未被抓取。
但约2小时之后,却发生了令人大跌眼镜的事情。百度工程师试着在360搜索中输入以上关键词,结果这个网页赫然出现在搜索结果第一行,并可以直接点击进入浏览网页内容。再换百度、谷歌、搜狗、搜搜等其他浏览器搜索相同内容,却仍然无法返回相应网页。
但是很奇怪的是 现在百度能搜到这个页面啊 http://wobucunzai.duapp.com/
|
|