其实用不着这么麻烦的,采集时,你看到的图片路径是相对地址,是相对当前域名的一个相对路径而已,你只要在前面加上
http://当前域名(采集内容的域名,比如zhidao.baidu.com)/
就是它的绝对地址了,
就像/abc.jpg一样
http://当前域名(采集内容的域名,比如zhidao.baidu.com)/abc.jpg就是绝对地址了
没必要搞复杂
这个需要配合js,打开一个html页面,首先js用ajax请求页面,返回第一个页面信息确定处理完毕(ajax有强制同步功能),ajax再访问第二个页面.(或者根据服务器状况,你可以同时提交几个URL,跑几个相同的页面)
参数可以由js产生并传递url,php后台页面根据URL抓页面.然后ajax通过php,在数据库或者是哪里设一个标量,标明检测到哪里.由于前台的html页面执行多少时候都没问题,这样php的内存限制和执行时间限制就解决了.
工具/原料
PHPCMS
文章采集器
方法/步骤
问题其实不难,自己都能写.给你几个思路吧:
①在百度知道中,输入linux,然后会出现列表.复制浏览器地址栏内容.
然后翻页,在复制地址栏内容,看看有什么不同,不同之处,就是你要循环分页的i值.
当然这个是笨方法.
需要注意的是,百度知道有可能做了防抓取的功能,你刚一抓几个页面,可能会被禁止.
建议也就抓10页数据.
其实不难,你肯定写的出来. 还有,网上应该有很多抓取工具,你找找看,然后将抓下来的数据
在做分析.写入数据库.
你用PHP模拟模拟浏览器发送HTTP协议就是可以登录了,不管是cookie,还是session! session 也是有session_id的!希望可以帮助你!
愚见:
能把字符串按照逗号分开.可以直接赋值给一个数组变量.
然后你自己可以从数组中按照你获取的顺序给数组中相应的元素赋值给数据库的对应字段.
希望有帮助.
以上就是土嘎嘎小编为大家整理的PHP的数据采集实验报告相关主题介绍,如果您觉得小编更新的文章只要能对粉丝们有用,就是我们最大的鼓励和动力,不要忘记讲本站分享给您身边的朋友哦!!