首先,队列的作用不是批量处理,而是延时处理,也叫异步处理
要做批量采集的话,首先你要划分好区间,可以用php的多进程,也可以用php的cli模式做,只要数据不窜就行
用fopen/file/file_get_contents/curl之类的函数将远程页面获得内容, 采用正则或过滤之类的获得自己所需要的东西, 最好写入相应的数据库保存起来.
问题其实不难,自己都能写.给你几个思路吧:
①在百度知道中,输入linux,然后会出现列表.复制浏览器地址栏内容.
然后翻页,在复制地址栏内容,看看有什么不同,不同之处,就是你要循环分页的i值.
当然这个是笨方法.
需要注意的是,百度知道有可能做了防抓取的功能,你刚一抓几个页面,可能会被禁止.
建议也就抓10页数据.
其实不难,你肯定写的出来. 还有,网上应该有很多抓取工具,你找找看,然后将抓下来的数据
在做分析.写入数据库.
$strPreg = "|td[^]+([^]+)\/td\s*td[^]+([^]+)\/td\s*td[^]+([^]+)\/td|U";
搞定了才发现你都没悬赏分...
以上就是土嘎嘎小编为大家整理的如何用php做数据采集相关主题介绍,如果您觉得小编更新的文章只要能对粉丝们有用,就是我们最大的鼓励和动力,不要忘记讲本站分享给您身边的朋友哦!!