简单的分了几个步骤:
创新互联建站主营井冈山网站建设的网络公司,主营网站建设方案,App定制开发,井冈山h5小程序定制开发搭建,井冈山网站营销推广欢迎井冈山等地区企业咨询
1、确定采集目标
2、获取目标远程页面内容(curl、file_get_contents)
3、分析页面html源码,正则匹配你需要的内容(preg_match、preg_match_all),这一步最为重要,不同页面正则匹配规则不一样
4、入库
我觉得可以这样做,先备份一下这个数组,然后循环判断这个数组中的每一个子元素,如果该子元素的next字段有值,就把这个子元素作为子节点附加到其next的节点,这样就会形成一个树状结构,其对应的子评论就好找了。可能有些麻烦了,不知道还有没有其它更好的方法。
下面是给你写的生成树的方法:
function list_to_tree($list) {
// 创建Tree
$tree = array();
if(is_array($list)) {
$refer = array();
foreach ($list as $key = $data) {
$refer[$data['id']] = $list[$key];
}
foreach ($list as $key = $data) {
$parentId = $data['next'];
if (0 == $parentId) {
$tree[$data['id']] = $list[$key];
}else{
if (isset($refer[$parentId])) {
$parent = $refer[$parentId];
$parent['_child'][$data['id']] = $list[$key];
}
}
}
}
return $tree;
}
剩下的取每一个父节点的子节点就比较好取了,希望对你有帮助。
直接用Curl就行,具体爬取的数据可以穿参查看结果,方法不区分淘宝和天猫链接,但是前提是必须是PC端链接,另外正则写的不规范,所以可以自己重写正则来匹配数据。