直接用Curl就行,具体爬取的数据可以穿参查看结果,方法不区分淘宝和天猫链接,但是前提是必须是PC端链接,另外正则写的不规范,所以可以自己重写正则来匹配数据。
创新互联建站一直秉承“诚信做人,踏实做事”的原则,不欺瞒客户,是我们最起码的底线! 以服务为基础,以质量求生存,以技术求发展,成交一个客户多一个朋友!为您提供成都网站制作、成都网站建设、成都网页设计、小程序开发、成都网站开发、成都网站制作、成都软件开发、app软件开发是成都本地专业的网站建设和网站设计公司,等你一起来见证!
准备工作 首先要下载如下软件,推荐到官网下载,如果你是像我一样只是测试,那么到skycn.com下载吧,这样比较快。
Apache
最流行的HTTP服务器软件之一。快速、可靠、可通过简单的API扩展,Perl/Python解释器可被编译到服务器中,完全免费,完全源代码开放。
我下载的是for Windows版本,目前最新版本是:2.0.54
PHP
PHP 是一种 HTML 内嵌式的语言。而PHP独特的语法混合了 C、Java、Perl 以及 PHP 式的新语法。它可以比 CGI 或者 Perl 更快速的执行动态网页。
我下载的是for Windows版本,目前最新版本是:5.0.4
MySQL
是一个多线程的,结构化查询语言(SQL)数据库服务器。SQL 在世界上是最流行的数据库语言。MySQL 的执行性能非常高,运行速度非常快,并非常容易使用。
我下载的是for Windows版本,目前最新版本是:5.0.4 Beta
phpMyAdmin
phpMyAdmin 是一个用PHP编写的,可以通过互联网控制和操作MySQL。通过phpMyAdmin可以完全对数据库进行操作。
我下载的是for Windows版本,目前最新版本是:2.6.2-pl1
安装apache和PHP
下面是我的安装记录:
选择80端口,将apache安装在 e:\apache下。
配置apache里的httpd.conf文件(conf目录下)
找到 DocumentRoot E:/apache/Apache2/htdocs 将其改为WEB目录E:/htdocs
找到 DirectoryIndex index.html index.html.var 在后面加入 index.htm index.php default.php default.html
选择模块化模式安装
找到 #LoadModule ssl_module modules/mod_ssl.so 这行,在此行后加入一行
LoadModule php5_module e:/php/php5apache2.dll
找到 AddType application/x-gzip .gz .tgz 这行,在此行后加入一行
AddType application/x-httpd-php .php
将php-5.0.4-Win32.zip里内容解压到e:\php里,找到php.ini-recommended,重命名为php.ini并拷贝到windows目录下。
NTFS上记得给服务器开PHP.ini的读权限。
查找extension_dir后面的改为e:/php/ext
查找Windows Extensions,把下面有一排的;extension=php_***.dll的分号去掉,就是支持组件了。我把 extension=php_gd2.dll extension=php_mbstring.dll extension=php_mysql.dll 的分号去掉了。
php5默认不支持mysql了,所以要为他添加支持,除了extension=php_mysql.dll去分号之外,在php目录里有个libmysql.dll文件,把它复制到系统的system32文件夹下,复制php.ini到windows目录下。
此时PHP环境基本已经配置成功
在WEB根目录里建一个名为test.php的文件内容如下
? echo phpinfo(); ?
重新启动apache服务,用浏览器打开
如果可以看到php配置输出信息就成功了
安装mysql
将mysql安装到指定目录,然后安装程序会引导你一步步配置。不过奇怪的是最后任务栏没有出现Mysql的图标。
修改mysql数据库的root密码
用cmd进入命今行模式输入如下命令: ( 注: d:\mysql 为mysql安装目录)
cd d:\mysql\bin
mysqladmin -u root -p password 123456
回车出现
Enter password: ( 注:这是叫你输入原密码. 刚安装时密码为空,所以直接回车即可)
此时mysql 中账号 root 的密码 被改为 123456 安装完毕
配置php.ini并测试mysql
找到extension_dir = ./ 改为 extension_dir = e:/php/ext
找到
;extension=php_mysql.dll
将';'去掉改为
extension=php_mysql.dll
找到
;session.save_path = /tmp
将';'去掉 设置你保存session的目录,如
session.save_path = e:/php/session_temp
重启apache服务
在Web根目录下建立testdb.php文件内容如下:
?php
$link=mysql_connect('localhost','root','123456');
if(!$link) echo fail;
else echo success;
mysql_close();
?
用浏览器打开 如果输出success就OK了
phpmyadmin的安装配置
将phpMyAdmin-V2.6.2-pl1.zip解压到WEB根目录中去,重命名文件夹为phpmyadmin或其它
打开phpmyadmin 目录中的 config.inc.php
找到
$cfg['Servers'][$i]['user'] = 'root';
$cfg['Servers'][$i]['password'] = '123456';
分别填上用户名和密码
其实用PHP来爬会非常方便,主要是PHP的正则表达式功能在搜集页面连接方面很方便,另外PHP的fopen、file_get_contents以及libcur的函数非常方便的下载网页内容。
创建一个新cURL资源
设置URL和相应的选项
抓取URL并把它传递给浏览器
关闭cURL资源,并且释放系统资源
代码案例: