主要从两个方面发表一下个人看法:
成都网站设计、成都做网站的开发,更需要了解用户,从用户角度来建设网站,获得较好的用户体验。创新互联公司多年互联网经验,见的多,沟通容易、能帮助客户提出的运营建议。作为成都一家网络公司,打造的就是网站建设产品直销的概念。选择创新互联公司,不只是建站,我们把建站作为产品,不断的更新、完善,让每位来访用户感受到浩方产品的价值服务。
行业变迁
最近两年,我们耳熟能详的技术热词比如:云计算、machine learning、TensorFlow、AI……,基本与PHP都没太大的关系,再比如:(自然语言处理)NLP、(物联网)IoT、big data、区块链(blockchain)……,也基本和PHP没太大的关系;难道说PHP技术不行了?那倒也不是,其根本原因在于技术发展日新月异,开发语言也愈加细分,golang主要用于云计算、Python主要用于神经网络与深度学习、大数据与数据可视化分析有R语言,反观PHP,似乎除了web、及部分APP后端开发,其他专业技术领域有点力不从心,尽管它也在一直寻求新的爆发点。
语言特性
在web开发不甚成熟的时代,PHP以其“开发周期短”、“技术门槛低”的优势吸引了一大批开发人员加入,虽然项目可以很快推上线,但由于“弱类型解释语言”的基因缺陷,在性能优化大行其道的今天,PHP需要补足这一先天缺陷(从PHP5~PHP7就可以看出),这也给很多其他开发语言趁势而上的机会,比如go语言。业务量暴增需要程序能适应更高的并发访问以及更低的延迟,go语言天生的并发编程语言特性就恰好解决这一痛点,我所参与的大部分项目都选择go语言进行数据的云同步。再来说说Python,同样是动态解释型语言,Python的技术应用场景相比PHP而言则多出不少,比如GUI程序开发、机器学习、数据抓取与分析……,一旦项目有大量数据抓取的需求,我的第一选择肯定会是Python,因为在同等开发周期内,Python的效率与执行效果是最优的;所以总的来看,性能不及golang纯粹,应用场景不如Python丰富,却也不能否定“PHP是最好的开发语言”。我一般的技术选型如下:web后端与轻量级APP后台任务用PHP,大数据量吞吐与并发数据传输用golang,大数据抓取与分析用Python,我一直认为“术业有专攻”,没有最好的语言,只有最合适的语言,如果能一枪放倒敌人就没必要与其拼刺刀。
可以用以下4个方法来抓取网站 的数据:
1. 用 file_get_contents 以 get 方式获取内容:
?
$url = '';
$html = file_get_contents($url);
echo $html;
2. 用fopen打开url,以get方式获取内容
?
$url = '';
$fp = fopen($url, 'r');
stream_get_meta_data($fp);
$result = '';
while(!feof($fp))
{
$result .= fgets($fp, 1024);
}
echo "url body: $result";
fclose($fp);
3. 用file_get_contents函数,以post方式获取url
?
$data = array(
'foo'='bar',
'baz'='boom',
'site'='',
'name'='nowa magic');
$data = http_build_query($data);
//$postdata = http_build_query($data);
$options = array(
'http' = array(
'method' = 'POST',
'header' = 'Content-type:application/x-www-form-urlencoded',
'content' = $data
//'timeout' = 60 * 60 // 超时时间(单位:s)
)
);
$url = "";
$context = stream_context_create($options);
$result = file_get_contents($url, false, $context);
echo $result;
4、使用curl库,使用curl库之前,可能需要查看一下php.ini是否已经打开了curl扩展
$url = '';
$ch = curl_init();
$timeout = 5;
curl_setopt ($ch, CURLOPT_URL, $url);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
$file_contents = curl_exec($ch);
curl_close($ch);
echo $file_contents;
1、建议你读写数据和下载图片分开,各用不同的进程完成。
比如说,取数据用get-data.php,下载图片用get-image.php。
2、多进程的话,php可以简单的用pcntl_fork()。这样可以并发多个子进程。
但是我不建议你用fork,我建议你安装一个gearman worker。这样你要并发几个,就启几个worker,写代码简单,根本不用在代码里考虑thread啊,process等等。
3、综上,解决方案这样:
(1)安装gearman worker。
(2)写一个get-data.php,在crontab里设置它每5分钟执行一次,只负责读数据,然后把读回来的数据一条一条的扔到 gearman worker的队列里;
然后再写一个处理数据的脚本作为worker,例如叫process-data.php,这个脚本常驻内存。它作为worker从geraman 队列里读出一条一条的数据,然后跟你的数据库老数据比较,进行你的业务逻辑。如果你要10个并发,那就启动10个process-data.php好了。处理完后,如果图片地址有变动需要下载图片,就把图片地址扔到 gearman worker的另一个队列里。
(3)再写一个download-data.php,作为下载图片的worker,同样,你启动10个20个并发随便你。这个进程也常驻内存运行,从gearman worker的图片数据队列里取数据出来,下载图片
4、常驻进程的话,就是在代码里写个while(true)死循环,让它一直运行好了。如果怕内存泄露啥的,你可以每循环10万次退出一下。然后在crontab里设置,每分钟检查一下进程有没有启动,比如说这样启动3个process-data worker进程:
* * * * * flock -xn /tmp/process-data.1.lock -c '/usr/bin/php /process-data.php /dev/null 21'
* * * * * flock -xn /tmp/process-data.2.lock -c '/usr/bin/php /process-data.php /dev/null 21'
* * * * * flock -xn /tmp/process-data.3.lock -c '/usr/bin/php /process-data.php /dev/null 21'
不知道你明白了没有