php大数据题 php题目

php采集大数据的方案

1、建议你读写数据和下载图片分开，各用不同的进程完成。

为企业提供成都做网站、成都网站建设、网站优化、营销型网站建设、竞价托管、品牌运营等营销获客服务。创新互联公司拥有网络营销运营团队，以丰富的互联网营销经验助力企业精准获客，真正落地解决中小企业营销获客难题，做到“让获客更简单”。自创立至今，成功用技术实力解决了企业“网站建设、网络品牌塑造、网络营销”三大难题，同时降低了营销成本，提高了有效客户转化率，获得了众多企业客户的高度认可！

比如说，取数据用get-data.php，下载图片用get-image.php。

2、多进程的话，php可以简单的用pcntl_fork()。这样可以并发多个子进程。

但是我不建议你用fork，我建议你安装一个gearman worker。这样你要并发几个，就启几个worker，写代码简单，根本不用在代码里考虑thread啊，process等等。

3、综上，解决方案这样：

（1）安装gearman worker。

（2）写一个get-data.php，在crontab里设置它每5分钟执行一次，只负责读数据，然后把读回来的数据一条一条的扔到 gearman worker的队列里；

然后再写一个处理数据的脚本作为worker，例如叫process-data.php，这个脚本常驻内存。它作为worker从geraman 队列里读出一条一条的数据，然后跟你的数据库老数据比较，进行你的业务逻辑。如果你要10个并发，那就启动10个process-data.php好了。处理完后，如果图片地址有变动需要下载图片，就把图片地址扔到 gearman worker的另一个队列里。

（3）再写一个download-data.php，作为下载图片的worker，同样，你启动10个20个并发随便你。这个进程也常驻内存运行，从gearman worker的图片数据队列里取数据出来，下载图片

4、常驻进程的话，就是在代码里写个while(true)死循环，让它一直运行好了。如果怕内存泄露啥的，你可以每循环10万次退出一下。然后在crontab里设置，每分钟检查一下进程有没有启动，比如说这样启动3个process-data worker进程：

* * * * * flock -xn /tmp/process-data.1.lock -c '/usr/bin/php /process-data.php /dev/null 21'

* * * * * flock -xn /tmp/process-data.2.lock -c '/usr/bin/php /process-data.php /dev/null 21'

* * * * * flock -xn /tmp/process-data.3.lock -c '/usr/bin/php /process-data.php /dev/null 21'

不知道你明白了没有

如何解决PHP查询大量数据内存耗尽的问题

这个问题在PHP的官方网站上叫缓冲查询和非缓冲查询(Buffered and Unbuffered queries)。PHP的查询缺省模式是缓冲模式。也就是说，查询数据结果会一次全部提取到内存里供PHP程序处理。这样给了PHP程序额外的功能，比如说，计算行数，将指针指向某一行等。更重要的是程序可以对数据集反复进行二次查询和过滤等操作。但这种缓冲查询模式的缺陷就是消耗内存，也就是用空间换速度。

相对的，另外一种PHP查询模式是非缓冲查询，数据库服务器会一条一条的返回数据，而不是一次全部返回，这样的结果就是PHP程序消耗较少的内存，但却增加了数据库服务器的压力，因为数据库会一直等待PHP来取数据，一直到数据全部取完。

很显然，缓冲查询模式适用于小数据量查询，而非缓冲查询适应于大数据量查询。

PHP中高级面试题 – 第三天

一、简述一下MongoDB的应用场景

mongodb 支持副本集、索引、自动分片，可以保证较高的性能和可用性。

更高的写入负载

默认情况下，MongoDB 更侧重高数据写入性能，而非事务安全，MongoDB 很适合业务系统中有大量 “低价值” 数据的场景。但是应当避免在高事务安全性的系统中使用 MongoDB，除非能从架构设计上保证事务安全。

高可用性

MongoDB 的复副集 (Master-Slave) 配置非常简洁方便，此外，MongoDB 可以快速响应的处理单节点故障，自动、安全地完成故障转移。这些特性使得 MongoDB 能在一个相对不稳定（如云主机）的环境中，保持高可用性。

数据量很大或者未来会变得很大

依赖数据库 (MySQL) 自身的特性，完成数据的扩展是较困难的事，在 MySQL 中，当一个单达表到 5-10GB 时会出现明显的性能降级，此时需要通过数据的水平和垂直拆分、库的拆分完成扩展，使用 MySQL 通常需要借助驱动层或代理层完成这类需求。而 MongoDB 内建了多种数据分片的特性，可以很好地适应大数据量的需求。

基于位置的数据查询

MongoDB 支持二维空间索引，因此可以快速及精确地从指定位置获取数据。

表结构不明确

在一些传统 RDBMS 中，增加一个字段会锁住整个数据库 / 表，或者在执行一个重负载的请求时会明显造成其它请求的性能降级。通常发生在数据表大于 1G 的时候（当大于 1TB 时更甚）。因 MongoDB 是文档型数据库，为非结构货的文档增加一个新字段是很快速的操作，并且不会影响到已有数据。另外一个好处当业务数据发生变化时，是将不再需要由 DBA 修改表结构。

二、数据库设计经验，为什么进行分表？分库？一般多少数据量开始分表？分库？分库分表的目的？

1、为什么要分表

当一张表的数据达到几百万时，你查询一次所花的时间会变多，如果有联合查询的话，有可能会死在那儿了。分表的目的就在于此，减小数据库的负担，缩短查询时间。日常开发中我们经常会遇到大表的情况，所谓的大表是指存储了百万级乃至千万级条记录的表。这样的表过于庞大，导致数据库在查询和插入的时候耗时太长，性能低下，如果涉及联合查询的情况，性能会更加糟糕。

分表和表分区的目的就是减少数据库的负担，提高数据库的效率，通常点来讲就是提高表的增删改查效率。数据库中的数据量不一定是可控的，在未进行分库分表的情况下，随着时间和业务的发展，库中的表会越来越多，表中的数据量也会越来越大，相应地，数据操作，增删改查的开销也会越来越大；另外，由于无法进行分布式式部署，而一台服务器的资源（CPU、磁盘、内存、IO 等）是有限的，最终数据库所能承载的数据量、数据处理能力都将遭遇瓶颈。

2、分表的方案

做 mysql 集群，有人会问 mysql 集群，根分表有什么关系吗？虽然它不是实际意义上的分表，但是它启到了分表的作用，做集群的意义是什么呢？为一个数据库减轻负担，说白了就是减少 sql 排队队列中的 sql 的数量，举个例子：有 10 个 sql 请求，如果放在一个数据库服务器的排队队列中，他要等很长时间，如果把这 10 个 sql 请求，分配到 5 个数据库服务器的排队队列中，一个数据库服务器的队列中只有 2 个，这样等待时间是不是大大的缩短了呢？

linux mysql proxy 的安装，配置，以及读写分离

mysql replication 互为主从的安装及配置，以及数据同步

优点：扩展性好，没有多个分表后的复杂操作（php 代码）

缺点：单个表的数据量还是没有变，一次操作所花的时间还是那么多，硬件开销大。

三、简述一下数据库主从复制，读写分离

* 什么是主从复制

主从复制，是用来建立一个和主数据库完全一样的数据库环境，称为从数据库；

* 主从复制的原理：

1.数据库有个bin-log二进制文件，记录了所有的sql语句。

2.只需要把主数据库的bin-log文件中的sql语句复制。

3.让其从数据的relay-log重做日志文件中再执行一次这些sql语句即可。

* 主从复制的作用

1.做数据的热备份，作为后备数据库，主数据库服务器故障后，可切换到从数据库继续工作，避免数据丢失。

2.架构的扩展。业务量越来越大，I/O访问频率过高，单机无法满足，此时做多库的存储，降低磁盘I/O访问频率，提高单机的I/O性能

3.主从复制是读写分离的基础，使数据库能制成更大的并发。例如子报表中，由于部署报表的sql语句十分慢，导致锁表，影响前台的服务。如果前台服务使用master，报表使用slave，那么报表sql将不会造成前台所，保证了前台的访问速度。

* 主从复制的几种方式：

1.同步复制：所谓的同步复制，意思是master的变化，必须等待slave-1,slave-2,…,slave-n完成后才能返回。

2.异步复制：如同AJAX请求一样。master只需要完成自己的数据库操作即可。至于slaves是否收到二进制日志，是否完成操作，不用关心。MYSQL的默认设置。

3.半同步复制：master只保证slaves中的一个操作成功，就返回，其他slave不管。

这个功能，是由google为MYSQL引入的。

* 关于读写分离

在完成主从复制时，由于slave是需要同步master的。所以对于insert/delete/update这些更新数据库的操作，应该在master中完成。而select的查询操作，则落下到slave中。

PHP-大数据量怎么处理优化

大数据的话可以进行以下操作：

减少对数据库的读取，也就是减少调用数据库，

进行数据缓存，

利用数据库的自身优化技术，如索引等

精确查询条件，有利于提高查找速度

用PHP连接MYSQL查询大数据出错问题求助

当查询类容过多时会导致php内存溢出，建议加limit分段查询，或着修改php.ini文件的

memory_limit 字段，默认是128M,改成你需要的大小

php 调用大数据显示不全问题。。

5万条？

恐怖，php执行是有一个时间的，不是无止境的执行，超时后，就会停止执行。所以返回有多有多有少了！

解决方法：

1、有个函数是设定php脚本执行超时时间的，加在文件的头部，你设定多久就多久，具体哪个函数，忘记了，自己百度一下

2、修改php,.ini里面的配置，具体也忘记了，自己百度一下

不过不建议你一个页面返回这么多数据，就算能全部返回，也网页打开速度也会很慢啊，搞成分页显示，不是很好吗！@

新闻名称：php大数据题 php题目
当前网址：http://cdxtjz.cn/article/hjepsj.html