php数据采集类实例代码 php自动采集如何实现-乐山大橙子建站

新闻中心

这里有您想知道的互联网营销解决方案

php数据采集类实例代码 php自动采集如何实现

php采集代码是什么?

采集就是把目标网站的内容通过php代码存储到自己的网站数据库中，从而把别人的变成自己的。

站在用户的角度思考问题，与客户深入沟通，找到新市网站设计与新市网站推广的解决方案，凭借多年的经验，让设计与互联网技术结合，创造个性化、用户体验好的作品，建站类型包括：成都网站设计、成都做网站、企业官网、英文网站、手机端网站、网站推广、主机域名、雅安服务器托管、企业邮箱。业务覆盖新市地区。

这样就可以省去很多自己发布信息的时间，非常快速。

但是只建议在网站建立之初进行采集，因为如果采集过多会被搜索引擎屏蔽

php 百度知道数据采集

问题其实不难，自己都能写。给你几个思路吧：

1.在百度知道中，输入linux，然后会出现列表。复制浏览器地址栏内容。

然后翻页，在复制地址栏内容，看看有什么不同，不同之处，就是你要循环分页的i值。

当然这个是笨方法。

2.使用php的file或者file_get_contents函数，获取链接URL的内容。

3.通过php正则表达式，获取你需要的3个字段内容。

4.写入数据库。

需要注意的是，百度知道有可能做了防抓取的功能，你刚一抓几个页面，可能会被禁止。

建议也就抓10页数据。

其实不难，你肯定写的出来。还有，网上应该有很多抓取工具，你找找看，然后将抓下来的数据

在做分析。写入数据库。

php采集大数据的方案

1、建议你读写数据和下载图片分开，各用不同的进程完成。

比如说，取数据用get-data.php，下载图片用get-image.php。

2、多进程的话，php可以简单的用pcntl_fork()。这样可以并发多个子进程。

但是我不建议你用fork，我建议你安装一个gearman worker。这样你要并发几个，就启几个worker，写代码简单，根本不用在代码里考虑thread啊，process等等。

3、综上，解决方案这样：

（1）安装gearman worker。

（2）写一个get-data.php，在crontab里设置它每5分钟执行一次，只负责读数据，然后把读回来的数据一条一条的扔到 gearman worker的队列里；

然后再写一个处理数据的脚本作为worker，例如叫process-data.php，这个脚本常驻内存。它作为worker从geraman 队列里读出一条一条的数据，然后跟你的数据库老数据比较，进行你的业务逻辑。如果你要10个并发，那就启动10个process-data.php好了。处理完后，如果图片地址有变动需要下载图片，就把图片地址扔到 gearman worker的另一个队列里。

（3）再写一个download-data.php，作为下载图片的worker，同样，你启动10个20个并发随便你。这个进程也常驻内存运行，从gearman worker的图片数据队列里取数据出来，下载图片

4、常驻进程的话，就是在代码里写个while(true)死循环，让它一直运行好了。如果怕内存泄露啥的，你可以每循环10万次退出一下。然后在crontab里设置，每分钟检查一下进程有没有启动，比如说这样启动3个process-data worker进程：

* * * * * flock -xn /tmp/process-data.1.lock -c '/usr/bin/php /process-data.php /dev/null 21'

* * * * * flock -xn /tmp/process-data.2.lock -c '/usr/bin/php /process-data.php /dev/null 21'

* * * * * flock -xn /tmp/process-data.3.lock -c '/usr/bin/php /process-data.php /dev/null 21'

不知道你明白了没有

怎么用php采集网站数据

简单的分了几个步骤：

1、确定采集目标

2、获取目标远程页面内容（curl、file_get_contents）

3、分析页面html源码，正则匹配你需要的内容（preg_match、preg_match_all），这一步最为重要，不同页面正则匹配规则不一样

4、入库

PHP采集代码实例

?php

function

preg_substr($start,

$end,

$str)

正则截取函数

{

$temp

preg_split($start,

$str);

$content

preg_split($end,

$temp[1]);

return

$content[0];

}

function

str_substr($start,

$end,

$str)

字符串截取函数

{

$temp

explode($start,

$str,

2);

$content

explode($end,

$temp[1],

2);

return

$content[0];

}

----------------

使用实例

----------------

$str

iconv("UTF-8",

"GB2312",

file_get_contents(""));

echo

('标题:

str_substr("title",

"/title",

$str));

通过字符串提取标题

echo

('作者:

preg_substr("/userid=d+"/",

"///",

$str));

通过正则提取作者

echo

('内容:

str_substr('div

class="content"',

'/div',

$str));

//内容当然不可以少

网页题目：php数据采集类实例代码 php自动采集如何实现
文章出自：http://lswzjz.com/article/hpjhoo.html

新闻中心

php采集代码是什么?

php 百度 知道数据采集

php采集大数据的方案

怎么用php采集网站数据

PHP采集代码实例

其他资讯

php 百度知道数据采集