如果是简单的采集
成都创新互联是专业的子长网站建设公司,子长接单;提供网站设计制作、成都网站设计,网页设计,网站设计,建网站,PHP网站建设等专业做网站服务;采用PHP框架,可快速的进行子长网站开发网页制作和功能扩展;专业做搜索引擎喜爱的网站,专业的做网站团队,希望更多企业前来合作!
wordpress插件就能实现:WP-o-Matic 只需在后台设定 Rss 源以及采集的时间,WP-o-Matic就会自动执行。它甚至可以将对方网站的附件以及图片等都采集,跟国内的cms系统有得一拼,完全无需站长耗心耗力。
如果想整站采集
可以使用火车头采集软件,但是需要手动编写规则, 数据库也需要自己处理后在导入,比较麻烦
wp上常用的采集插件有胖鼠、wp-automatic、scrapes、crawling等。
说不上哪个最好用,只要会写采集规则,都能用。
不过网站最好还是发布原创内容,采集的排名或越来越难,这是搜索引擎明确打击的行为。
wordpress采集文章的方法:
使用插件进行插件(一般都是收费的插件,中英文的都有)
使用火车头采集软件。
具体教程相关插件和软件官网上都有。
一、安装WP-AutoPost
您可以通过从您的WP-AutoPost.ORG帐户下载ZIP文件手动安装WP-AutoPost。
如果您想手动安装WP-AutoPost,请按照下列步骤操作:
登录您的WP-AutoPost.ORG帐户。
转到“账户”部分。
下载您需要的WP-AutoPost插件(ZIP 文件)。
将下载的 ZIP 文件上传到您网站的’wp-contents/plugins’目录。
解压该ZIP 文件。这将创建一个目录。
登录到您的网站,转到“插件”,并启用它。
二、创建任务及基本设置
创建任务
点击“新建任务”后,输入任务名称,即可创建新任务,创建好新任务之后可以在任务列表中查看到该任务,就可对该任务进行更多设置。
基本设置
点击 “设置” 之后,可在 “基本设置选项卡” 下,进行如下设置:
任务名称:修改任务名称
分类目录:该任务采集文章发布到的分类目录
作者:该任务采集文章的发布作者,必须是wordpress里的注册用户
更新时间间隔:间隔多长时间检测一次该采集任务下是否有新文章可以更新
字符集:采集目标网站的字符集编码,默认为UTF8,如果目标网页字符集编码不是UTF8,抓取的网页会出现乱码,设置正确的字符集即可解决该问题(如何正确设置字符集)
下载远程图片:如果该任务下采集的文章里包含图片,可以选择是否下载远程图片到本地服务器,选择下载远程图片可以做以下更多设置:
将下载的图片保存到wordpress媒体库中
将图像保存到 Flickr
将图像保存到七牛云存储
将下载的第一张图片自动设为特色图片
下载的图片自动添加水印,可添加文本水印或图片水印
选择设置图片地址的属性 (如果包含源图片地址的属性不是src,可以在这里做设置)
下载远程附件:如果该任务下采集的文章里包含其他类型附件,可以选择是否下载这些附件文件到本地服务器,选择下载后可以做以下更多设置:
将下载的附件信息保存到wordpress媒体库中
自动标签:选择是否使用自动标签
标签列表:使用自动标签后如果文章包含列表里的关键词,将自动添加标签
匹配完整的单词:该设置对英文文章有效,中文文章请勿启用该设置
自动摘要:可自动将文章中第一段或前面几段文字设为摘要
发表状态:采集发布后文章的状态,可以是:已发布,草稿,等待复审
手动选择性采集:选择是,将手动选择哪些文章可以采集并发布
三、文章来源设置
文章来源设置
在该选项卡下我们需要设置文章来源的 文章列表网址 及 具体文章的匹配规则