不过今天的重点是要回答一个群员的问题,他希望也做一个英文站增加业余收入。没有很好的基础,如何快速的做一个英文站,是许多朋友的碰到的第一个问题。当然可以一点点去学,去练。更多朋友希望走捷径,当然我也如此。呵呵,如是,前几天根据一个做英文站群的朋友的经验,快速做了一个英文采集站:info域名+Godaddy免费空间+火车头采集+织梦自动更新。网站刚上线,效果目前还不明显,分享快速建立英文站的具体步骤和方法如下,供大家参考。
第一步:想好英文站的主题,内容和大致结构。
好的规划是成功的第一步。做好一个网站的第一步就是做好规划。并一定要做的很全面,但至少要想好是做什么内容,比如做酒店,包括酒店的什么内容,介绍还是预订,还是都有,大概有哪些功能布局等等。对于简单的采集站来说,一般以文章为主,主要想好要采集哪些内容和方面,做哪些栏目,然后去找到你要采集的那些网站,做好记录,可以用一个txt文档记录相关信息。我就提前找到了ctrip,yahoo,bing等几个站点的关于酒店的内容,粗略看了一下具体的内容页和列表页,觉得可采才接着进行下一步。
第二步:注册域名。
这个比较简单。直接推荐在godaddy网站上注册info域名,域名原价格0.99美金,现涨至1.99美金。在godaddy上注册域名好处之一是可以免费获得一个economic plan的虚拟空间。10G空间,300G流量,10个mysql数据库。唯一不爽的是这个免费空间上的每一个页面上方都会带一个超过728*90大小的横幅广告。因为只是做采集站,从成本的角度考虑,还是可以接受的。如果我们建好的站以后效果不错,大家可以再删除免费空间,向收费主机转移。(Godaddy的免费空间可以删除后重建)
具体注册域名和开通免费主机的过程另看介绍或搜索。
另附教程1:【图文教程】如何在godaddy注册域名,可以用支付宝付款
另附教程2:【图文教程】Godaddy免费空间开通步骤
第三步:在本地安装服务器环境,搭建dedecms系统。
首先解释一下为什么要在本地搭建织梦系统,因为我们是打算快速建立一个英文站,写原创性的文章不是捷径,需要付出很多时间和精力,不可能快速完成。因此,只能进行采集。采集需要占用较大的系统资源,在一般的虚拟空间里进行采集有可能会引起相关问题。而且采集是一个不断测试和修改的过程,在本地进行速度快,而且更方便。
而选择织梦系统的原因在于,结构简单,生成静态文件。与火车头等软件结合很好。模板比较多,标签使用也比较简单,是做采集站的首选。
在本地安装服务器环境可以利用wampserver软件,安装后直接搭建了PHP+Mysql+phpmyadmin的整体环境,非常方便。然后在本地安装dedecms系统。做好采集的前期准备。
第四步:写出和测试采集规则。
采集网站的话,采集规则是核心。这也是整个建站过程中的难点所在。要学会如何采集必须要懂一定的html,css的知识。这是你看懂代码的前提。当然,并不需要你语言方面非常厉害,只需要你能看懂就基本OK了。采集新手可以利用织梦系统本身的采集功能,如果要采集较为复杂的网站,就需要用火车采集器,内容排除和替换功能比较强大。
下面结合火车采集器软件举例说明如何采集。
安装火车头软件后,新建站点,在新建站点下新建任务。
1. 采集网址。采集网址的意思就是首先采集你需要采集文章的所有页面的地址。比如你要采集A站上的300篇文章,那么你首先需要采集到这三百篇文章的实际地址。然后才能根据这300个地址,一篇一篇的去采内容。那么,如何采集网址,一般来说,这300篇文章都是有一个列表的,可能是一共10页,每页罗列了30篇文章。火车采集软件有四种采集文章列表的方式,最常用批量/多页。比如你查看到这10页列表页的地址有一个规则都是list1.htm, list2.htm, list3.htm……list10.htm,那么你可以写成 域名/list(*).htm添加到规则里,数量从1到10. 网址中(*)就是一个通配符。
这样的话,火车软件就会采集以上10个页面上的所有地址,为了精确得到那300个文章页地址,我们仔细查看那300个文章页地址(找其中几个看看比对下),就大致可以找到一些限制条件,比如前缀可能都是域名/article/,在软件下方添加对应的排除规则就可以筛选到我们要找的300个文章页的地址了。为了验证,可以先验证采集一下网址试试。
注意,在我们正式采集之前,建议在这里都设置采集页面1-1,只采集部分文章网址,目的在于,接下来还需要测试采集内容,减少我们的测试时间。等到所有测试成功了,再回来修改参数,一次全部采集。
2. 采集内容。采集一个网页,我们一般会采集它的标题,关键字,描述,主题内容,缩略图,作者,时间,出处等等。采集方法总的原则是:在页面中找到一个或一段A代码和B代码,在A,B代码之间包含你要采集的内容,然后筛选掉其他无关的内容即可。A,B代码在采集软件中分别指开始字符串和结束字符串。
怎么找到你要的A,B代码呢。有几个原则如下:
a. A,B代码尽量靠近你要采集的内容。这样可以减少其中的无关垃圾内容。比如,采集标题一般就直接以<title>为A代码,</title>为B代码,中间部分正好就是标题。没有其他无关内容。
b. A,B代码尽量保持在网页中的唯一性。如果这两个代码在网页中是唯一的,那么火车头采集软件就会准确找到采集的内容部分,不会有起止点的迷惑。当然,并不完全要求一定要唯一,比如A代码在网页中出现3次,那么采集软件会以第一次出现的A代码为开始点采集内容,然后截止到看到第一个B代码为止。
c. A,B代码都不能跨行,必须都是写在同一行内的代码,否则火车头无法识别匹配。
找到A,B代码之后,软件会采集A,B代码之间的所有代码,不包含A,B代码本身。这其中可能会包含一些我们并不需要的代码,比如原来的css代码,原网页中的广告代码,其他外站链接,原网站的标识等等。那么我们就需要利用采集软件的内容排除和内容替换。
a. 内容排除的意思就是系统在采集过程中自动排除掉你指定的相关代码。
b. 内容替换的意思就是系统在采集过程中一旦遇到你指定的相关代码自动替换成你指定的另外的代码。
举例来说,采集标题的时候,原网站标题中带有原网站名称C,那么我们可以在内容排除中添加一段C代码。那么采集的结果中就自动删除了该名称C。
或者你可以在内容替换中,将C代码替换成你的网站的名称D,那么网站采集的标题中就自动替换成你的网站名称。
网站内容的采集是一个比较辛苦的活,尤其是主体内容的采集,需要剔除到其中许多不必要的代码,这个时候就需要你不停的测试,直至得到想要的结果,建议采集新手以简单的网页练手,熟悉了再采集复杂的网页。火车采集器是一个功能非常强大的工具,可以参考官网的教学文档快速上手。
第五步:设置网站内容发布模块。
火车采集软件装上织梦的内容发布模块以后,就可以自动将采集的内容发布到织梦网站里了。网上可能发布了好几种版本的织梦发布模块,大体都差不多,毕竟用的织梦系统,对应的标签是一致的。大家主要做的是修改模块中,文章发表参数,发布post数据中的标签对应你采集的字段名称。一一对应好,并设置相关的参数才能准确发布到织梦系统中。
设置了模块后,在右边的登录部分中,填写你织梦网站的后台地址,并用火车内容浏览器登录保存信息。然后再刷新内容,获取要发布文章所在的栏目。保存。
注意,设置了发布模块后,要在你的火车任务的内容发布设置中添加该发布模块。
附火车采集软件中针对织梦系统发布模块的参数说明:
body 内容
typeid 主栏目ID,必填,可在后台网站栏目管理处查看该id
ishtml=1 是否生成HTML,1为是,0为否;
remote=1 是否下载远程图片和资源,1为是,0为否,启用本项则在ET采集规则中不启用文件下载
dellink=0 是否删除非站内链接,1为是,0或空为否;
shorttitle 简略标题
description 内容摘要
color= 标题颜色,格式如#FF0000
flags[]=h 文章属性,头条
flags[]=c 文章属性,推荐
flags[]=f 文章属性,幻灯
flags[]=a 文章属性,特荐
flags[]=s 文章属性,滚动
flags[]=b 文章属性,加粗
flags[]=p 文章属性,图片
flags[]=j 文章属性,跳转
redirecturl 跳转网址,当文章属性为跳转时生效;
autolitpic=1 是否提取第一个图片为缩略图,1为是,0为否,启用本项则picname应留空;
picname 缩略图片路径及文件名
ddisremote=0 是否远程获取缩略图片,1为是,0为否,启用本项必须使PICNAME的值为有效图片网址
tags TAG标签
source 文章来源
writer 作者,留空即为用户名
keywords 关键字
autokey=1 自动获取关键字,1为是,0为否
dellink=0 是否删除非站内链接,1为是,0为否
needwatermark=0 图片是否加水印,1为是,0为否,启用本项则在ET中间规则中不应设置图片水印
sptype=auto 分页方式,hand是手动,auto是自动,当使用手动分页时,应将ET分隔符“#-0-#”替换为DEDE分页符“#p#分页标题#e#”
spsize=5 自动分页大小,单位K
notpost=0 是否禁止评论,1为是,0为否
click=50 起始浏览次数
sortup=0 文章排序方式,0为默认排序,7为置顶一周,30为置顶一个月,90为置顶三个月,180为置顶半年,360为置顶一年
arcrank=0 阅读权限,0为开放浏览,-1为待审核稿件,10为注册会员,50为中级会员,100为高级会员
money=0 消费点数
pubdate 发布时间
第六步:采集内容,测试发布。
还是按之前说的那样,先设置采集部分文章,进行整套采集发布工作,看是否一切正常,是否都采集到了所有的数据,可以在常用操作-本地采集数据管理中看到。是否可以正常发布,是否发布的内容都正确等等。
第七步:修改本地的网站设置及模板等等。
这里包括,设置网站栏目,栏目关键词,描述,系统参数。整个网站模板的更改。等等一切工作。
因为采集站在搜索引擎眼中就是垃圾信息站,打击比较厉害。如何让搜索认为你是个不错的站点就需要伪装一下。内容的伪原创是最好的。如何内容伪原创就自己去修改内容吧,我没有做,就不说了。
主要说一下内容发布的“伪发布”。主要是指将文章一次性采集到库里,然后再保持一定频率的进行审核发布。如果你要手工审核发布,很简单,执行下面四条sql语句可以将织梦系统内所有的文章转为未审核[数值改为0意思相反]
update dede_archives set arcrank=-1;
update dede_arctiny set arcrank=-1;
update dede_taglist set arcrank=-1;
Update dede_archives set ismake=0;
然后你再慢慢自己每天审核发布几篇即可。
对于更懒的朋友希望进行自动审核发布。网上有方法,利用访客访问触发php文件自动审核,有个缺点,如果访客较多,一下就全给审核完了。因此,改进的方法是自己每天去触发这个php文件自动审核一次。
方法也是先将网站所有的文章全部转为未审核未发布的状态,然后上传文件自动审核的php文件,放到一个不为人知的目录,以后自己每天访问一次就能自动审核一定数量的文章了。这个审核可以设置随机文章和自定义数量审核的,比较方便。
原来这个php文件自动审核的文章并不修改时间,我将其中的代码修改了,可以实现在审核后自动将文章发布的时间修改为当前时间,或者当前之前多少秒内的随机时间。确保不会有两篇文章的发布时间是一样的。
这个自动审核的php文件只是审核发布文章,并不能自动更新html文件,我们还需要在后台安装自动更新插件。实现每隔一定时间自动更新网站首页,列表页,文章内容页,rss页等等。我的设置是每天自动更新列表页和首页一次。自己每次在触发自动审核后,手工更新一次文章页和rss页。
因为织梦的tags的文章列表页总是出现未审核的文章,折腾了大半天也没有搞定这个问题,为了省事最后干脆删去了网站中所有的tags页面的链接。
附件2:触发织梦系统自动审核的PHP文件(已改进,通过html调用该php文件)
附件3:织梦系统自动更新HTML静态文件模块(适合织梦5.3和5.5系统 GBK)
第八步:上传网站文件及数据库至空间,开通网站。
1. 将本地所有的网站文件打包压缩,通过FTP上传到godaddy的免费空间,然后在管理员面板中的文件管理器,一次性解压缩。
2. 在godaddy管理员面板中建立免费空间的数据库。再在本地的phpmyadmin中导出网站的mysql数据,采集数据比较多的话,sql文件会比较大,直接ftp上传到godaddy免费空间的_db_backups目录。然后,进入godaddy的数据库管理,进行database restore数据库还原操作。
3. 修改网站空间的/data/common.inc.php文件,将其中的数据库信息修改为新免费空间数据库的信息。然后再登录你的织梦后台,修改系统参数中的网站地址。更新HTML文件,更新缓存,网站搭建完毕。之后就是不断更新,推广的过程了。
另附教程5:使用godaddy空间,快速还原导入mysql数据库的方法
后话
至此,一个英文站简单快速搭建起来了。回顾我的测试站,写了四个网站的采集规则花了两天时间,采集了一天,研究自动审核发布,自动更新等等一天,前后差不多用了四五天的时间。当然熟悉了步骤和程序,以后可能时间更短。但是时间变短了,网站的效果并不一定好。采集站毕竟是采集站,搜索引擎的眼睛很雪亮,如果判断内容没有价值,可能根本不收录,没有流量,也就做了一死站而已。
附测试站地址:http://www.beijingcheaphotels.org/(基本还没有效果额,但一直保持更新吧。)
最后,还是推崇说一句,原创站才是根本,守住根本,有精力再去适当尝试做采集站。
转自:http://seo.micfly.com/website/353.html