11月122014
再发一个php爬虫程序
<?php
#加载页面
function curl_get($url){
$ch=curl_init();
curl_setopt($ch,CURLOPT_URL,$url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
...阅读全文
评论:0条
11月122014
一个轻量级php家用爬虫
最近需要收集资料,在浏览器上用另存为的方式实在是很麻烦,而且不利于存储和检索。所以自己写了一个小爬虫,在网上爬东西,迄今为止,已经爬了近百 万张网页。
现在正在想办法着手处理这些数据。
爬虫的结构:
爬虫的原理其实很简单,就是分析下载的页面,找出其中的连接,然后再下载这些链接,再分析再下载,...阅读全文
评论:0条
11月122014
PHP实现最简单爬虫原型-实现蜘蛛,但是很弱这个事思路
最简单的爬虫模型应该是这样的:给一个初始url,爬虫把内容扒下拉,找页面里的url,在以这些url为起点,开始爬。
下面是一个最简单的php实现的爬虫模型。
<?php
/**
* 爬虫程序 -- 原型
...阅读全文
评论:0条
11月112014
crontab centos下crond执行shell不完整
公司的另外一个部门需要我们某一个DB中某一项的数据,DB上面我不想再新建什么程序了。于是想到利用nc来传输文件。
在DB上:
30 1 * * * /bin/sh /root/scripts/a.sh
a.sh 如下
nc -l 10.3.76.42 80 < xxxx.sql 【提一下在centos6....阅读全文
评论:0条
11月62014
CentOS使用Dropbox同步备份VPS方案详解-vps教程
CentOS系统的VPS备份方案有多种,可以使用rsync远程同步,手动备份,其中使用Dropbox的同步进行备份是比较方便的一种方案。不需要额外的备份服务器,还能自动进行同步,防止人工失误的情况。下面是vps教程系列之备份的详细过程。
1.在vps主机上安装dropbox
32位:
...阅读全文
评论:0条
11月52014
11月42014
如何关闭nginx,apache的默认访问日志wdlinux的关闭办法
默认的web访问日志是开着的
这个日志,个人觉得,一般情况下也没用,不过对于一些需要要数据分析的话就很有用了
如果不用的话,可以关闭,而且关闭也会也能提高点点性能的喔,这里关闭的是默认的服务器web默认日志
如果针对站点开了日志,还是会有的,但默认目录是在/www/web_logs
站点日志是在站点域名开...阅读全文
评论:0条
11月42014
du命令查看目录占用空间的大小
[root@cloudian23 var]# du -sh /var
7.8G /var
du -a [dir or file name or * or empty] 可以显示所选范围内的所有文件目录大小,包括显示所有子目录及其下的文件。
du -sh * 显示当前目录下的文件及其...阅读全文
评论:0条
11月42014
11月32014
SVN Skipped 'xxx' -- Node remains in conflict 错误的解决办法
今天svn提交发现错误
#cd /home/svn/app/
# svn up
Updating '.':
Skipped 'xxx' -- Node remains in conflict
At revision 1054.
Summary of conflicts:
Sk...阅读全文
评论:0条