傅令江的光影色彩世界
留住记忆的点滴
  • 首页
  • 文学
    • 诗词鉴赏
    • 美文共读
    • 原创
  • 编程
    • php
    • asp
    • .net
    • VB
    • C/C++
    • 易语言
    • js
    • 其他
    • 逆向
  • 运维
    • windows
    • linux
  • 光影色彩
    • 电影
    • 音乐
  • 科技
    • 互联网
    • 手机
  • 生活
    • 情感
  • 微语
10月52014

php采集文章过滤版权信息

作者:令狐江   发布:2014-10-5 7:17   分类:php   阅读:3025次   评论:0条  
function TT($html,$maxlen) {
	if (preg_match("/<title>(.*)<\/title>/isU", $html, $t)) {
		if (preg_match_all("/<h([1-3])(?:[^>]*)>(.*)<\/h\\1>/isU", $html, $ts)) {
			foreach($ts[2] as $vt) {
				if (strpos($t[1], $vt) !== false) return $vt;
			} 
		} 
		$t[1] = str_replace(array('-', '—', '_', '>'), '|', $t[1]);
		$splits = explode('|', $t[1]);
		$l = 0;
		foreach ($splits as $tp) {
			$len = strlen($tp);
			if ($l < $len) {
				$l = $len;
				$tt = $tp;
			} 
		} 
		$tt = trim(str_replace('"', '"', cn_substr(html2text($tt), $maxlen)));
		return $tt;
	} 
	return false;
} 
/**
 *  HTML转换为文本
 *
 * @param    string  $str 需要转换的字符串
 * @param    string  $r   如果$r=0直接返回内容,否则需要使用反斜线引用字符串
 * @return   string
 */
function html2text($str,$r=0) {
	$str = preg_replace("/<sty(.*)\\/style>|<scr(.*)\\/script>|<!--(.*)-->/isU", "", $str);
	$alltext = "";
	$start = 1;
	for($i = 0;$i < strlen($str);$i++) {
		if ($start == 0 && $str[$i] == ">") {
			$start = 1;
		} else if ($start == 1) {
			if ($str[$i] == "<") {
				$start = 0;
				$alltext .= " ";
			} else if (ord($str[$i]) > 31) {
				$alltext .= $str[$i];
			} 
		} 
	} 
	$alltext = str_replace(" ", " ", $alltext);
	$alltext = preg_replace("/&([^;&]*)(;|&)/", "", $alltext);
	$alltext = preg_replace("/[ ]+/s", " ", $alltext);
	if($r==0){
		return $alltext;
	}else {
		$r = SpHtml2Text(stripslashes($alltext));
		return addslashes($r);
	}
} 

/**
 * utf-8中文截取,单字节截取模式
 * 
 * @access public 
 * @param string $str 需要截取的字符串
 * @param int $slen 截取的长度
 * @param int $startdd 开始标记处
 * @return string 
 */

function cn_substr($str, $length, $start = 0) {
	if (strlen($str) < $start + 1) {
		return '';
	} 
	preg_match_all("/./su", $str, $ar);
	$str = '';
	$tstr = ''; 
	for($i = 0; isset($ar[0][$i]); $i++) {
		if (strlen($tstr) < $start) {
			$tstr .= $ar[0][$i];
		} else {
			if (strlen($str) < $length + strlen($ar[0][$i])) {
				$str .= $ar[0][$i];
			} else {
				break;
			} 
		} 
	} 
	return $str;
} 



本文固定链接: https://fulingjiang.cn/php/68.html

blogger
该日志由 令狐江 于2014-10-5 7:17 Sunday发表在 php 分类下。
版权所有:《傅令江的光影色彩世界》 → 《php采集文章过滤版权信息》;
除特别标注,本博客所有文章均为原创. 互联分享,尊重版权,转载请以链接形式标明本文地址;
本文标签:
上一篇::提取google搜索数据,遭遇屏蔽的解决办法用php_Curl获取Cookie!
下一篇:PHP获取页面的JS和CSS的总数和文件

热门文章

  • 兄弟二周年祭

相关文章

  • php过滤xss代码
  • PHP酷狗音乐采集类
  • php下载文件--针对大多数的文件类型
  • 从Zen-cart里迁移产品数据的方法
  • PHP利用ctrl+v实现粘贴截图完成上传功能
取消回复

发表评论

亲,头像对么?

提交中,请稍候……


木有头像就木JJ啦!还木有头像吗?点这里申请属于你的个性Gravatar头像吧!


  • 日历

  • 存档

    • 2024年10月(1)
    • 2023年2月(1)
    • 2022年11月(1)
    • 2022年10月(10)
    • 2022年9月(13)
    • 2022年8月(2)
    • 2022年7月(14)
    • 2022年6月(2)
    • 2022年5月(8)
    • 2022年4月(7)
    • 2022年3月(13)
    • 2022年2月(2)
    • 2022年1月(9)
    • 2021年12月(2)
    • 2021年11月(4)
    • 2021年10月(2)
    • 2021年9月(6)
    • 2021年7月(4)
    • 2021年6月(3)
    • 2021年5月(3)
    • 2021年4月(11)
    • 2021年3月(13)
    • 2021年2月(2)
    • 2021年1月(1)
    • 2020年12月(1)
    • 2020年4月(5)
    • 2019年9月(1)
    • 2019年8月(1)
    • 2019年5月(3)
    • 2018年3月(1)
    • 2017年10月(1)
    • 2016年7月(1)
    • 2016年4月(1)
    • 2015年12月(1)
    • 2015年11月(3)
    • 2015年9月(1)
    • 2015年8月(10)
    • 2015年7月(1)
    • 2015年6月(1)
    • 2015年4月(1)
    • 2015年3月(3)
    • 2015年2月(8)
    • 2015年1月(4)
    • 2014年12月(1)
    • 2014年11月(27)
    • 2014年10月(13)
    • 2014年9月(14)
    • 2014年8月(26)
    • 2014年7月(21)
  • 最新评论

    • 令狐江:
      喜欢这首歌是因为可以引起共鸣!
  • 链接

    • 演讲稿网
    • Recollect
    • 演讲稿
    • 祁阳人生活网
    • 我爱演讲稿网
  • 搜索

  • 标签

      函数 自定义方法 SEO 分页 分页函数 分页方法 nginx重新的一些规则
  • 分类

    • 文学(0)
    • 编程(0)
    • 运维(0)
    • 光影色彩(0)
    • 科技(0)
    • 生活(0)
    • 诗词鉴赏(3)
    • 美文共读(1)
    • 原创(10)
    • php(111)
    • asp(1)
    • .net(0)
    • VB(0)
    • C/C++(0)
    • 易语言(0)
    • js(8)
    • 其他(9)
    • 逆向(2)
    • windows(11)
    • linux(121)
    • 电影(0)
    • 音乐(1)
    • 互联网(4)
    • 手机(0)
    • 情感(2)
  • 最新文章热门文章随机文章

    • 兄弟二周年祭
    • openai给的ionCube 解密代码,应该是老版本可以这样
    • WordPress – 5秒盾防CC(PHP通用代码)
    • 我高中最好的朋友今天猝死了-伤心得不行
    • Linux系统中 systemd-journaldCPU占用异常的解决方法
    • SVN Skipped 'xxx' -- Node remains in conflict 错误的解决办法
    • 解决Linux读写nfs共享盘速度慢的问题
    • php 获取302跳转后的地址
    • 让vsftp显示隐藏文件的办法,比如显示 .htaccess
    • 添加自签名https证书到centos系统信任的问题
    • php文章相似度计算 不用similar_text()函数
    • eval(gzinflate(base64_decode N层,自动解密
    • PHP base64+gzinflate压缩加密和解密算法
    • 织梦带二级栏目的导航菜单高亮显示
    • nginx中的if和else语法,变通下
Copyright © 2001-2025 傅令江的光影色彩世界. Powered by www.fulingjiang.cn ICP备案:京ICP备14015190号-5