灯火互联
管理员
管理员
  • 注册日期2011-07-27
  • 发帖数41778
  • QQ
  • 火币41290枚
  • 粉丝1086
  • 关注100
  • 终身成就奖
  • 最爱沙发
  • 忠实会员
  • 灌水天才奖
  • 贴图大师奖
  • 原创先锋奖
  • 特殊贡献奖
  • 宣传大使奖
  • 优秀斑竹奖
  • 社区明星
阅读:2472回复:0

关于php抓取页面信息的简单代码

楼主#
更多 发布于:2012-01-31 22:50
利用php DOM函数实现简单的单页信息抓取   (在这里尽抓取a标签,功能实现了,但是扩展页链接抓取没有实现,欢迎大家批评指导)
 <?php
 error_reporting(E_ERROR);
 $pages = file_get_contents('http://www.php100.com');
 //$pages = htmlspecialchars($pages);
 $doc = new DOMDocument();
 $new_doc = new DOMDocument('1.0', 'utf-8');
 $doc->loadhtml($pages);
 $dom = $doc->getElementsByTagName('a');
 for ($i=0;$i<$dom->length;$i++){
 $node = $new_doc->createElement('a',$dom->item($i)->nodeValue);
 $newnode = $new_doc->appendChild($node);
 $newnode->setAttribute('href',$dom->item($i)->getAttribute('href'));
 $newnode->setAttribute('style','display:block;margin-left:30px;');//echo $dom->item($i)->getAttribute('src').'</br>';
 }
 echo $new_doc->saveHTML();
 ?>


喜欢0 评分0
游客

返回顶部