PHP的有些技巧可能大家并不常用到,比如DOM相关的对象。
XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。这里讨论的是在XPath语言规范下,封装而成的一种解析XML文档的技术。在PHP,Python里,具体是指xpath这个函数。所以,Wikipedia提到的对XML文档某部分位置的定位,就是用XPath的规范,定位到这个部分,为我所用。我们的目的是解析HTML网页中的元素,将HTML转换成XML文档之后,就是XPath出鞘之时。具体的转换方法,因开发环境而异,后文会附上一些实际工作中遇到的问题。下文所述的xpath()函数均指PHP语言核心函数库中的函数xpath()。
这些方法几乎和Javascript一样的方便,轻松一句就能获取到HTML DOM节点的数据。
相比于使用正则表达式,这个方法更简单快捷。
我就就常用DOMDocument和XPath两个类做一个介绍。
假设有这样一个HTML页面(部分),其内容如下:
</>code
- $html = <<<HTML
- <div class="container">
- <img class="logo img" id="img1" src="/images/img1.jpg" />
- <img class="icon img" id="img2" src="/images/img2.jpg" />
- <img class="icon use" id="img3" src="/images/img3.jpg" />
- <p class="icon" id="content">Welcome PHP!</p>
- </div>
- HTML;
我们把它赋值给字符串变量$html。
我们将$html加载到DOM对象,再用DOMXPath解析处理。
</>code
- $dom = new DOMDocument();
- $dom->loadHTML($html);
- $xpath = new DOMXPath($dom);
接下来我们将用DOMXPath的方法来解析。
DOMXPath有两个核心的部分:传入的表达式和返回值。
获取第一个图片的src内容:
</>code
- echo $src = $xpath->evaluate('string(//img/@src)');/*输出:
- /images/img1.jpg
- */
获取全部IMG SRC内容
</>code
- $nodeList = $xpath->query("//img");
- $srcList = [];foreach ($nodeList as $node) {
- $srcList[] = $node->attributes->getNamedItem('src')->nodeValue;
- }
- print_r($srcList);/*输出:
- Array
- (
- [0] => /images/img1.jpg
- [1] => /images/img2.jpg
- [2] => /images/img3.jpg
- )
- */
获取所有class等于content的id值,这里class值必须是唯一的:
</>code
- $nodeList = $xpath->query('//*[@class="icon"]');
- $result = [];foreach ($nodeList as $node) {
- $result[] = $node->attributes->getNamedItem('id')->nodeValue;
- }
- print_r($result);/*输出:
- Array
- (
- [0] => content
- )
- */
获取所有class包含icon的节点的id值:
</>code
- $nodeList = $xpath->query('//*[contains(@class, "icon")]');
- $result = [];foreach ($nodeList as $node) {
- $result[] = $node->attributes->getNamedItem('id')->nodeValue;
- }
- print_r($result);/*输出:
- Array
- (
- [0] => img2
- [1] => img3
- [2] => content
- )
- */
获取所有class包含icon的节点的完整HTML内容:
</>code
- $nodeList = $xpath->query('//*[contains(@class, "icon")]');$result = [];
- foreach ($nodeList as $node) { $result[] = $dom->saveHTML($node);
- }
- print_r($result);
- /*输出:
- Array
- (
- [0] => <img class="icon img" id="img2" src="/images/img2.jpg">
- [1] => <img class="icon use" id="img3" src="/images/img3.jpg">
- [2] => <p class="icon" id="content">Welcome PHP!</p>
- )
- */
常用到的:
$element->nodeValue
$element->getElementsByTagName('td')->item(1)->nodeValue
$element->getElementsByTagName('td')->item(5)->getElementsByTagName('a')->item(0)->getAttribute('href')
PHP DOM XPath获取HTML节点出现乱码的解决方法:
</>code
- <?php
- $doc = new DOMDocument();
- $doc->loadHTML('<?xml encoding="UTF-8">' . $html);
- // dirty fix
- foreach ($doc->childNodes as $item)
- if ($item->nodeType == XML_PI_NODE)
- $doc->removeChild($item); // remove hack
- $doc->encoding = 'UTF-8'; // insert proper
- ?>
另外解决乱码的方法:
<?php
$pageDom = new DomDocument();
$searchPage = mb_convert_encoding($htmlUTF8Page, 'HTML-ENTITIES', "UTF-8");
@$pageDom->loadHTML($searchPage);
?>
<?php
//创建一个dom对象并读取xml文件到内存中
$dom = new DOMDocument('1.0','utf-8');
$dom->load('./book.xml');
//创建一个xpath对象
$xpath = new DOMXPATH($dom);
$sql = '/bookstore/book[1]/title';//注意此处路径数字从1开始,与下面的item参数不同
$rs = $xpath->query($sql);//即使上面定位到了具体某个节点,得到的$rs仍然是一个节点列表
print_r($rs);
echo $rs->item(0)->nodeValue;//所以输出的时候仍然得用item(0)->nodeValue 不能直接echo $rs; 另外注意此处item参数从0 开始 ;另外nodeValue的v要大写,不然报错</span>
?>
如对本文有疑问,请提交到交流论坛,广大热心网友会为你解答!! 点击进入论坛