假设有这么一段html:
<div class="post-content">
<h1>Title</h1>
<p>Subtitle</p>
<img src="a.jpg">
<div>
<a href="example.html">Goto</a>
</div>
Bare text
<br>
<!-- this is html comment -->
<p>Bottom</p>
</div>
child::*
节点的所有子元素,如//div[@class="post-content"]/*
,结果:
<h1>Title</h1>
<p>Subtitle</p>
<img src="a.jpg">
<div>
<a href="example.html">Goto</a>
</div>
<br>
<p>Bottom</p>
可以看到,这里只选择了有标签名的节点,不在标签内的Bare text和注释都被过滤了。
child::text()
节点的所有文本,如//div[@class="post-content"]/text()
,结果:
Bare text
child::node()
节点下的所有内容,不论是标签还是文本还是其他,//div[@class="post-content"]/node()
,结果:
Title
Subtitle
Bare text
Bottom
原样输出了其下的所有内容。