我有一个自己生成的HTML文件(在本地目录中),所有的主体都在一行上:
<html><head><META http-equiv="Content-Type" content="text/html; charset=UTF-8"><title>server - path</title></head><body><H1>server - path</H1><hr>
<pre><A HREF="/logs/folder/">[To Parent Directory]</A><br><br> jeudi 5 janvier 2017 19:38 116483 <A HREF="/folder/file1.csv">file1.csv</A><br> jeudi 5 janvier 2017 19:39 138397 <A HREF="/folder/file2.csv">file2.csv</A></A><br></pre><hr></body></html>
我需要提取文件的名称和日期。我成功地读到了正确的一行。但我被阻止在<br>
上拆线。
我尝试这样做:
$string = "first line<br>second line <br> third line<br> end<br>"
write-host $string
$separator = "<br>"
$option = [System.StringSplitOptions]::RemoveEmptyEntries
$string.Split($separator, $option)
但我有这样的结果:
first line<br>second line <br> third line<br> end<br>
fi
st line
second line
thi
d line
end
我看到了HTML Agility Pack,但在我的示例中,我的页面中没有任何标记。
你有什么建议吗?谢谢!
发布于 2017-01-20 09:34:22
String.Split()
method接受字符串<br>
并将其视为[char]
数组,在每次出现<
、b
、r
和>
时进行拆分。
改用基于正则表达式的-split
运算符:
PS C:\> $String -split $separator |Where-Object {$_}
first line
second line
third line
end
Where-Object {$_}
管道元素将过滤出空字符串
https://stackoverflow.com/questions/41759827
复制相似问题