import urllib
hdl = urllib.urlopen("file://localhost/D:/page.htm")
html = hdl.read()
hdl.close()
text_file = open("file.txt", "w")
text_file.write(html)
text_file.close()
import re
text_file = open("file.txt", "r")
contents = text_file.read()
text_file.close()
p = re.compile('(?<=starting_html_tag).*(?=ending_html_tag)')
m = p.search(contents)
if m:
print 'Match found: ', m.group()
else:
print 'No match'
Проблема: No match! Почему не хочет искать инфу между указанными тегами? Хах… Я сказал не хочет, потому что вот какая штука:
только что созданный файл file.txt выглядит так:
<div id="gDheader-wrap">
<div id="gDheader">
<div id="gDlogo">
<h1><a href="http://... и так далее...
<div id="gDheader-wrap"><div id="gDheader"> <div id="gDlogo"> <h1><a href="http://... и тому подобное...
На PHP у меня имеется подобный скрипт; так я там полученную веб-страницу сперва кодирую, прежде чем использовать рексы:
$contents = file_get_contents("http://somewebsite.com");
$contents = urlencode($contents);
$pattern = '/(?<=starting_html_tag).*(?=ending_html_tag)/';
preg_match($pattern, $contents, $matches);