Форум сайта python.su
Уважаемые знатоки. Нужно загрузить страничку http://afisha.shadrinsk.info. И выдрать из нее инфу которая находится в тегах <table>text</table>.
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<title>Афиша Шадринска на сегодня</title>
<link rel="stylesheet" type="text/css" media="all" href="/css/style.min.css?v=1" charset="utf-8">
<script type="text/javascript" src="/lib/swfobject.js"></script>
</head>
<body id="today">
<div class="container_22">
<ul id="servicenav">
<li><a href="http://www.shadrinsk.info/">Шадринск.Инфо</a></li>
<li><a href="http://catalog.shadrinsk.info">Каталог организаций</a></li>
<li><a href="http://today.shadrinsk.info">Чем прекрасен этот день?</a></li>
<li><a href="http://nebuzilka.ru">НеБузилка</a></li>
<li><a href="http://tv.shadrinsk.info">ТВ-программа</a></li>
</ul>
<div id="header">
<h1 class="grid_4 prefix_1">Афиша</h1>
<ul id="mainmenu">
<li class="active grid_5"><a href="/">На сегодня</a></li>
<li class="grid_5"><a href="/week/">На неделю</a></li>
</ul>
</div>
<div id="content">
<a class="grid_1" id="prev_day" href="/2011/5/11/" title="Афиша на 11 мая 2011 года" rel="nofollow">←</a>
<h2 class="prefix_4 grid_14 suffix_1">Сегодня 12 мая 2011 года, четверг</h2>
<a class="grid_1" id="next_day" href="/2011/5/13/" title="Афиша на 13 мая 2011 года" rel="nofollow">→</a>
<table class="grid_22 prefix_1">
<tbody>
<tr>
<td class="time">15:00</td>
<td class="event">
<a href="/event/607/">Мегамозг </a><br>
<span class="duration">Продолжительность: 01:35</span></td>
<td class="place"><a href="/place/68/">Кинотеатр "3D Focus"</a></td>
</tr>
<tr>
<td class="time">16:00</td>
<td class="event">
<a href="/event/956/">Воды слонам!</a><br>
<span class="duration">Продолжительность: 01:50</span></td>
<td class="place"><a href="/place/2/">ЦДК "Октябрь"</a></td>
</tr>
<tr>
<td class="time">17:00</td>
<td class="event">
<a href="/event/982/">Балбесы</a><br>
<span class="duration">Продолжительность: 01:15</span></td>
<td class="place"><a href="/place/68/">Кинотеатр "3D Focus"</a></td>
</tr>
<tr>
<td class="time">19:00</td>
<td class="event">
<a href="/event/744/">Санктум</a><br>
<span class="duration">Продолжительность: 02:49</span></td>
<td class="place"><a href="/place/68/">Кинотеатр "3D Focus"</a></td>
</tr>
<tr>
<td class="time"> </td>
<td class="event">
<a href="/event/955/">Форсаж-5</a><br>
<span class="duration">Продолжительность: 02:10</span></td>
<td class="place"><a href="/place/2/">ЦДК "Октябрь"</a></td>
</tr>
<tr>
<td class="time">21:00</td>
<td class="event">
<a href="/event/984/">Территория тьмы</a><br>
<span class="duration">Продолжительность: 01:28</span></td>
<td class="place"><a href="/place/68/">Кинотеатр "3D Focus"</a></td>
</tr>
</tbody>
</table>
<div class="prefix_3 grid_19"><a class="add-row" href="/event/add/">Добавить событие</a></div>
</div>
<div id="footer" class="foot">
<ul class="menu">
<li><a href="/">Афиша на сегодня</a></li>
<li><a href="/week/">Афиша на неделю</a></li>
<li><a href="/event/add/">Добавить событие</a></li>
<li><a href="/feedback/">Обратная связь</a></li>
</ul>
<p>© 2011 <a class="big" href="http://shadrinsk.info">Шадринск.Инфо</a>. <a href="/">Афиша</a> культурных и спортивных мероприятий города Шадринска.</p>
</div>
<script type="text/javascript">
var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www.");
document.write(unescape("%3Cscript src='" + gaJsHost + "google-analytics.com/ga.js' type='text/javascript'%3E%3C/script%3E"));
</script>
<script type="text/javascript">
try {
var pageTracker = _gat._getTracker("UA-10790178-1");
pageTracker._trackPageview();
} catch(err) {}
</script>
</div>
</body>
</html>
Офлайн
можно как-то так:
import urllib2
import re
sock = urllib2.urlopen('http://afisha.shadrinsk.info')
data = sock.read()
sock.close()
res = re.findall('<table.+?>(.+?)</table>', data, re.DOTALL)
print res[0].decode('utf-8')
<tbody>
<tr>
<td class="time">13:00</td>
<td class="event">
<a href="/event/985/">Мартышки в космосе: Ответный удар </a><br>
...
...
<span class="duration">Продолжительность: 01:45</span></td>
<td class="place"><a href="/place/2/">ЦДК "Октябрь"</a></td>
</tr>
</tbody>
Отредактировано (Май 12, 2011 22:49:03)
Офлайн
pillСпасибо огромное, сегодня буду тестить.
можно как-то так:<tbody>import urllib2
import re
sock = urllib2.urlopen('http://afisha.shadrinsk.info')
data = sock.read()
sock.close()
res = re.findall('<table.+?>(.+?)</table>', data, re.DOTALL)
print res[0].decode('utf-8')
<tr>
<td class=“time”>13:00</td>
<td class=“event”>
<a href=“/event/985/”>Мартышки в космосе: Ответный удар </a><br>
…
…
<span class=“duration”>Продолжительность: 01:45</span></td>
<td class=“place”><a href=“/place/2/”>ЦДК "Октябрь"</a></td>
</tr>
</tbody>
Офлайн
в третьем
import html.parser
help(html.parser)
import htmllib
help(htmllib)
Офлайн
conSTANta? а по башке?
учитесь работать ручками. Хватит воровать даже контент
Отредактировано (Май 17, 2011 06:56:27)
Офлайн
shadrinsk.infoА что вы так возбудились? Может он себе расписание просмотров составлять хочет?
conSTANta? а по башке?
учитесь работать ручками. Хватит воровать даже контент
Офлайн
Просто прецедент был, когда несколько месячный труд по заполнению бд перекочевал на чужой сайт. Потом были претензионные письма, составление исков, потому как бд являются объектом авторского права
Офлайн
:) Авторское право. Интересно а сколько на сайте сторонников этого права за которое я ни на каких референдумах не голосовал и поддерживаю я эти законы или нет никто не спрашивал? Хотите чтобы инфу никто не взял - сотрите, очень помогает, а выкладывание в интернет мешает ее приватности. Помоему на форуме обсуждаются технические вопросы а не правовые аспекты. Заранее прошу извинить за резкость.
ps
Было доказано воровство Microsoftom баз у Google и ничего - все сошло с рук.
Отредактировано (Май 17, 2011 12:54:26)
Офлайн
shadrinsk.infoВо-первых сначала узнайте для чего мне эта инфа.
conSTANta? а по башке?
учитесь работать ручками. Хватит воровать даже контент
Офлайн