Найти - Пользователи
Полная версия: Получить информацию со страницы
Начало » Web » Получить информацию со страницы
1
Skyler
Как лучше изымать информацию с исходного кода страницы? Есть ли какие-то простые способы?
Например:
<hr/> <div class=“headerinline”><h3>Cast</h3>&nbsp; <small style=“position: relative; bottom: 1px”>(Cast overview, first billed only)</small></div> <div class=“info”> <table class=“cast”> <tr class=“odd”><td class=“hs”><a href=“/name/nm0479471/” onClick=“(new Image()).src='/rg/title-tease/tinyhead/images/b.gif?link=/name/nm0479471/';”><img src="http://ia.media-imdb.com/images/M/MV5BMTQ1MjExNjY5M15BMl5BanBnXkFtZTcwNDI2Mjc2Mg@@._V1._SY30_SX23_.jpg“ width=”23“ height=”32“ border=”0“></a><br></td><td class=”nm“><a href=”/name/nm0479471/“ onclick=”(new Image()).src='/rg/castlist/position-1/images/b.gif?link=/name/nm0479471/';“>Shia LaBeouf</a></td><td class=”ddd“> … </td><td class=”char“><a href=”/character/ch0003325/“>Sam Witwicky</a></td></tr> <tr class=”even“><td class=”hs“><a href=”/name/nm1083271/“ onClick=”(new Image()).src='/rg/title-tease/tinyhead/images/b.gif?link=/name/nm1083271/';“><img src=”http://ia.media-imdb.com/images/M/MV5BMjEyNzIwNzIwNV5BMl5BanBnXkFtZTcwOTg4ODgyMQ@@._V1._SY30_SX23_.jpg“ width=”23“ height=”32“ border=”0“></a><br></td><td class=”nm“><a href=”/name/nm1083271/“ onclick=”(new Image()).src='/rg/castlist/position-2/images/b.gif?link=/name/nm1083271/';“>Megan Fox</a></td><td class=”ddd“> … </td><td class=”char“><a href=”/character/ch0003326/“>Mikaela Banes</a></td></tr> <tr class=”odd“><td class=”hs“><a href=”/name/nm0241049/“ onClick=”(new Image()).src='/rg/title-tease/tinyhead/images/b.gif?link=/name/nm0241049/';“><img src=”http://ia.media-imdb.com/images/M/MV5BMTY4NDUxNjk5Ml5BMl5BanBnXkFtZTcwNjczODIzMQ@@._V1._SY30_SX23_.jpg“ width=”23“ height=”32“ border=”0“></a><br></td><td class=”nm“><a href=”/name/nm0241049/“ onclick=”(new Image()).src='/rg/castlist/position-3/images/b.gif?link=/name/nm0241049/';“>Josh Duhamel</a></td><td class=”ddd“> … </td><td class=”char“><a href=”/character/ch0003329/“>Captain Lennox</a></td></tr> <tr class=”even“><td class=”hs“><a href=”/name/nm0879085/“ onClick=”(new Image()).src='/rg/title-tease/tinyhead/images/b.gif?link=/name/nm0879085/';“><img src=”http://ia.media-imdb.com/images/M/MV5BMTQ3MzI2OTY0M15BMl5BanBnXkFtZTcwMjY3NTQyMQ@@._V1._SY30_SX23_.jpg“ width=”23“ height=”32“ border=”0“></a><br></td><td class=”nm“><a href=”/name/nm0879085/“ onclick=”(new Image()).src='/rg/castlist/position-4/images/b.gif?link=/name/nm0879085/';“>Tyrese Gibson</a></td><td class=”ddd“> … </td><td class=”char“><a href=”/character/ch0003338/“>USAF Tech Sergeant Epps</a></td></tr> <tr class=”odd“><td class=”hs“><a href=”/name/nm1592225/“ onClick=”(new Image()).src='/rg/title-tease/tinyhead/images/b.gif?link=/name/nm1592225/';“><img src=”http://ia.media-imdb.com/images/M/MV5BMTk1MTE3Njc3M15BMl5BanBnXkFyZXN1bWU@._V1._SY30_SX23_.jpg“ width=”23“ height=”32“ border=”0“></a><br></td><td class=”nm“><a href=”/name/nm1592225/“ onclick=”(new Image()).src='/rg/castlist/position-5/images/b.gif?link=/name/nm1592225/';“>Rachael Taylor</a></td><td class=”ddd“> … </td><td class=”char“><a href=”/character/ch0003336/“>Maggie Madsen</a></td></tr> <tr class=”even“><td class=”hs“><a href=”/name/nm0026364/“ onClick=”(new Image()).src='/rg/title-tease/tinyhead/images/b.gif?link=/name/nm0026364/';“><img src=”http://ia.media-imdb.com/images/M/MV5BMTc5OTAyNDc2NF5BMl5BanBnXkFtZTcwMTQ3NjYyMQ@@._V1._SY30_SX23_.jpg“ width=”23“ height=”32“ border=”0“></a><br></td><td class=”nm“><a href=”/name/nm0026364/“ onclick=”(new Image()).src='/rg/castlist/position-6/images/b.gif?link=/name/nm0026364/';“>Anthony Anderson</a></td><td class=”ddd“> … </td><td class=”char“><a href=”/character/ch0003328/“>Glen Whitmann</a></td></tr> <tr class=”odd“><td class=”hs“><a href=”/name/nm0000685/“ onClick=”(new Image()).src='/rg/title-tease/tinyhead/images/b.gif?link=/name/nm0000685/';“><img src=”http://ia.media-imdb.com/images/M/MV5BMTIzMjY1NTg4N15BMl5BanBnXkFtZTcwMTE0NjQxMQ@@._V1._SY30_SX23_.jpg“ width=”23“ height=”32“ border=”0“></a><br></td><td class=”nm“><a href=”/name/nm0000685/“ onclick=”(new Image()).src='/rg/castlist/position-7/images/b.gif?link=/name/nm0000685/';“>Jon Voight</a></td><td class=”ddd“> … </td><td class=”char“><a href=”/character/ch0003331/“>Defense Secretary John Keller</a></td></tr> <tr class=”even“><td class=”hs“><a href=”/name/nm0001806/“ onClick=”(new Image()).src='/rg/title-tease/tinyhead/images/b.gif?link=/name/nm0001806/';“><img src=”http://ia.media-imdb.com/images/M/MV5BMTA1NTU2ODMwMTheQTJeQWpwZ15BbWU3MDU4NzY0MTE@._V1._SY30_SX23_.jpg“ width=”23“ height=”32“ border=”0“></a><br></td><td class=”nm“><a href=”/name/nm0001806/“ onclick=”(new Image()).src='/rg/castlist/position-8/images/b.gif?link=/name/nm0001806/';“>John Turturro</a></td><td class=”ddd“> … </td><td class=”char“><a href=”/character/ch0003332/“>Agent Simmons</a></td></tr> <tr class=”odd“><td class=”hs“><a href=”http://resume.imdb.com/“ onClick=”(new Image()).src='/rg/title-tease/resumehead/images/b.gif?link=http://resume.imdb.com/';“><img src=”http://i.media-imdb.com/images/tn15/addtiny.gif“ width=”25“ height=”31“ border=”0“></td><td class=”nm“><a href=”/name/nm0642259/“ onclick=”(new Image()).src='/rg/castlist/position-9/images/b.gif?link=/name/nm0642259/';“>Michael O&#x27;Neill</a></td><td class=”ddd“> … </td><td class=”char“><a href=”/character/ch0061659/“>Tom Banacheck</a></td></tr> <tr class=”even“><td class=”hs“><a href=”http://resume.imdb.com/“ onClick=”(new Image()).src='/rg/title-tease/resumehead/images/b.gif?link=http://resume.imdb.com/';“><img src=”http://i.media-imdb.com/images/tn15/addtiny.gif“ width=”25“ height=”31“ border=”0“></td><td class=”nm“><a href=”/name/nm0242656/“ onclick=”(new Image()).src='/rg/castlist/position-10/images/b.gif?link=/name/nm0242656/';“>Kevin Dunn</a></td><td class=”ddd“> … </td><td class=”char“><a href=”/character/ch0003369/“>Ron Witwicky</a></td></tr> <tr class=”odd“><td class=”hs“><a href=”http://resume.imdb.com/“ onClick=”(new Image()).src='/rg/title-tease/resumehead/images/b.gif?link=http://resume.imdb.com/';“><img src=”http://i.media-imdb.com/images/tn15/addtiny.gif“ width=”25“ height=”31“ border=”0“></td><td class=”nm“><a href=”/name/nm0925033/“ onclick=”(new Image()).src='/rg/castlist/position-11/images/b.gif?link=/name/nm0925033/';“>Julie White</a></td><td class=”ddd“> … </td><td class=”char“><a href=”/character/ch0003378/“>Judy Witwicky</a></td></tr> <tr class=”even“><td class=”hs“><a href=”/name/nm1004774/“ onClick=”(new Image()).src='/rg/title-tease/tinyhead/images/b.gif?link=/name/nm1004774/';“><img src=”http://ia.media-imdb.com/images/M/MV5BMjE3NTY1NDEwMV5BMl5BanBnXkFtZTcwMDQ3ODUyMQ@@._V1._SY30_SX23_.jpg“ width=”23“ height=”32“ border=”0“></a><br></td><td class=”nm“><a href=”/name/nm1004774/“ onclick=”(new Image()).src='/rg/castlist/position-12/images/b.gif?link=/name/nm1004774/';“>Amaury Nolasco</a></td><td class=”ddd“> … </td><td class=”char“><a href=”/character/ch0034813/“>ACWO Jorge &#x22;Fig&#x22; Figueroa</a></td></tr> <tr class=”odd“><td class=”hs“><a href=”/name/nm0911933/“ onClick=”(new Image()).src='/rg/title-tease/tinyhead/images/b.gif?link=/name/nm0911933/';“><img src=”http://ia.media-imdb.com/images/M/MV5BMTIzMDQwODcxOF5BMl5BanBnXkFtZTcwNDg4NDMzMQ@@._V1._SY30_SX23_.jpg“ width=”23“ height=”32“ border=”0“></a><br></td><td class=”nm“><a href=”/name/nm0911933/“ onclick=”(new Image()).src='/rg/castlist/position-13/images/b.gif?link=/name/nm0911933/';“>Zack Ward</a></td><td class=”ddd“> … </td><td class=”char“><a href=”/character/ch0061660/“>First Sergeant Donnelly</a></td></tr> <tr class=”even“><td class=”hs“><a href=”http://resume.imdb.com/“ onClick=”(new Image()).src='/rg/title-tease/resumehead/images/b.gif?link=http://resume.imdb.com/';“><img src=”http://i.media-imdb.com/images/tn15/addtiny.gif“ width=”25“ height=”31“ border=”0“></td><td class=”nm“><a href=”/name/nm2698788/“ onclick=”(new Image()).src='/rg/castlist/position-14/images/b.gif?link=/name/nm2698788/';“>Luis Echagarruga</a></td><td class=”ddd“> … </td><td class=”char“><a href=”/character/ch0061661/“>Ranger Team</a></td></tr> <tr class=”odd“><td class=”hs“><a href=”/name/nm2258196/“ onClick=”(new Image()).src='/rg/title-tease/tinyhead/images/b.gif?link=/name/nm2258196/';“><img src=”http://ia.media-imdb.com/images/M/MV5BMTYwMTg5NjQzMV5BMl5BanBnXkFyZXN1bWU@._V1._SY30_SX23_.jpg“ width=”23“ height=”32“ border=”0“></a><br></td><td class=”nm“><a href=”/name/nm2258196/“ onclick=”(new Image()).src='/rg/castlist/position-15/images/b.gif?link=/name/nm2258196/';“>Pat Mulderrig</a></td><td class=”ddd“> … </td><td class=”char“><a href=”/character/ch0061661/“>Ranger Team</a> (as Patrick Mulderrig)</td></tr></table><a class=”tn15more“ href=”fullcredits#cast">more</a></div>
Это все 1 строка. Как мне достать то, что нужно из этого кошмара?
Skyler
Спасибо.
Но что-то меня не очень устраивает результат выполнения парсинга Soup'ом.
string с переходами внутри на новую строку при новом теге. Как вытаскивать оттуда информацию? Доходить до конца каждой строки, до символа, означающего переход на новую строку (не помню, как он там обазначается) и тем самым доходить до нужной строки с текстом? Легче было бы, если бы это был список.
А пока я свою функцию пишу, которая удаляет из строки все теги и вставляет нужный текст в список. По моему удобно будет, когда доделаю.
Ferroman
Регулярные выражения?
Другие парсеры?
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB