Форум сайта python.su
как спарсить url(sessionId: ‘ucZlnGvK0b3yqMDrUvMrPkXY7494s6YX’,) и id(time: Number('1310648507'),) из этого кода?
<script>
var ___hostname = 'wwwnew8';
var TIME = Number('1310648507') * 1000;
var TIMEZONE = Number('14400') / 3600;
var mambo = {
utimeint64: Number('1310648507646919'),
time: Number('1310648507'),
partnerId: 4933863,
isUK: false,
auth: 0,
aUserId: 0,
vUserId: 0,
sessionId: 'ucZlnGvK0b3yqMDrUvMrPkXY7494s6YX',
sPost: '&s_post=8rZLuc1rF9rBlbHDquG4wsuuYs8sVnIE',
realUser: false,
info: {"version":3,"build":17,"files":{"jsCore\/jquery\/jquery-ui.js":100,"jsCore\/mambo\/project\/Contactos.js":100,"jsCore\/mambo\/project\/Registration.js":100,"jsCore\/mambo\/project\/Login.js":101,"jsCore\/mambo\/project\/Anketa.js":100,"jsCore\/mambo\/project\/Photo.js":100,"jsCore\/mambo\/project\/Cometa.js":100,"jsCore\/mambo\/project\/Ban.js":100,"jsCore\/mambo\/project\/Search.js":100,"jsCore\/mambo\/project\/Settings.js":100,"jsCore\/mambo\/project\/Messenger.js":100,"jsCore\/mambo\/ui\/Wysiwyg.js":100,"jsCore\/mambo\/ui\/Overlay.js":100,"jsCore\/mambo\/utils\/TinyMCE.js":100,"jsCore\/Projects\/mamba.ru\/Pages\/mamba.Pages.Album.Video.js":100,"jsCore\/mambo\/etc\/faceline.swf":100,"jsCore\/mambo\/etc\/collider.swf":100,"jsCore\/mambo\/etc\/mvm.swf":100,"jsCore\/mambo\/etc\/audio.swf":100,"jsCore\/mambo\/etc\/audiogift.swf":100,"jsCore\/mambo\/etc\/audiopreview.swf":100,"jsCore\/mambo\/etc\/hwdetect.swf":100,"jsCore\/mambo\/etc\/shahzodaPlayer.swf":100,"jsCore\/mambo\/etc\/travapleer.swf":100,"jsCore\/mambo\/etc\/uploader.swf":100,"jsCore\/mambo\/etc\/videoplayer.swf":100,"jsCore\/mambo\/etc\/videogreeting.swf":100,"jsCore\/mambo\/etc\/photobooth.swf":100,"jsCore\/mambo\/etc\/icqwelcome.swf":100}},
aliases: {
'jsCore': 'http://194.186.171.75/images/default2/default/jsCore/',
'jsCorePattern':'http://194.186.171.75/images/ver%/default2/default/jsCore/',
'images': 'http://194.186.171.75/images/default2/default/',
'images.old': 'http://194.186.171.75/images/default/default/'
}
};
mambo.lang = {
'ServerError': 'Ошибка сервера'
};
</script>
Офлайн
Быдло-регулярочки:
re.search('sessionId:\s+\S+\'', your_text)
re.search('time:\s+\S+\)', your_text)
Отредактировано (Июль 14, 2011 19:55:49)
Офлайн
первую переменнюю не спарсить, делаю так:
re.search('time: Number(\'(.*)\')', your_text)
Офлайн
Как я понял, нужно распарсить текст регулярками, чтобы получить строки “sessionId: ‘ucZlnGvK0b3yqMDrUvMrPkXY7494s6YX’” и “time: Number('1310648507')”.
Если нужно распарсить и получить строки “ucZlnGvK0b3yqMDrUvMrPkXY7494s6YX” и “1310648507”, то регулярки, естественно, будут другими.
В общем, конкретизируйте, пожалуйста :)
Отредактировано (Июль 15, 2011 14:22:36)
Офлайн
надо получить строки “ucZlnGvK0b3yqMDrUvMrPkXY7494s6YX” и “1310648507”
Офлайн
1. sessionId:\s*(*)
2. time:+\((*)
..bw
Офлайн
спасибо все теперь работает. Возник еще вопрос. надо спарсить http://rnq.ru/ из этого текста:
"><h3><a href="http://rnq.ru/" onmousedown="return si_T('&ID=SERP,5118.1')">R&<strong>Q</strong> - маленькая аська :) - Главная</a></h3></div><p>r&<strong>q</strong> — это маленькая аська. Самый быстрый в мире icq-клиент.</p><div class="sb_meta"><cite>rnq.ru</cite>
Отредактировано (Июль 16, 2011 13:30:35)
Офлайн
Это элементарнейшая задача, а ты более двух лет занимаешься Python.
Чуешь к чему веду :-). Похоже это не твой язык.
..bw
Офлайн
import re
text = '> < h3 > < a href= "http://rnq.ru/" onmousedown= "return si_T('&ID=SERP,5118.1')" > R& < strong > Q </ strong > - маленькая аська :) - Главная </ a > </ h3 > </ div > < p > r& < strong > q </ strong > — это маленькая аська. Самый быстрый в мире icq-клиент. </ p > < div class= "sb_meta" > < cite > rnq.ru </ cite >'
found = re.findall('< a href= "http://(.+/)" ',text)
Отредактировано (Июль 16, 2011 17:39:59)
Офлайн