Python-сообщество

zds · Июнь 19, 2013 15:35:59

Добрый день.

Подскажите, пожалуйста, как найти один едиственный символ на обычной html странице средствами языка python.
Этот символ идет перед абсолютно уникальным набором символов, например “”",5654);">панколпынваи-арвнпв“”"
В этом наборе символов могут присутствовать , ; ) " > - буквы кириллици, а также цифры

doza_and · Июнь 19, 2013 20:55:42

zds
как найти один единственный символ

Непонятно спрашиваете.
Ну есть у вас открытая страница в броузере. Запустили вы свой скрипт. Что должно получиться?
Скрипт должен напечатать найденный символ? Напечатать позицию в html файле(а файла вообще говоря и нет)? В броузере должен выделиться этот символ? Если наборов символов в файле встречается много раз что тогда делать??? Какая кодировка html страницы и где ее взять?
python 2.x
?????????????

import re
print(re.search(ur"5654\);>панколпынваи-арвнпв(.)",open("a.html","r").read()).group(1))

Отредактировано doza_and (Июнь 19, 2013 20:59:58)

zds · Июнь 20, 2013 16:21:00

Спасибо за помощь, doza_and

Ну есть у вас открытая страница в броузере. Запустили вы свой скрипт. Что должно получиться?

Запустил скрипт. Открылась страница по ссылке с помощью urllib2 библиотеки. Скрипт выполняется дальше. Выдает ответом найденый символ. Выводит на экран или записывает в файл (это мне, наверное, по силам и самому сделать).

В броузере должен выделиться этот символ? Если наборов символов в файле встречается много раз что тогда делать???

Набор таких символов много раз встречаться не может - это точно. В браузере ничего выделять не нужно.

Какая кодировка html страницы и где ее взять?

Кодировка windows-1251, можно не барать ниоткуда, меняться она не будет.

python 2.x
?????????????

python 2.7

ur“5654\);>панколпынваи-арвнпв(.)”

Вы написали в коде искомую фразу, как видно выше. В конце фразы стоит точка в скобках (.)
Подскажите, пожалуйста, что эта точка в скобках означает. Это явно какое-то регулярное выражение.

Еще раз повторю условие. Нужно вывести символ Х с html страницы (открытой при помощи скрипта с использованием библиотеки urllib2). Символ Х может быть разным и идет сразу перед абсолютно уникальным набором символов, например (,5654);">панколпынваи-арвнпв). В этом наборе точно будут запятые, скобки, знак больше, точка с запятой, буквы, цифры, кавычки.

Спасибо еще раз за помощь.

Отредактировано zds (Июнь 20, 2013 16:25:02)

doza_and · Июнь 20, 2013 20:04:17

из
http://ivinside.blogspot.ru/2009/07/urllib2.html
чтение данных

import urllib2
response = urllib2.urlopen('http://ivinside.blogspot.com/')
content = response.read()

Для поиска использовались регулярные выражения. Если будете писать на питоне, то все равно их прийдется освоить.
http://docs.python.org/2/library/re.html
В данном случае точка означает любой символ. Когда выражения берется в скобки то данную часть текста можно будет потом извлечь при помощи group.
В вашем случае скорее будет проблема что текст содержит много символов которые по синтаксису регулярных выражений имеют специальное значение. Их все надо будет экранировать обратными слешами. \

py.user.next · Июнь 21, 2013 05:37:51

doza_and
Их все надо будет экранировать обратными слешами.

>>> re.escape(r'^$().')
'\\^\\$\\(\\)\\.'
>>>

zds
Кодировка windows-1251, можно не барать ниоткуда, меняться она не будет.

кодировка берётся из ответных заголовков

>>> import urllib2
>>> data = urllib2.urlopen('http://www.python.su')
>>> data.headers.getheader('Content-Type')
'text/html; charset=utf-8'
>>>

Отредактировано py.user.next (Июнь 21, 2013 05:41:54)

Python-сообщество

Уведомления

#1 Июнь 19, 2013 15:35:59

Поиск символа в html файле.

#2 Июнь 19, 2013 20:55:42

Поиск символа в html файле.

#3 Июнь 20, 2013 16:21:00

Поиск символа в html файле.

#4 Июнь 20, 2013 20:04:17

Поиск символа в html файле.

#5 Июнь 21, 2013 05:37:51

Поиск символа в html файле.

Board footer