Форум сайта python.su
Всем доброго!
Пытаюсь испробовать супа и натыкаюсь на грабли. А именно, есть код:
# -*- utf-8 -*-
import urllib2, webbrowser
from BeautifulSoup import BeautifulSoup
select_list_page = 'http://www.notary.ru/notary/bd.php'
page = urllib2.urlopen(select_list_page)
soup = BeautifulSoup(page)
soup.originalEncoding
select = soup.find('ul')
option_tags = select.findAll('a')
option_tags = option_tags[0:]
for option in option_tags:
s1 = str(option)
print option
Офлайн
Cover StoryЧто это такое?
Который мне выдает не правильную кодировку текст в неправильной кодировке.
Офлайн
Куда “выдаёт”?
Офлайн
Cover Storyвозможно страница в кодировке cp1251, при этом нужно перевести её в родную кодировку:
page = urllib2.urlopen(select_list_page).decode('cp1251')
Офлайн
Спасибо lorien!
Все заработало. chardet я скачал, но что-то пока не могу установить, позже разберусь. Мне пока этого хватает
Офлайн
Возникла похожая проблема:
page = urllib2.urlopen("http://irr.ru/jobs-education/education/languages/").read()
soup = BeautifulSoup(page)
print soup #выдает русские символы в кривом виде
page = urllib2.urlopen("http://irr.ru/jobs-education/education/languages/").read().decode('utf-8')
Офлайн
Спасибо, работает)
Офлайн
и у меня тут танци с бубном
# -*- coding: utf-8 -*-
import urllib2
import codecs
import csv
import sys
from BeautifulSoup import BeautifulSoup
site_url = 'http://hotline.ua'
search_word = u'g900'
query_string = 'http://hotline.ua/sr/?q=%s&x=0&y=0'%search_word
page = urllib2.urlopen(query_string)
soup = BeautifulSoup(page)
i = soup.__str__()
print i
Офлайн
А что не так? Мой хрустальный шар молчит.
PS. Один вопрос - одна тема.
Офлайн
Я решал вопросы кодировки чуть сложнее, но надежнее.
1. пытаемся получить кодировку из тега meta
META_ENCODING = re.compile( "<meta[^>]*charset=([^;\"\']*)[^>]*?>", re.I )
Офлайн