Найти - Пользователи
Полная версия: проблема с кодировками и html еодом сайтов
Начало » Python для новичков » проблема с кодировками и html еодом сайтов
1 2
astafan
Всем привет.
Я начал писать програмку суть которой в том чтобы она сформировала ссылку интернетную (в частности поисковой запрос Яндекса) потом получила хтмл код получившейся странички и нашла бы в ней фразу типа “ничего не найдено”. связано это с тем что мне нужно из большого списка сочетаний букав найти реально существующие слова. вот я и придумал такой метод)) вот мой код:
# -*- coding: cp1251 -*-
import urllib
import string

s1 = "Не найдено ни одного документа, соответствующего запросу"
s2 = "Возможно, вы имели в виду"
s3 = "Искомая комбинация слов нигде не встречается"
s4 = "Быть может, вы искали"
s5 = "ничего не найдено"

ur1 = "http://www.google.ru/search?source=ig&hl=ru&rlz=1G1GGLQ_RUUS330&q="
ur2 = "&btnG=Поиск+в+Google&meta=lr%3D&aq=f&oq="
ur3 = "http://yandex.ru/yandsearch?text="
ur4 = "&lr=11316"

def check(word) :
html_doc = urllib.urlopen(ur3+word+ur4).read() #или ur1 + ... + ur2 для google
if (html_doc.find(s3) == (-1)) and \
(html_doc.find(s4) == (-1)) :
return "word exists"
else:
return "none"

for w in ["бавэщя", "венера", "вацулэ", "цывуды", "маруся"]:
qwe = w + " " + check(w) + "\n"
print qwe
Проблема состоит в том что он находить не хочет. когда в shell смотрю значения всех строк то вместо букв там вылазят всякие /x0d или /u0d4 вместо нормальных букв. сам питон при компиляции проги просит сделать ей кодировку виндовс 1251. я в полнейшем замешательстве потому что мои попытки всё привести к одной кодировке не венчаются успехами, питон пишет ошибки в стиле ascii не мождет какойто байт понять и т.п.
как мне всё сделать?)))

Помогите))) питон 2.5
regall
Даешь на форуме каждый день новый вопрос про кодировку! =)
sypper-pit
честно говоря меня уже начинает раздражать такое поведение зверей(гоблинов, хотя я сам еще тот гоблин:) )… может отдельную колонку в форуме сделаем ? про кодировку :)))
astafan
Закрывайте тему.

Надо вверху написать “кодировка утф8” так ка яндекс в ней работает. а если потом надо в шеле показать текст то просто декодишь из утф8 и потом энкодишь в виндовс1251.

к сожалению даже спасибо некому сказать.
Александр Кошелев
astafan
к сожалению даже спасибо некому сказать.
Логичное следствие плохо заданного вопроса.
regall
astafan
Закрывайте тему.

Надо вверху написать “кодировка утф8” так ка яндекс в ней работает. а если потом надо в шеле показать текст то просто декодишь из утф8 и потом энкодишь в виндовс1251.
Если бы вы воcпользовались поиском по форуму, то и открывать бы не пришлось ничего :D
astafan
даёшь ответ на такие вопросы каждый день)))

было бы очень уместно)))

конечно)) нашёлся тут умник, ну ты даёшь, чувак))

опять эта дебильная фраза! я искал по форуму но ничего что бы мне помогло я не нашёл! поэтому и тему создал! в самом-самом-самом формуе про питон))) ….(((
Ferroman
Количество скобочек не делает слова более смешными.
А вообще - сначала стоит закончить школу, “чувак”.
st00nsa
Кто бы написал большое FAQ на тему кодировки, у меня последнее время только из за нее и проблемы, в частности невозможность перекодировать в юникод, что я уже только не читал, и все как то безтолку.
pasaranax
st00nsa
Кто бы написал большое FAQ на тему кодировки
+1
можешь и сам взяться, заодно достигнешь совершенства в понимании вопроса ;) как правила такие факи и пишуться теми, кто хочет сам разобраться для себя, и как бонус для остального человечества.
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB