Уведомления

Группа в Telegram: @pythonsu

#1 Март 8, 2012 08:30:34

Mozart
От:
Зарегистрирован: 2011-12-12
Сообщения: 66
Репутация: +  0  -
Профиль   Отправить e-mail  

Бьютифул суп

Всем привет, возник вопрос по использованию данной либы.
Допустим есть сайт из которого нужно спарсить ключевики, добавляю модули, создаю объект соединения, нахожу в объекте необходимую мне строчку :

object.findAll(attrs={"name": "Keywords"})
Работает все хорошо, но выводит такую строчку :

<meta name=“Keywords” content=“Ключевик”>

Так вот вопрос - можно ли как нибудь выдернуть сразу ключевик из этого отрывка? Перечитал всю документацию, но ответа так и не нашел. string не работает, text тоже не подойдет, т.к. страниц много и ключевики везде разные. Нашел 1 выход из проблемы - это записывать всю полученную инфу в файл, и потом отдельной функцией делать реплейс по всему файлу что бы оставить только ключевики, но это гемор, хотелось бы как нибудь побыстрее все это сделать.

Спасибо …



Офлайн

#2 Март 8, 2012 08:44:48

Mozart
От:
Зарегистрирован: 2011-12-12
Сообщения: 66
Репутация: +  0  -
Профиль   Отправить e-mail  

Бьютифул суп

Upd: Допер как сделать проще.

a = soup(attrs={"name": "Keywords"})[0]["content"]
f = open("file1.txt", "w")
f.write(a.encode("cp1251"))
f.close()
Вот так все работает )



Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version