Доброго утра.
Хочу парсить форму модулем ClientForm, но на некоторых страницах он ломается.
Ошибка:
Traceback (most recent call last):
File “D:\—P_Y_T_H_O_N–\A_N_A_L_O_G\ANALOG1\file1.py”, line 120, in ?
FORMS = ClientForm.ParseFile(f_parse,u, backwards_compat=False, encoding='la
tin-1')
File “C:\Python24\lib\site-packages\ClientForm.py”, line 952, in ParseFile
fp.feed(data)
File “C:\Python24\lib\sgmllib.py”, line 95, in feed
self.goahead(0)
File “C:\Python24\lib\sgmllib.py”, line 129, in goahead
k = self.parse_starttag(i)
File “C:\Python24\lib\sgmllib.py”, line 280, in parse_starttag
self.finish_starttag(tag, attrs)
File “C:\Python24\lib\sgmllib.py”, line 318, in finish_starttag
self.handle_starttag(tag, method, attrs)
File “C:\Python24\lib\sgmllib.py”, line 354, in handle_starttag
method(attrs)
File “C:\Python24\lib\site-packages\ClientForm.py”, line 587, in start_textare
a
raise ParseError(“start of TEXTAREA before start of FORM”)
ClientForm.ParseError: start of TEXTAREA before start of FORM
я пробую исправлять форму перед сохранением с помощью модуля BeautifulSoup
вот основной фрагмент ф-и
from BeautifulSoup import BeautifulSoup
soup0 = BeautifulSoup (s, fromEncoding=“utf-8”)
s = soup0.prettify()
s = unicode(s, ‘utf-8’).encode('utf-8')
но нищего не помагает.
Как исправить форму?