Возникла такая проблема, очень прошу помощи в поиске ее решения.
Есть скрипт, который парсит данный с сайта LinkedIn по конкретным фильтрам и запросам. Сам скрипт работает без вопросов, данные берутся корректно, кроме одного пункта (весь скрипт в аттачах).
Дело в том, что поле Specialties в коде содержит данные в таком виде: “specialties”: (квадратная скобка) “PCB”,“Pil”,“Led & Adaptör”,“Aluminium PCB” (квадратная скобка) . Все другие переменные имеют описание только в одних кавычках, посему содержание берется без проблем, а тут - только первое слово и хоть ты тресни…
Подскажите пожалуйста, как “научить” скрипт смотреть на открывающую и закрывающую скобку и брать данные, которые внутри них, а не только то, что в кавычках?
Часть кода прставлена ниже:
def extract_data(www,link): soup = BeautifulSoup(www) name = soup.find('h1',{'class':'name'}).text.strip() # off_name = try: size = soup.find('li',{'class':'company-size'}).find('p').text.strip() except: size = '' try: country = soup.find('li',{'class':'vcard hq'}).find('span',{'class':'country-name'}).text.strip() except: country = '' try: address = soup.find('li',{'class':'vcard hq'}).find('span',{'class':'street-address'}).text.strip() except: address = '' try: c1 = soup.find('li',{'class':'vcard hq'}).find('span',{'class':'locality'}).text.strip().replace(',','') except: c1 = '' try: c2 = soup.find('li',{'class':'vcard hq'}).find('abbr',{'class':'region'}).text.strip() except: try: c2 = soup.find('li',{'class':'vcard hq'}).find('span',{'class':'region'}).text.strip() except: c2 = '' try: specialities = soup.find('li',{'class':'specialties'}).find('p').text.strip() except: specialties = '' try: industry = soup.find('li',{'class':'industry'}).find('p').text.strip() except: industry = '' try: web = soup.find('li',{'class':'website'}).find('a').text.strip() except: web = '' try: zip_code = soup.find('li',{'class':'vcard hq'}).find('span',{'class':'postal-code'}).text.strip() except: zip_code = '' try: desc = soup.find('div',{'class':'basic-info-description'}).text.strip() except: desc = '' # print([link, name, size, country, address, c1, c2, specialties, industry, web, zip_code, desc]) return [link, name, size, country, address, c1, c2, specialties, industry, web, zip_code, desc]
Заранее огромное спасибо!
