Уведомления

Группа в Telegram: @pythonsu

#1 Фев. 19, 2019 18:35:15

Mvvalerievich
Зарегистрирован: 2019-02-19
Сообщения: 1
Репутация: +  0  -
Профиль   Отправить e-mail  

Парсинг по содержимому в соседнем теге

Доброго времени суток. Подскажите пожалуйста, как парсить номер телефона, адрес и почту.

 <li><strong>Почтовый адрес:</strong>
                          <span>Россия, республи......</span>
                      </li>
                     <li>
            <strong>
                            Телефон:
            </strong>        +7 (96*) ********
              
                                    </li>            
                  <li>
            <strong>
                            Телефон:
            </strong>        +7 (9**) ***–10**
              
                                    </li>
                  <li>
            <strong>
                            E-mail:
            </strong>   vi****3@bk.ru
              
                                    </li>
              </ul>
на каждой странице такой код, но … иногда два телефона, иногда один, иногда нет почты

Отредактировано Mvvalerievich (Фев. 19, 2019 18:36:59)

Офлайн

#2 Фев. 20, 2019 03:03:09

py.user.next
От:
Зарегистрирован: 2010-04-29
Сообщения: 9897
Репутация: +  855  -
Профиль   Отправить e-mail  

Парсинг по содержимому в соседнем теге

Сначала нужно это привести к промежуточной форме. Надо удалить всякие лишние пробелы, лишние теги. А потом то, что получится в очищенном виде, его и надо разбирать. Не нужно пытаться сразу разобрать это, потому что здесь много лишних данных, которые при разборе нужно учитывать. При этом эти данные никакой роли в структуре вообще не играют, их просто надо удалить ещё до разбора.



Отредактировано py.user.next (Фев. 20, 2019 03:03:45)

Офлайн

Board footer

Модераторировать

Powered by DjangoBB

Lo-Fi Version