Найти - Пользователи
Полная версия: Помогите с регуляркой или скриптом
Начало » Python для новичков » Помогите с регуляркой или скриптом
1
Bobkoff
Есть некий текст. Лежит в одном txt. Почти в каждой строке есть такое:

20 апр 2011 … Бла блабла бла, блабла.
4 сен 2012 … Бла блабла бла, блабла.
11 дек 2011 … Бла блабла бла, блабла.
….
Нужно удалить даты в начале каждой строки “20 апр 2011 … ” оставив только текст
Буду признателен за помощь.
py.user.next
>>> import re
>>> 
>>> s = '20 апр 2011 … Бла блабла бла, блабла.'
>>> snew = re.sub(r'^\d{1,2} [а-я]{3} \d{4} ', r'', s)
>>> snew
'… Бла блабла бла, блабла.'
>>>
Bobkoff
Все отлично, но троеточие в начале тоже нужно убрать, те. чтобы строка начиналась с заглавной буквы
sp3
Bobkoff
троеточие в начале тоже нужно убрать

s = '20 апр 2011 … Бла блабла бла, блабла.'
print s.split("...",1)[1]
py.user.next
>>> import re
>>>  
... s = '20 апр 2011 … Бла блабла бла, блабла.'
>>> snew = re.sub(r'^\d{1,2} [а-я]{3} \d{4} (… )?', r'', s)
>>> snew
'Бла блабла бла, блабла.'
>>>
Isem
snew = re.sub(r'^\d{1,2} [а-я]{3} \d{4} .*? ', r'', s)
py.user.next
троеточия там может и не быть
warik
Должно быть что-то типа такого

re.search(r'\d\d\d\d[\s.]*([\w\s]+)', text)

Только я просто точку поставил, но это ничего не поменяет.
py.user.next
warik
Должно быть что-то типа такого
не, надо точно брать, а не что-то приблизительно
в строке может не быть года, но быть число из четырёх и более цифр

[\s.]*
совпадёт и с “…”, и с “…..”, и c “. . . .”, и с “… … .”
This is a "lo-fi" version of our main content. To view the full version with more information, formatting and images, please click here.
Powered by DjangoBB