Я преобразовал список токенизированных предложений в фрейм данных. Теперь мне нужно отфильтровать строки (предложения), в которых есть цитаты.
Пример кадра данных:
sentences
1 This is my house
2 This is clear water(World Health organisation, 2018).
3 This house was built in 2000
4 According to me (Sundar, 2015)it is good.
Ожидаемый результат:
sentences
1 This is clear water(World Health organisation, 2018).
2 According to me (Sundar, 2015)it is good.
Я использовал приведенный ниже код с разными шаблонами, r'[(]\w+,\d{4}[)]', r[(\w+\s+, \d{4})]
df[df['sentences'].str.contains(r'\d{4}', regex = True)]