Natasha

Наташа извлекает именованные сущности из текста на русском языке, включая (но не ограничиваясь):

Физ. лица: Иванов Иван Иванович, Иван Иванов, Иван Петрович, Ваня
Организации: ПАО «Газпром», ИП Иванов Иван Иванович, агентство Bloomberg
События: фестиваль «Ковчег спасения», шоу «Пятая империя»
Гео-объекты: Москва, Ленинградская область, Российская Федерация, Северо-Кавказский ФО
Объекты времени: 21 мая 1996 года, 21.05.1996, 21 мая, сегодня, в конце года
Денежные единицы: 200 рублей, 1 млрд. долларов

Алгоритм работы (выделение сущностей по заданным правилам, используя морфологический разбор) похож на Томита-парсер от Яндекса.

Установка

$ pip install natasha

Использование

Для первого знакомства можно использовать онлайн версию.

fromnatashaimportCombinator, DEFAULT_GRAMMARSfromnatasha.grammarsimportGeo, Date# DEFAULT_GRAMMARS содержит стандартный набор правил:# [# <enum 'Money'>,# <enum 'Person'>,# <enum 'Geo'>,# <enum 'Date'>,# <enum 'Brand'>,# <enum 'Event'># ]# Можно использовать их частично или использовать свои правилаMY_GRAMMARS_LIST= [ Geo, Date, ] text="23 августа в Нижнем Новгороде пройдет очередной день"combinator=Combinator(MY_GRAMMARS_LIST) for (grammar, rule, tokens) incombinator.extract(text): print("Тип:", grammar) print("Правило:", rule) print("Токены:", tokens)

Лицензия

Исходный код распространяется под лицензией MIT.

Name		Name	Last commit message	Last commit date
Latest commit History 65 Commits
natasha		natasha
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Natasha

Установка

Использование

Лицензия

About

Uh oh!

Releases

Packages

Languages

License

Pythoning/natasha

Folders and files

Latest commit

History

Repository files navigation

Natasha

Установка

Использование

Лицензия

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages