Применение различных практических методик для систематизации и извлечения полезной текстовой информации из неструктурированных данных с использованием языка программирования Java
Обработка естественного языка (Natural Language Procession - NLP) представляет собой важную область разработки прикладного ПО и, с учётом современных задач ИТ, в будущем эта важность будет только возрастать. Уже сейчас наблюдается рост потребности в работающих с естественными языками на основе NLP-методик.
В книге "Использование Java для обработки естественного языка" рассматриваются способы организации автоматической обработки текста с применением таких методик, как полнотекстовый поиск, правильное распознавание имён, кластеризация, извлечение информации и составление аннотаций. Концепции обработки естественного языка излагаются таким образом, что даже читатели, не обладающие знаниями об этой технологии и о методах статистического анализа, смогут понять их.
Если вы программируете на языке Java и хотите узнать о решениях элементарных задач, составляющих основу обработки естественного языка, то эта книга для вас. Вы научитесь выбирать и практически применять базовые методики обработки естественного языка для выполнения многих элементарных задач, а также включать их в реальные решающих более сложные, комплексные задачи. Читатель должен обладать некоторым опытом разработки программ на языке Java.
Эта книга поможет:
глубоко понять сущность основных задач обработки естественного языка и их взаимосвязи друг с другом;
изучить и практически использовать доступные механизмы токенизации;
реализовать методики определения границ предложений;
освоить применение специальных методик поиска имён людей и прочих именованных объектов в документе;
реализовать решения для определения морфологической разметки использовать синтаксические анализаторы для определения взаимосвязей между элементами документа;
объединить элементарные задачи в эффективную цепочку, способную решать более сложные и объёмные задачи обработки естественного языка.