Главная » Прикладная лингвистика » Компьютерная лингвистика » Автоматическое понимание текстов

Автоматическое понимание текстов. Сисемы, модели, ресурсы

В данном учебном пособии прослежен лингвистический аспект учебной дисциплины «Автоматическая обработка текстов» (АОТ). 11а примере некоторых представительных систем и моделей рассматриваются компоненты, из которых складывается полный цикл процесса автоматического понимания текста (АПТ), и лингвистические ресурсы, необходимые для его компьютерной реализации. На фоне беглого изложения разных подходов к решению лингвистических проблем построения систем АПТ даются развернутые иллюстрации из авторских работ. Рассматриваются отдельные трудные участки процесса АПТ. Такой жанр обсуждения с читателем трудностей, а не сообщения готовых истин вполне оправдан, так как в проблемной области под названием АПТ еще слишком велик разброс мнений по ее ключевым проблемам: так, не сформировалось единого взгляда на природу метаязыка (интерлингвы), на котором желательно представлять содержание любого текста; не определен статус баз знаний; нет согласия в том, что считать собственно семантическим компонентом понимания и где границы его компетенции, и т.д.

В книге представлен авторский взгляд на состав и роль семантического компонента как наиболее содержательного участка компьютерного понимания, определяющего функции всех остальных. Опыт преподавания различных прикладных дисциплин на отделениях структурной и прикладной лингвистики (курс «Информатика» на факультете совершенствования переводчиков МГПИИЯ, основные и спецкурсы в РГГУ и МГУ по прикладной семантике, информационному анализу текста, системам генерации текстов, словарям для систем АПТ и др.) убедил автора в том, что студентов интересуют не столько уже реализованные системы (индексирования, поиска, морфологического анализа, коррекции ошибок и т.п.), сколько вопросы о том, как повысить уровень понимания текстов в прикладных системах. При тестировании программ синтаксического анализа после ввода фраз типа Дети пойти в школу студенты быстро переходят к очень сложным примерам, нащупывая слабые места парсинга (синтаксического анализатора) или системы машинного перевода. Им мало интересен вывод Петя поглощает яблоки —» (значит) Мальчик ест фрукты, а ведь даже такие простые выводы требуют введения сложных семантических данных в систему АПТ.

Однако можно задать множество тонкостей и деталей своей (лингвистической или переводческой) науке, но не владеть искусством синтеза этих знаний в практических компьютерных задачах из-за отсутствия цельного взгляда на комплекс проблем, связанных с содержательной обработкой «живых» текстов и массивов. Поэтому пособие адресовано в основном тем из студентов, лингвистов и программистов, кто ищет новые интересные решения трудных семантических проблем, а тем более возможности их реализации. Не последняя задача данного учебного пособия — вызвать интерес молодых специалистов к гибкому включению лингвистической теории в проектирование компьютерных интеллектуальных систем.

Структура книги. В главе 1 обосновывается теоретическая модель, которая легла в основу учебной экспериментальной системы ПОЛИТЕКСТ.

Стержень, на котором держатся излагаемые частные решения, — это идея «мягкого» понимания текста. Коротко, она выражается в том, что один и тот же текст допускает разные результаты понимания в зависимости от разных условий и составляющих процесса понимания. Лингвистический характер системы и всех ее механизмов состоит в том, что мы всегда имеем дело со сравнением и преобразованием текстов и текстовых структур.

Совокупность «текстов» (в широком смысле, включая тезаурусы и списки, текст либо структуру вопроса и лексикон баз данных), вовлеченных в сеанс получения информации из заданного источника, образует информационное пространство (ИнфПрост) текста. Минимальный состав ИнфПрост — сам анализируемый текст и «встречный» текст (например, текст вопроса), в единицах которого должны пониматься исходный текст и строиться информация.

Каждый уровень понимания имеет свою сферу действия и вычленяет специфические для данного уровня единицы.

Страницы:   1 | 2 | 3 | 4  Далее >>

____________

Рубрики