Автоматическое понимание текстов. Сисемы, модели, ресурсы
- Автоматическая обработка или понимание текста
- Лингвистический аспект
- О модели АПТ
- О проекте ПОЛИТЕКСТ
- ПОЛИТЕКСТ - это система
- Место семантики
- Прикладная и теоретическая лингвистика
- Что значит автоматическое понимание текста
- Основные задачи и классы систем АПТ
- Типы текстовых структур в системах АПТ
- Состав компонентов стандартных систем АПТ
- Модель мягкого понимания текста
- Синтез информационного и лингвистического подходов
- Процесс понимания как взаимодействие текстов
- Машинный перевод
- Об истории СМП
- Внешняя и внутренняя оценка СМП
- Нерешенные проблемы автоматического понимания и перевода
- Новая парадигма СМП
- Компонент первичного анализа текста
- Состав компонента первичного анализа текста
- Препроцессор: подготовка массива
- Стандарты оформления документов
- Собственно графематический анализ
- Макросинтаксический анализ
- Проблема анализа прерванных высказываний
- Подходы к МорфАн
- МорфАн со словарем основ и словарем окончаний
- МорфАн только со словарем окончаний
- МорфАн по аналогии
- МорфАн со словарем словоформ в системе ПОЛИТЕКСТ1
- Семантические проблемы в МорфАн
- Синтаксический компонент
- Проблема синтаксической омонимии при анализе
- Модели автоматического СинАн
- Отечественные реализации СинАн
- Синтаксические процессоры в ИЛМ
- Локальный семантический анализ текста
В данном учебном пособии прослежен лингвистический аспект учебной дисциплины «Автоматическая обработка текстов» (АОТ). 11а примере некоторых представительных систем и моделей рассматриваются компоненты, из которых складывается полный цикл процесса автоматического понимания текста (АПТ), и лингвистические ресурсы, необходимые для его компьютерной реализации. На фоне беглого изложения разных подходов к решению лингвистических проблем построения систем АПТ даются развернутые иллюстрации из авторских работ. Рассматриваются отдельные трудные участки процесса АПТ. Такой жанр обсуждения с читателем трудностей, а не сообщения готовых истин вполне оправдан, так как в проблемной области под названием АПТ еще слишком велик разброс мнений по ее ключевым проблемам: так, не сформировалось единого взгляда на природу метаязыка (интерлингвы), на котором желательно представлять содержание любого текста; не определен статус баз знаний; нет согласия в том, что считать собственно семантическим компонентом понимания и где границы его компетенции, и т.д.
В книге представлен авторский взгляд на состав и роль семантического компонента как наиболее содержательного участка компьютерного понимания, определяющего функции всех остальных. Опыт преподавания различных прикладных дисциплин на отделениях структурной и прикладной лингвистики (курс «Информатика» на факультете совершенствования переводчиков МГПИИЯ, основные и спецкурсы в РГГУ и МГУ по прикладной семантике, информационному анализу текста, системам генерации текстов, словарям для систем АПТ и др.) убедил автора в том, что студентов интересуют не столько уже реализованные системы (индексирования, поиска, морфологического анализа, коррекции ошибок и т.п.), сколько вопросы о том, как повысить уровень понимания текстов в прикладных системах. При тестировании программ синтаксического анализа после ввода фраз типа Дети пойти в школу студенты быстро переходят к очень сложным примерам, нащупывая слабые места парсинга (синтаксического анализатора) или системы машинного перевода. Им мало интересен вывод Петя поглощает яблоки —» (значит) Мальчик ест фрукты, а ведь даже такие простые выводы требуют введения сложных семантических данных в систему АПТ.
Однако можно задать множество тонкостей и деталей своей (лингвистической или переводческой) науке, но не владеть искусством синтеза этих знаний в практических компьютерных задачах из-за отсутствия цельного взгляда на комплекс проблем, связанных с содержательной обработкой «живых» текстов и массивов. Поэтому пособие адресовано в основном тем из студентов, лингвистов и программистов, кто ищет новые интересные решения трудных семантических проблем, а тем более возможности их реализации. Не последняя задача данного учебного пособия — вызвать интерес молодых специалистов к гибкому включению лингвистической теории в проектирование компьютерных интеллектуальных систем.
Структура книги. В главе 1 обосновывается теоретическая модель, которая легла в основу учебной экспериментальной системы ПОЛИТЕКСТ.
Стержень, на котором держатся излагаемые частные решения, — это идея «мягкого» понимания текста. Коротко, она выражается в том, что один и тот же текст допускает разные результаты понимания в зависимости от разных условий и составляющих процесса понимания. Лингвистический характер системы и всех ее механизмов состоит в том, что мы всегда имеем дело со сравнением и преобразованием текстов и текстовых структур.
Совокупность «текстов» (в широком смысле, включая тезаурусы и списки, текст либо структуру вопроса и лексикон баз данных), вовлеченных в сеанс получения информации из заданного источника, образует информационное пространство (ИнфПрост) текста. Минимальный состав ИнфПрост — сам анализируемый текст и «встречный» текст (например, текст вопроса), в единицах которого должны пониматься исходный текст и строиться информация.
Каждый уровень понимания имеет свою сферу действия и вычленяет специфические для данного уровня единицы.