Статистические методы анализа лексики

Содержание:

Сладкий Рай-продажа тортов на заказ недорого.

Главная » Общее языкознание » Структура языка » Структура плана содержания. Лексикология » Статистические методы анализа лексики

Статистические методы анализа лексики

Одной из наиболее важных характеристик лексики является то, что она представляет собой статистически организованную структуру. Вероятностные характеристики слова проявляются в неодинаковой частотности их в речи, в многообразных видах лексических связей, обычно разных по своей силе (по интенсивности проявления). Между частотой слова в речи (тексте) и его порядковым номером расположения (рангом) в частотном словаре существует статистическая зависимость, выражаемая формулой Ципфа где г — ранг слова в частотном словаре; / — частотность слова в тексте; с — постоянная величина. На основании закономерности, выражаемой этой формулой, устанавливается статистическая структура текстов на естественном языке, определяется зависимость между длиной текста и объемом словника, мера покрываемости текста самыми частыми словами и т. д. (Фрумкина 1964).

Данные о статистическом распределении слов в языке фиксируются в частотных словарях, которые созданы для многих языков, в том числе для русского и белорусского.

Между частотными и содержательными характеристиками лексических единиц существует закономерная связь. Установлено, например, что самые частотные слова в естественном языке, как правило, являются наиболее краткими, наиболее древними, наиболее простыми по морфологической структуре, наиболее многозначными (см. об этом: Общее языкознание 1976: 44—63).

Статистические методы все шире используются для изучения характера семантических связей между словами. Так, например, установлено, что слова, часто встречающиеся вместе в определенном отрезке текста, теснее связаны между собой по смыслу, чем слова, реже появляющиеся рядом в этом же отрезке текста. Эта особенность позволяет объективно измерять степень связи слов по тем их семантическим свойствам, которые реализуются при употреблении слов в текстах, и тем самым вскрывать устройство лексической системы без обращения к системности экстралингвистических реалий, которые обозначены рассматриваемыми словами.

Статистические методы помогают вскрыть закономерности распределения лексических единиц как массового явления и установить, случайный или неслучайный характер носят эти распределения. С помощью количественных методов устанавливается абсолютная частога фиксируемых лексических единиц в интересующих нас текстах; в свою очередь, частотой характеризуются вероятностные свойства слов как языковых единиц.

Количественные и статистические методы достаточно широко используются в сочетании с описательными, психолингвистическими и другими методами, поскольку часто качественные различия между словами носят не строго логический характер, а представлены в виде неодинаковой интенсивности (степени проявления данного качества), что наиболее точно можно выразить с помощью количественных показателей. Установление частотных характеристик слова имеет, например, немаловажное значение при создании учебников тех или иных языков, ибо известно, что 1000 самых частых слов любого языка покрывает до 85 % текстов, написанных на этом языке. Естественно, что такие самые частые слова должны включаться в учебники в первую очередь.

Количественные данные могут быть использованы в качестве критерия для выбора нормы в случаях существования в языке нескольких вариантов употребления того или иного лексического явления. При этом очевидно, что более часто используемые варианты предпочтительнее для рекомендации в качестве нормы. С помощью количественного анализа лексики можно дифференцировать литературные тексты с точки зрения их содержания (Головин 1971).

Страницы: 1 | 2 Далее >>

Одежда, обувь, игрушки, товары для детей - отзывы о нас не врут lego star wars kinderly.ru

Лингвистика

Содержание:

Статистические методы анализа лексики

____________

Рубрики