О некоторых лингво-математических закономерностях детской речи. Часть №2.

О некоторых лингво-математических закономерностях детской речи. Часть №1.

Закон диверсификации

Данный закон рассматривает формальное или функционально-семантическое дифференцирование языковой единицы. Различные формы выражения единицы (диверсификация на уровне выражения) или функционально-семантические значения единицы проявляются согласно языковому закону, сформулированному Альтманом[1]. Примером данного закона может служить распределение частей речи в тексте. Этот закон позволяет сравнить/обобщить большой эмпирический материал по представленности слов различных частей речи в детских текстах.

TTR (TYPE — TOKEN — RATIO)

Отношение числа различных слов (типов) к общему числу слов (токенов) — TTR — текста является одним из количественных параметров, использующихся для измерения лексического разнообразия текста или жанра (чем больше типов при одинаковом или почти одинаковом числе токенов в тексте, тем больше значение TTR как индикатора лексического разнообразия). Так, TTR помогает получить представление о степени сложности текста, плотности слов (чем больше новых слов, тем плотнее или сложнее текст)[2]. Степень сложности текста можно определить, зная прирост новых типов на каждые сто токенов текста. Так, например, если на первые сто токенов ребенок употребляет 76 типов, 53 — на вторые сто токенов, 33 — на третьи, то, сложив эти числа и отметив суммы на графике, получим определенную кривую. Чем «круче» кривая, тем сложнее текст, особенно для более слабых учеников, и тем интереснее он для учащихся. Этот параметр также может использоваться в методике: задачей методики будет, вероятно, выяснение того, где лежит золотая середина между легкостью текстов, предлагаемых детям в различных целях, и их увлекательностью.

Коэффициент повторяемости слов текста (отношение токенов к типам) решает практически те же задачи. Как и TTR, он позволяет сделать вывод о знаниях лексики у автора текста: чем больше слов повторяется, тем больше оснований сделать вывод о слабом развитии активного словаря автора. Кроме того, TTR предоставляет в распоряжение исследователя фактически список использованных словоформ. Имея такие списки, составленные на основе текстов разных авторов, можно сделать вывод о разнице в овладении ими лексикой определенной тематической области.

Прирост числа новых слов по отношению к актуальной длине текста можно представить в виде монотонно возрастающей функции. Правильность поведения TTR проистекает определенным образом из коммуникативных потребностей человека. Избежать больших колебаний в поведении кривой TTR можно, применяя средние значения TTR или прологарифмированные значения TTR.

Значение TTR зависит от наблюдаемого общего числа слов в тексте: границы значений TTR определяются тем, что число токенов практически безгранично, число же типов, напротив, ограничено, и увеличение числа типов не зависит напрямую от числа токенов. Это представляет определенную трудность при статистической обработке результатов, которая обычно преодолевается тем, что длинный текст делится на ряд частей одинаковой длины, и для каждой из них коэффициент высчитывается заново (8).

При последовательном пошаговом анализе текста (кумулятивный подход) в начале текста при сравнительно малом шаге TTR равно единице и уменьшается с увеличением общего количества слов, причем скорость уменьшения TTR пропорциональна увеличению количества слов. Причиной этого является тот факт, что при кумулятивном подходе в начале текста появляется сравнительно больше новых слов, чем в дальнейших частях текста, в которых лишь немногие слова не встречались ранее (9). Кумулятивный подход дает описание развития разнообразия слов текста и позволяет предсказать, ожидается ли увеличение разнообразия слов при выходе за границы сегмента. При раздельном подсчете TTR для сегментов текста становится возможным сравнение данной величины для частей текста, превышающих по размерам сегмент. При этом особый интерес вызывает, например, вариативность измерений от сегмента к сегменту.
Поскольку поведение кривой TTR различно для разных текстов, этот индекс рассматривается как характеристика, помогающая различать тексты различных видов (жанров).

Упомянем некоторые работы, посвященные исследованию TTR. Г. Альтман и К.-Р. Вагнер (3) подчеркивают, что детская речь есть особый вид речи, отличающийся от других речевых жанров специфическими чертами, например, эмоциональностью, выражающейся в употреблении междометий, в интонации; синтаксическими особенностями (неполные или неоправданно длинные предложения), недостаточностью лексики (повторы), логическими разрывами между частями текстов[3]. Тем не менее и для детской речи действуют определенные языковые закономерности, одной из которых является соотношение TTR. Ими было показано, что TTR действительно не только для слов, но и для других языковых единиц, например, для речевых актов[4], причем в этом случае прирост новых речевых актов идет быстрее, чем это было в случае со словами. Возможными причинами этого является то, что: 1) речевые акты являются более адекватными единицами для анализа, чем словоформы; 2) исследуемый текст являлся полилогом, в котором участвовали двое детей и двое взрослых; 3) разговор детей богаче речевыми актами, чем словами.

В другом исследовании (9) указывается, что TTR детских устных текстов меньше, чем для письменных текстов (для сравнения были взяты книга по химии, книга для детей). Было отмечено также, что поведение кривой TTR при кумулятивном подходе четко показывает различия языкового употребления разных детей. Но вопрос о том, может ли это явление объясняться возрастными особенностями детей, нуждается в дальнейших исследованиях.

X. Хессе и Б. Хессе (8) рассматривают TTR по сравнению с данными по частотности употребления тех или иных словоформ. Так, лишь очень немногие словоформы встречаются в тексте очень часто, однако именно они составляют большую часть токенов. В разных текстах эти словоформы в общем одни и те же.

Все вышесказанное обусловило наш интерес к аналогичным исследованиям текстов, составленных детьми на русском языке. Собранный нами материал представляет собой более 200 детских рассказов на тему «Интересный/забавный/ грустный случай в твоей жизни» (1623 предложения, более 14000 словоупотреблений).

TTR может быть представлена в виде функции y = xa, где x и y — переменные (токены и типы, соответственно), а a является параметром, показывающим степень отклонения TTR от прямой.

Ниже приведен пример отображения TTR-зависимости на графике.

О некоторых лингво-математических закономерностях детской речи. Часть №2.

Нами были сведены вместе значения токенов, типов и a для всех собранных нами текстов, после чего были получены средние арифметические значения a для возрастных групп (см. табл. 1):

О некоторых лингво-математических закономерностях детской речи. Часть №2.
Затем было определено стандартное отклонение и проделан тест x2[6]. Не было обнаружено никаких отклонений, превышающих стандартное. Это означает, что полученные значения являются зависимыми от возраста и, следовательно, могут быть использованы в качестве характеристики детского стиля письменной речи.

Результаты сравнения полученных данных с данными для текстов, взятых из книги для чтения (I класс)

Для сравнения нами были взяты рассказ Н. Носова «Заплатка» (1-я часть) и рассказ Л.Н. Толстого «Отец и сыновья»[5]. Значения a для этих текстов равны соответственно 0,9598 и 0,9476. Как видно, результаты, полученные из текстов 7-леток, ближе к значению a первого текста, результаты из текстов 8-леток — к значению a второго текста (читаемого в конце учебного года). Иначе говоря, характер развития детской речи соответствует тенденциям, заложенным в книги для чтения. Это позволяет математически подтвердить факт влияния школы на речевое развитие детей.

О некоторых лингво-математических закономерностях детской речи. Часть №3.


[1] Цит. по K.-H. Best. Quantitative Linguistik. Eine Annaherung. — Gottingen. — 2000. — S. 81.
[2] См. (12, 13).
[3] Текст здесь понимается как любой продукт речевой деятельности.
[4] Теория речевых актов Дж.Р. Серля подразумевает, что любой вид языкового/речевого высказывания (единицы речевого общения) понимается как действие, подразделяющееся на более мелкие акты: акт произнесения (формирование звуков, кодировка их в речь), пропозициональный акт (содержательная часть предложения, которая связана с предикацией и референтной отнесенностью), иллокутивный акт (на основе сопутствующих обстоятельств цель высказывания), перлокутивный акт (предусмотренная реакция слушателей, желаемая говорящим).
[5] См. Книга для чтения. Учебник для I класса 3-летней начальной школы. — М.: Просвещение, 1988. — С. 63-64, 270-271.
[6] См. любой справочник по статистике.

Похожие статьи:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *