В настоящей книге излагается новый подход к решению некоторых задач математической лингвистики, основанный на использовании кинетических уравнений, описывающих эволюцию выборочных функций распределения текста по буквам. Этот подход сочетает в себе методы традиционной математической статистики и статистической механики, модифицированные для применения их к нестационарным временным рядам, каковыми являются последовательности букв в тексте.Центральной задачей, решаемой в данной работе, является идентификация автора и жанра "условно неизвестного" литературного текста в библиотеке известных текстов. Построен высокоточный метод идентификации, использующий функционал близости текстов как распределений пар букв в определенной норме.Анализируются также статистические свойства распространенных европейских языков. Для них установлено полуэмпирическое распределение алфавитных символов по частоте встречаемости, которое оказалось зависящим от двух параметров --- количества букв в алфавите данного языка и их соответствия звуковому ряду. Рассмотрены конкретные примеры статистического решения некоторых спорных вопросов об авторстве того или иного текста.Книга будет полезна лингвистам и литературоведам, а также математикам, специализирующимся в области прикладной математической статистики.
V nastoyashchey knige izlagaetsya novyy podkhod k resheniyu nekotorykh zadach matematicheskoy lingvistiki, osnovannyy na ispolzovanii kineticheskikh uravneniy, opisyvayushchikh evolyutsiyu vyborochnykh funktsiy raspredeleniya teksta po bukvam. Etot podkhod sochetaet v sebe metody traditsionnoy matematicheskoy statistiki i statisticheskoy mekhaniki, modifitsirovannye dlya primeneniya ikh k nestatsionarnym vremennym ryadam, kakovymi yavlyayutsya posledovatelnosti bukv v tekste.TSentralnoy zadachey, reshaemoy v dannoy rabote, yavlyaetsya identifikatsiya avtora i zhanra "uslovno neizvestnogo" literaturnogo teksta v biblioteke izvestnykh tekstov. Postroen vysokotochnyy metod identifikatsii, ispolzuyushchiy funktsional blizosti tekstov kak raspredeleniy par bukv v opredelennoy norme.Analiziruyutsya takzhe statisticheskie svoystva rasprostranennykh evropeyskikh yazykov. Dlya nikh ustanovleno poluempiricheskoe raspredelenie alfavitnykh simvolov po chastote vstrechaemosti, kotoroe okazalos zavisyashchim ot dvukh parametrov --- kolichestva bukv v alfavite dannogo yazyka i ikh sootvetstviya zvukovomu ryadu. Rassmotreny konkretnye primery statisticheskogo resheniya nekotorykh spornykh voprosov ob avtorstve togo ili inogo teksta.Kniga budet polezna lingvistam i literaturovedam, a takzhe matematikam, spetsializiruyushchimsya v oblasti prikladnoy matematicheskoy statistiki.