Анализ данных - предмет, порожденный компьютерной революцией, приведшей к накоплению огромного количества конкретных данных о совокупностях объектов, таких как страны или регионы, веб-сайты, работодатели и работники, товары и продавцы. В отличие от классической математической статистики анализ данных не пытается вывести свойства окружающего мира исходя из специально собранных данных, а ориентирован на отыскание каких-либо паттернов, закономерностей, структуры в имеющихся данных.В данном учебнике, подготовленном на основе большого международного опыта исследований и преподавания, излагаются основные методы анализа данных, относящихся прежде всего к одному или двум изучаемым признакам. Подробно рассмотрены вопросы анализа и интерпретации связей между двумя количественными, двумя качественными, а также качественным и количественным признаками. Из многомерных методов рассмотрены наивный Бэйесовский классификатор и метод K-средних для кластерного анализа, включая "интеллектуальную" версию с автоматическим определением числа кластеров и их начального местоположения. Изложение ориентировано на людей, предпочитающих не формулы, а вычисления, и содержит большое количество иллюстративных примеров применения рассматриваемых понятий к анализу реальных данных.Для студентов бакалавриата и магистратуры инженерно-технических специальностей, также может использоваться для самостоятельного изучения.
Analiz dannykh - predmet, porozhdennyy kompyuternoy revolyutsiey, privedshey k nakopleniyu ogromnogo kolichestva konkretnykh dannykh o sovokupnostyakh obektov, takikh kak strany ili regiony, veb-sayty, rabotodateli i rabotniki, tovary i prodavtsy. V otlichie ot klassicheskoy matematicheskoy statistiki analiz dannykh ne pytaetsya vyvesti svoystva okruzhayushchego mira iskhodya iz spetsialno sobrannykh dannykh, a orientirovan na otyskanie kakikh-libo patternov, zakonomernostey, struktury v imeyushchikhsya dannykh.V dannom uchebnike, podgotovlennom na osnove bolshogo mezhdunarodnogo opyta issledovaniy i prepodavaniya, izlagayutsya osnovnye metody analiza dannykh, otnosyashchikhsya prezhde vsego k odnomu ili dvum izuchaemym priznakam. Podrobno rassmotreny voprosy analiza i interpretatsii svyazey mezhdu dvumya kolichestvennymi, dvumya kachestvennymi, a takzhe kachestvennym i kolichestvennym priznakami. Iz mnogomernykh metodov rassmotreny naivnyy Beyesovskiy klassifikator i metod K-srednikh dlya klasternogo analiza, vklyuchaya "intellektualnuyu" versiyu s avtomaticheskim opredeleniem chisla klasterov i ikh nachalnogo mestopolozheniya. Izlozhenie orientirovano na lyudey, predpochitayushchikh ne formuly, a vychisleniya, i soderzhit bolshoe kolichestvo illyustrativnykh primerov primeneniya rassmatrivaemykh ponyatiy k analizu realnykh dannykh.Dlya studentov bakalavriata i magistratury inzhenerno-tekhnicheskikh spetsialnostey, takzhe mozhet ispolzovatsya dlya samostoyatelnogo izucheniya.
This textbook deals with the analysis and interpretation of the relations between two quantitative characters, two quality traits, and qualitative and quantitative characteristics. Of the multivariate methods discussed Basovski naive classifier and the method of K-means for cluster analysis. The presentation focused on people who prefer not formulas, and computations, and contains a large number of examples of application of these concepts to the analysis of real data.