Решение задачи классификации методом нейронных сетей Точность классификации: оценка уровня ошибокОценка точности классификации может проводиться при помощи кросс-проверки. Кросс-проверка (Cross-validation) - это процедура оценки точности классификации на данных из тестового множества, которое также называют кросс-проверочным множеством. Точность классификации тестового множества сравнивается с точностью классификации обучающего множества. Если классификация тестового множества дает приблизительно такие же результаты по точности, как и классификация обучающего множества, считается, что данная модель прошла кросс-проверку.Разделение на обучающее и тестовое множества осуществляется путем деления выборки в определенной пропорции, на
Решение задачи классификации методом деревьев решений Рис. 5.6.P
Решение задачи классификации методом линейной регрессииif X > 5 then grey
Процесс классификации. Использование модели Методы, применяемые для решения задач классификацииДля классификации используются различные методы. Основные из них:классификация с помощью деревьев решений;байесовская (наивная) классификация ;классификация при помощи искусственных нейронных сетей;классификация методом опорных векторов;статистические методы, в частности, линейная регрессия;классификация при помощи метода ближайшего соседа;классификация CBR-методом;классификация при помощи генетических алгоритмов.Схематическое решение задачи классификации некоторыми методами (при помощи линейной регрессии, деревьев решений и нейронных сетей) приведены - . Рис. 5.4.P
Процесс классификации. Конструирование модели Рис. 5.3.P
Процесс классификации, а именно, конструирование модели и ее использование, представлен на - . Рис. 5.2.P
Если точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен.
Использование модели: классификация новых или неизвестных значений.Оценка правильности (точности) модели.Известные значения из тестового примера сравниваются с результатами использования полученной модели.Уровень точности - процент правильно классифицированных примеров в тестовом множестве.Тестовое множество, т.е. множество, на котором тестируется построенная модель, не должно зависеть от обучающего множества.
Множество объектов базы данных в двухмерном измерениииРешение нашей задачи будет состоять в том, чтобы определить, к какому классу относится новый клиент, на рисунке обозначенный белой меткой. Процесс классификацииЦель процесса классификации состоит в том, чтобы построить модель, которая использует прогнозирующие атрибуты в качестве входных параметров и получает значение зависимого атрибута. Процесс классификации заключается в разбиении множества объектов на классы по определенному критерию.Классификатором называется некая сущность, определяющая, какому из предопределенных классов принадлежит объект по вектору признаков.Для проведения классификации с помощью математических методов необходимо иметь формальное описание объекта, которым можно оперировать, используя математический аппарат классификации. Таким описанием в нашем случае выступает база данных. Каждый объект (запись базы данных) несет информацию о некотором свойстве объекта.Набор исходных данных (или выборку данных) разбивают на два множества: обучающее и тестовое.Обучающее множество (training set) - множество, которое включает данные, использующиеся для обучения (конструирования) модели.Такое множество содержит входные и выходные (целевые) значения примеров. Выходные значения предназначены для обучения модели.Тестовое (test set) множество также содержит входные и выходные значения примеров. Здесь выходные значения используются для проверки работоспособности модели.Процесс классификации состоит из двух этапов [21]: конструирования модели и ее использования.Конструирование модели: описание множества предопределенных классов.Каждый пример набора данных относится к одному предопределенному классу.На этом этапе используется обучающее множество, на нем происходит конструирование модели.Полученная модель представлена классификационными правилами, деревом решений или математической формулой.
База данных клиентов туристического агентстваКод клиентаВозрастДоходКласс118251222100133070143212015241526252217325028194529227511040902Задача. Определить, к какому классу принадлежит новый клиент и какой из двух видов рекламных материалов ему стоит отсылать.Для наглядности представим нашу базу данных в двухмерном измерении (возраст и доход), в виде множества объектов, принадлежащих классам 1 (оранжевая метка) и 2 (серая метка). На приведены объекты из двух классов. Рис. 5.1.P
В предыдущей лекции мы кратко остановились на основных задачах Data Mining. Две из них - классификацию и кластеризацию - мы рассмотрим подробно в этой лекции. Задача классификацииКлассификация является наиболее простой и одновременно наиболее часто решаемой задачей Data Mining. Ввиду распространенности задач классификации необходимо четкое понимания сути этого понятия.Приведем несколько определений.Классификация - системное распределение изучаемых предметов, явлений, процессов по родам, видам, типам, по каким-либо существенным признакам для удобства их исследования; группировка исходных понятий и расположение их в определенном порядке, отражающем степень этого сходства.Классификация - упорядоченное по некоторому принципу множество объектов, которые имеют сходные классификационные признаки (одно или несколько свойств), выбранных для определения сходства или различия между этими объектами.Классификация требует соблюдения следующих правил:в каждом акте деления необходимо применять только одно основание;деление должно быть соразмерным, т.е. общий объем видовых понятий должен равняться объему делимого родового понятия;члены деления должны взаимно исключать друг друга, их объемы не должны перекрещиваться;деление должно быть последовательным.Различают:вспомогательную (искусственную) классификацию, которая производится по внешнему признаку и служит для придания множеству предметов (процессов, явлений) нужного порядка;естественную классификацию, которая производится по существенным признакам, характеризующим внутреннюю общность предметов и явлений. Она является результатом и важным средством научного исследования, т.к. предполагает и закрепляет результаты изучения закономерностей классифицируемых объектов.В зависимости от выбранных признаков, их сочетания и процедуры деления понятий классификация может быть:простой - деление родового понятия только по признаку и только один раз до раскрытия всех видов. Примером такой классификации является дихотомия, при которой членами деления бывают только два понятия, каждое из которых является противоречащим другому (т.е. соблюдается принцип: "А и не А");сложной - применяется для деления одного понятия по разным основаниям и синтеза таких простых делений в единое целое. Примером такой классификации является периодическая система химических элементов.Под классификацией будем понимать отнесение объектов (наблюдений, событий) к одному из заранее известных классов.Классификация - это закономерность, позволяющая делать вывод относительно определения характеристик конкретной группы. Таким образом, для проведения классификации должны присутствовать признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила).Классификация относится к стратегии обучения с учителем (supervised learning), которое также именуют контролируемым или управляемым обучением.Задачей классификации часто называют предсказание категориальной зависимой переменной (т.е. зависимой переменной, являющейся категорией) на основе выборки непрерывных и/или категориальных переменных.Например, можно предсказать, кто из клиентов фирмы является потенциальным покупателем определенного товара, а кто - нет, кто воспользуется услугой фирмы, а кто - нет, и т.д. Этот тип задач относится к задачам бинарной классификации, в них зависимая переменная может принимать только два значения (например, да или нет, 0 или 1).Другой вариант классификации возникает, если зависимая переменная может принимать значения из некоторого множества предопределенных классов. Например, когда необходимо предсказать, какую марку автомобиля захочет купить клиент. В этих случаях рассматривается множество классов для зависимой переменной.Классификация может быть одномерной (по одному признаку) и многомерной (по двум и более признакам).Многомерная классификация была разработана биологами при решении проблем дискриминации для классифицирования организмов. Одной из первых работ, посвященных этому направлению, считают работу Р. Фишера (1930 г.), в которой организмы разделялись на подвиды в зависимости от результатов измерений их физических параметров. Биология была и остается наиболее востребованной и удобной средой для разработки многомерных методов классификации.Рассмотрим задачу классификации на простом примере. Допустим, имеется база данных о клиентах туристического агентства с информацией о возрасте и доходе за месяц. Есть рекламный материал двух видов: более дорогой и комфортный отдых и более дешевый, молодежный отдых. Соответственно, определены два класса клиентов: класс 1 и класс 2. База данных приведена в .
В этой лекции подробно рассматриваются две задачи Data Mining - классификация и кластеризация. Описаны суть задач, процесс решения, методы решения, применение. Приведено сравнение двух рассмотренных задач.
Задачи Data Mining. Классификация и кластеризация: версия для печати и PDA
Интернет-Университет Информационных Технологий
INTUIT.ru::Интернет-Университет Информационных Технологий
Комментариев нет:
Отправить комментарий