Базы данных - MySQL - статьи


Создание модели добычи данных


Процесс создания, обучения и тестирования модели - самая трудная часть создания приложения. На самом деле, создание самого приложения - это простое программирование, мы обсудим это далее в этом документе. Перед тем, как вы начнете создавать модель добычи данных, вы должны собрать ваши данные, скорее всего в хранилище данных, и почистить их. SQL Server 2005 Data Mining может извлекать данные как из реляционной базы данных, так и из кубов Analysis Services.

Наилучшей фигурой для разработки модели добычи данных является сотрудник со знаниями как бизнеса, так и информационных технологий. Разработчику модели поможет знание статистики, понимание ключевых задач бизнеса, с которыми сталкивается предприятие, знание данных и взаимосвязей между ними, а также умение работать с инструментами SQL Server 2005 для манипулирования данными и их сохранения. Таким человеком скорее всего окажется член команды, работающей с хранилищем данных.

Как новичок в области добычи данных, приготовьтесь потратить несколько недель на то, чтобы разобраться с данными, инструментами и альтернативными алгоритмами во время создания прототипа модели. Используйте сервер разработки, на котором у вас будут права администратора базы данных. Начальные этапы создания модели являются исследовательскими - вероятно, вы захотите реструктурировать ваши данные и поэкспериментировать с разными подходами. Также вы скорее всего захотите в начале работать с небольшим набором данных, увеличивая набор данных по мере того, как начнете яснее видеть дизайн модели. В фазе прототипирования не беспокойтесь о создании "промышленного" приложения. Используйте Integration Services или другие инструменты, которые вам наиболее удобны, для выполнения необходимых манипуляций с данными. Ведите журнал с указанием всех необходимых изменений, но не ждите, что все, что вы сделаете, станет частью рабочего приложения.

Вам нужно будет приготовить два набора данных, один для разработки моделей и один для тестирования точности моделей, для того, чтобы выбрать лучшую модель для решения вашей бизнес-задачи. Когда вы будете решать, как выделить набор данных из всех данных, убедитесь, что данные выбираются непредвзято. Например, выбирайте каждого десятого покупателя или выделите набор данных, ориентируясь по первому символу фамилии, или по любому другому атрибуту.




- Начало -  - Назад -  - Вперед -