CRISP-DM

CRISP-DM (англ. Cross-Industry Standard Process for Data Mining[1]) — наиболее распространённая[2][3][4] методология по исследованию данных.

Модель жизненного цикла исследования данных в методологии состоит из шести фаз, а стрелки обозначают наиболее важные и частые зависимости между фазами. Последовательность этих фаз строго не определена. Как правило в большинстве проектов приходится возвращаться к предыдущим этапам, а затем снова двигаться вперед[5].

Первая версия этой методологии была представлена на четвёртом по счёту мероприятии CRISP-DM SIG Workshop в Брюсселе в марте 1999 года[6], а пошаговая инструкция была опубликована годом позже[7].

Жизненный цикл исследования данных

Фазы цикла исследования данных:

  1. Понимание бизнес-целей (Business Understanding)
  2. Начальное изучение данных (Data Understanding)
  3. Подготовка данных (Data Preparation)
  4. Моделирование (Modeling)
  5. Оценка (Evaluation)
  6. Внедрение (Deployment)

Последовательность фаз не является строгой и перемещается вперед и назад между различными фазами, как это всегда требуется. Стрелки на диаграмме процесса указывают на наиболее важные и частые зависимости между фазами. Внешний круг на диаграмме символизирует циклический характер самого интеллектуального анализа данных. Процесс интеллектуального анализа данных продолжается после развертывания решения. Уроки, извлеченные в ходе процесса, могут вызвать новые, часто более целенаправленные бизнес-вопросы, а последующие процессы интеллектуального анализа данных извлекут пользу из опыта предыдущих.

Примечания

  1. Shearer C., The CRISP-DM model: the new blueprint for data mining, J Data Warehousing (2000); 5:13—22.
  2. Poll: What main methodology are you using for data mining? www.kdnuggets.com. Дата обращения: 14 сентября 2016. Архивировано 16 января 2017 года.
  3. Poll: Data Mining Methodology. www.kdnuggets.com. Дата обращения: 14 сентября 2016. Архивировано 8 февраля 2017 года.
  4. What main methodology are you using for your analytics, data mining, or data science projects? Poll. www.kdnuggets.com. Дата обращения: 14 сентября 2016. Архивировано 1 августа 2016 года.
  5. Óscar Marbán, Gonzalo Mariscal and Javier Segovia (2009); A Data Mining & Knowledge Discovery Process Model Архивная копия от 30 апреля 2013 на Wayback Machine. In Data Mining and Knowledge Discovery in Real Life Applications, Book edited by: Julio Ponce and Adem Karahoca, ISBN 978-3-902613-53-0, pp. 438—453, February 2009, I-Tech, Vienna, Austria.
  6. Pete Chapman (1999); The CRISP-DM User Guide Архивная копия от 14 июля 2015 на Wayback Machine.
  7. Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer, and Rüdiger Wirth (2000); CRISP-DM 1.0 Step-by-step data mining guide (недоступная ссылка).

Ссылки

Content Disclaimer

Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.

  1. The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
  2. There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
  3. It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
  4. Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
  5. Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.