Skip to main content
big data

Руководство для начинающих по истории изучения данных

Термины big data и data mining сегодня все чаще встречаются не только в узком кругу специалистов по информационным технологиям, но и принимаются на вооружение представителями банковского сектора, розничного бизнеса и других направлений коммерческой и исследовательской деятельности. Сами по себе эти термины довольно обширные и подразумевают использование определенных методов и инструментов для обработки огромных массивов имеющейся информации с целью построения стратегии развития бизнеса, изучения поведения клиентов и тому подобное.

Мы публикуем краткий исторический экскурс в развитие науки о данных, который показывает, что рассматриваемые термины не такие уже и новые, а также объясняет причину их популярности сегодня и востребованности в будущем.

Словосочетания «big data» и «наука о данных» являются одними из самых модных слов в этом десятилетии, но в действительности они не подразумевают какой-либо сверхновой концепции. Идея о «науке о данных» охватывает множество плоскостей и медленно, но уверенно пробивает себе дорогу в мейнстрим информационных технологий. Ученые и исследователи не всегда сходятся во мнении, когда зародилась эта область знаний и какие вехи ее истории следует считать основными, но тем не менее есть несколько дат и событий, ставших поворотными для big data.

1962 год

Джон Туки написал доклад «Будущее анализа данных», который был опубликован в «Анналах математической статистики» издании, которое было основной площадкой для публикаций статистических исследований, тем самым поставив вопрос о взаимоотношении статистики и анализа данных. Вот одна из цитат автора, которая хорошо запомнилась многим увлекающимся большими данными:

«Долгое время я считал себя статистиком, заинтересованным в построении умозаключений от частного к общему. Но наблюдая за развитием математической статистики я неоднократно находил повод удивляться и сомневаться… Я пришел к пониманию того, что краеугольным интересом для меня является анализ данных, который я применял в работе среди прочих методов: процедур анализа данных, методов интерпретации результатов применения таких процедур, планирования сбора данных для упрощения последующего их анализа, повышения его точности и аккуратности».

1974 год

За Джоном Туки следует еще одно имя, хорошо известное всем энтузиастам и профессионалам в сфере «дата майнинг»Питер Наура. Он опубликовал «Краткий обзор компьютерных методов», в котором изучил методы обработки данных для широкого спектра прикладных задач. Что важно, так это тот факт, что термин data science упоминался в его работе повторно. П. Наура предложил собственную трактовку данного понятия:

«Наука о взаимодействии с данными, с момента когда они были определены, в то время как отношение данных к тому, что они собою интерпретируют, относится к другим направлениям и наукам».

Понадобится еще некоторое время, чтобы идеи П. Наура окрепли, но все же они дали ощутимый толчок развитию анализа данных.

1977 год

В этом году была основана «Международная ассоциация статистических вычислений». Миссия этой организации была сформулирована следующим образом: «объединить существующую методологию статистки, современные компьютерные технологии и знания отраслевых экспертов с целью конвертирования данных в информацию и знания». В этом же году Джон Туки опубликовал еще один важный труд «Исследовательский анализ данных». В нем он утверждал, что акцент должен быть смещен на использование данных для разработки гипотез для тестирования и что исследовательский анализ данных должен применяться бок о бок с подтверждающим анализом.

1989 год

Был проведен семинар под названием «Исследование знаний в области баз данных», который впоследствии превратился в ежегодную Конференцию ACM SIGKDD, объединяющую специалистов, занимающихся вопросами анализа данных и разработкой специальных вычислительных техник.

1994 год

Этот год становится поворотным для использования «больших данных» в маркетинге. Из публикации «Database Marketing» в журнале Business Week его читали узнали, что многие компании собирают самые различные данные о своих клиентах с целью использовать полученную информацию для проведения маркетинговых мероприятий в будущем. В то время как многие компании еще не понимали, что делать со всей накопившейся или имеющейся у них информацией, они понимали, что «маркетинг данных» наступает и им не остается ничего, кроме как храбро встречать его на всех фронтах.

1996 год

Термин «наука о данных» впервые официально появляется в Японии, на повестке дня Международной федерации организаций-классификаторов в докладе под заголовком «Наука о данных, классификация и сопутствующие методики».

1997 год

Джеф Ву опубликовал вступительную лекцию под простым и емким названием: «Статистика = Наука о данных».

1999 год

Начинают наблюдаться первые проблески расцвета отрасли «больших данных». Джейкоб Захави, упоминаемый в докладе «Интеллектуальная обработка данных с целью извлечения самородков знаний», имеет свое видение данной тематики, которое подтвердиться лишь спустя годы:

«Обычные статистические методы хорошо работают с небольшими массивами информации. Современные же базы данных могут содержать сотни миллионов строк и огромное количество столбцов. Масштабируемость таких массивов данных является весьма серьезной проблемой в интеллектуальной обработке данных. Вторым техническим вызовом является создание моделей, которые могли бы лучше анализировать данные, определять нелинейные отношения и взаимодействовать между отдельными элементами. Отдельные инструменты дата майнинга должны быть разработаны для создания и управления веб-сайтами».

2001 год

В этом году впервые была применена концепция «программного обеспечения как услуги» (SaaS)фундаментальной концепции, на основе облачных технологий. Наука о данных и методы интеллектуальной обработки массивов информации становятся локомотивом технологического прогресса и все чаще применяются в самых разных сферах жизни. Еще один ученый, который внес огромный вклад в зарождение концепции «дата майнинга» — Уильям С. Кливленд. Он был соавтором Джона Туки во многих его трудах, а также подготовил монументальный труд «Наука о данных: План действий по расширению технических отраслей для применения статистики». Кливленд выдвинул идею, что наука о данных должна быть самостоятельной отраслью и сразу предложил шесть направлений, в которых как он верил ее ждет успех:

  • многопрофильные исследования на стыке разных наук;

  • создание моделей и методов обработки данных;

  • компьютерные вычисления;

  • педагогика;

  • создание инструментов оценки;

  • теория и подтверждение гипотез.

2008 год

Авторство термина data science часто приписывают Джефу Хаммербахеру и Данураю Патилу, представлявших Facebook и LinkedIn соответственно. В процессе описания собственной деятельности и работы команды ученых под их наставничеством они предложили использовать значение data science, как наиболее точно отражавшее суть. Так родилось новое модное слово в технологической индустрии. Ах да, сейчас Д. Патил является главным специалистом по обработке данных в Управлении технологической и научной политики Белого дома.

2010 год

Термин «data science» прочно вошел в обиход. Всего за год — с 2011 по 2012 год количество вакансий, так или иначе связанных с «data science» возросло на 15 000% (!). По всему миру резко возросло количество проводимых конференций и семинаров, посвященных исключительно таким темам, как data mining и data science. Наука о данных стала не только сверх популярной, но и высокоразвитой отраслью, несущей огромную ценность и потенциал для других направлений деятельности человека.

2013 год

Выражаясь фигурально, можно сказать что именно в этом году данные уж точно стала большими. Компания IBM продемонстрировала статистику о том, что 90% имеющейся в мире информации было создано за последние два года (!).

2016 год

Год только начался, но уже появилось множество прогнозов относительно науки о данных и интеллектуальной их обработки в перспективе. Наука о данных стала неотъемлемой частью машинного обучения и вскоре будет активно развиваться такая концепция, как Deep Learning – целые наборы алгоритмов машинного обучения для моделирования высокоуровневых абстракций. В дальнейшем это открывает широкие перспективы для изучения и обработки огромных баз данных даже неспециалистами.

Источник

Добавить комментарий

Ваш e-mail не будет опубликован.