Что такое управление данными? Основная концепция управления данными.

  • Дата: 01.03.2024

Управление данными – основа администрирования БД.

Основная концепция управления данными.

Организация управления данными.

Администрирование БД.

Заключение.

Управление данными – основа администрирования базами данных

Управление данными включает в себя процессы переработки данных, начиная от сбора данных и заканчивая их архивацией и доведением до пользователей. При этом рассматриваются как технологические, так и организационные вопросы сбора, обработки данных. Администрирование БД – это компонент управления данными, связанный с СУБД.

Управление данными можно рассматривать на уровне источника данных, центра данных, проекта (программы). Каждый уровень может включать предыдущие уровни управления данными. Например, управление данными на уровне центра обязательно включает сбор данных от источников данных. Крупная научная программа может включать несколько экспериментов, каждый из которых может иметь свой план управления данными.

План управления данными – это организационный документ, в котором определены все этапы переработки данных, а также средства их реализации.

Целями создания плана управления данными является улучшение сбора, доступа и использования информации; развитие БД; стандартизация процедур сбора и обмена данными.

Основная концепция управления данными

Создание плана управления данными должно учитывать долгопериодные решения по

    развитию и стандартизации общих технологий сбора и обмена данными, позволяющих уменьшить временной лаг между сбором и доступом к данным;

    увеличению кооперации при сборе, архивации, обработке и картированию данных;

    созданию распределенных БД;

    объединению новых и исторических данных для получения соответствующих временных рядов;

    совместимости БД за счет использования общих протоколов форматирования и контроля качества для отдельных дисциплин;

    доступу к архивным данным.

Методология управления данными должна быть основана на применении наиболее эффективных средств:

    создания многоуровневых каталогов данных;

    использования каталогов для поиска и оценки дубликатов;

    поиска и обмена данными;

    конвертирования данных в общие форматы;

    контроля данными на различных этапах переработки данных;

    создания новых методов обработки данных;

    доступ к данным на компактных дисках, Интернет и др.

План управления данными способствует лучшему пониманию всеми участниками проекта, объединения научных интересов, общественных потребностей и правовых вопросов. Управление данными начинается с проектирования измерительной программы экспедиции или проекта, создания БД и заканчивается доступом пользователей к качественно проконтролированным и хорошо задокументированным БД. План управления данными должен быть ключевым элементом всех крупных проектов и программ. План управления данными поможет максимизировать возврат инвестиций, сделанных в проект с помощью финансирования для целей всестороннего использования получаемых данных, т.е. план управления данными есть механизм распространения и использования результатов проекта, специальная активность, выполняемая в рамках национальной и международной или корпоративной политики, основанной на лучшей практике обработки данных.

Этот план должен описывать работу, технологические требования и соответствующие результаты в проектировании измерительной активности, отчетности по сбору данных, документировании, контроле качества и создании БД, доступа к данным.

Одной из главных задач любого проекта, а особенно центра данных, является создание баз метаданных. Общие подходы в управлении данными позволяют получить пользу как специалистам, работающим в этих проектах, так и обществу в целом (более быстрое использование данных); сделать эффективнее использование большинства источников данных; хорошо задокументировать и проконтролировать данные, предназначенные для общего использования по окончании проекта.

Адекватное управление данными определяется возможностями национальных организаций политическими аспектами, техническими проблемами, условиями финансирования проектов, хорошей координацией всех участников проекта, наличием соответствующего квалифицированного штата.

  • DFSMSdfp (data facility product) - базовый элемент z/OS, реализующий основные функции управления данными и устройствами хранения данных, включая распределение внешней памяти, организацию доступа к данным, поддержку операций над наборами данных, ведение каталогов наборов данных.
  • DFSMSdss ( data set service) - средства администрирования данных и устройств внешней памяти на магнитных дисках (резервное копирование, восстановление, дефрагментация );
  • DFSMShsm ( hierarchical storage manager ) - средства оптимизации хранения наборов данных на различных носителях в зависимости от интенсивности использования и обеспечения сохранности данных;
  • DFSMSrmm ( removable media manager) - средства управления сменными носителями (ленточные и оптические устройства);
  • DFSMStvs (transactional VSAM service) - поддержка параллельной обработки наборов данных VSAM для пакетных заданий и транзакций CICS .

Последние четыре модуля являются опциональными.

В z/OS реализованы и параллельно существуют две различные технологии управления данными, условно называемые MVS и SMS . Технология MVS (иногда говорят non-SMS ) базируется на применении классических возможностей и методов управления данными, основы которых были заложены еще в OS/360 . Главной особенностью данной технологии является непосредственный контроль пользователя над параметрами распределения наборов данных во внешней памяти при их создании. Технология SMS (от System Managed Storage ) представляет собой программную надстройку, обеспечивающую комплексное автоматизированное управление наборами данных, включая их создание, размещение и администрирование на основе специально определяемых классов данных. Каждому такому классу приписывается фиксированный набор атрибутов, включая устройство размещения (том), объем выделяемой памяти, характеристики набора данных (тип, структура), параметры обслуживания и защиты и т.п. Использование технологии SMS требует особой системной настройки и специальным образом сконфигурированных томов внешней памяти.

В данном разделе вначале будут представлены базовые понятия и средства, реализованные в технологии MVS , а затем описаны особенности технологии SMS .

Характеристика наборов данных

Операционная система z/OS поддерживает работу с наборами данных, различающимися по типу логической организации: последовательными, индексно-последовательными, прямого доступа, библиотечными ( PDS и PDSE), наборами данных, использующими метод доступа на основе виртуальной памяти ( VSAM ), а также наборами данных файловой системы UNIX ( HFS , zFS) [ 5.11 ] . Для поддержки наборов данных различных типов в составе DFSMSdfp представлены компоненты, получившие название методы доступа и описанные в п. 5.1.3. Каждый метод доступа ориентирован на работу с наборами данных определенного типа и обеспечивает поддержку необходимых операций для организации ввода-вывода.

Операционная система z/OS обеспечивает обработку наборов данных на уровне логических записей и блоков . Это означает, что набор данных представляется в виде совокупности логических записей, а приложения получают доступ к логическим записям и обрабатывают их как единое целое. В то же время обмен данными между периферийными устройствами и основной памятью (ввод-вывод) осуществляется блоками (или физическими записями). В блоке объединяется некоторое количество логических записей. Таким образом, для каждого набора данных необходимо установить согласованные размеры логических записей и блоков.

В z/OS поддерживаются три формата логических записей: записи фиксированной длины, записи переменной длины, записи неопределенной длины. Записи фиксированной длины имеют постоянный размер и в языке управления заданиями идентифицируются символами F или FB в зависимости от выбранного способа блокирования записей:

  • F - в каждом блоке содержится только одна логическая запись ;
  • FB - каждом блоке может содержаться более одной логической записи.

Записи переменной длины могут иметь различный размер внутри одного набора данных, поэтому помимо данных они включают в себя дополнительное поле ( дескриптор ), где указывается длина текущей записи. Используемый для обозначения записей переменной длины идентификатор V означает, что в каждом блоке содержится только одна логическая запись , включая дескриптор записи. Идентификатор VB применяется в тех случаях, если в каждом блоке может содержаться более одной логической записи, при этом для каждого блока дополнительно формируется дескриптор , содержащий длину блока .

Записи неопределенной длины ( идентификатор U ) характеризуются только размером блока и не содержат никакой информации о делении на логические записи.

Каждый набор данных характеризуется уникальным именем. Имена бывают простые и составные. Простое имя может содержать не более 8 символов (латинские буквы A-Z, цифры 0-9, спецсимволы #,@,$,-), причем первым символом имени не может быть цифра. Например, РАRTS01 , B1934-1 , $$$$A .

Составное имя набора данных складывается из нескольких простых, разделенных символом "." ("точка"). Например, D.USER1. JCL , А.VERY.LONG. DATASET .NАМЕ , $PARTS.DАTА2 .

Максимальная длина составного имени - 44 символа, включая разделительные точки.

Простые имена в составном имени принято называть квалификаторами .

Далее будут рассмотрены основные типы организации наборов данных, за исключением индексно-последовательных и наборов данных прямого доступа (не рекомендованы IBM к использованию как устаревшие) и HFS (будут рассмотрены в п. 5.1.6).

Последовательные наборы данных

Последовательные наборы данных ( Physical Sequential , PS) рассматриваются как совокупность логических записей, которые обрабатываются в том порядке, в каком они были помещены в набор данных (т.е. последовательно). Корректировка последовательного набора данных возможна либо путем полной перезаписи всей информации, либо путем добавления новых логических записей в конец набора данных. Последовательные наборы данных используются чаще всего для хранения относительно больших объемов информации (отчетов о выполненных заданиях, журналов сеанса и т.д.) на любых типах устройств внешней памяти. Причем на ленточных накопителях могут использоваться исключительно последовательные наборы данных. Для обработки последовательных наборов данных в z/OS поддерживается два метода доступа: "базисный"

Данные являются одним из важнейших видов активов, которыми необходимо управлять для того, чтобы эффективно развивать, предоставлять и поддерживать услуги ИТ.

Управление Данными/ Управление Информацией (Data/Information Management) – это все относящееся к тому, как организация планирует, собирает, создает, организует, использует, контролирует, распространяет и избавляется от своих данных (информации), это относится к структурированным и неструктурированным данным. Управление данными гарантирует, что ценность данных/информации выявлена и используется, как для поддержки внутренней деятельности, так и для повышения стоимости бизнес-процессов, обслуживающих клиентов.

В этой области широко используются термины: «Управление данными», «Управление информацией» и «Управление информационными ресурсами». В рамках настоящей публикации, используется термин «Управление данными» в качестве условного обозначения всех трех вышеприведенных.

Роль Управления данными состоит не просто в управлении сырыми данными; она в управлении всеми контекстуальными метаданными - дополнительными «данными о данных», - что идут с ними, а при добавлении к необработанным данным дают «информацию» или «данные в контексте» («data in context»).

Данные, как основа для информации организации, имеют все необходимые атрибуты, чтобы рассматриваться в качестве актива или ресурса (asset or resource). Например, данные важны для «достижения бизнес-целей и успешной повседневной работы организации». Кроме того, они могут быть «получены и сохранены в организации, но только с финансовыми затратами». Наконец, возможно, наряду с другими ресурсами / активами, будут использованы для «дальнейшего достижения целей организации».

Ключевые факторы успешного Управления данными следующие:

Все пользователи имеют доступ через различные каналы к информации, необходимой для выполнения своей работы;
Ценные данные полностью эксплуатируются, путем совместного использования (data sharing) данных в пределах организации и с другими организациями;
Качество данных организации сохраняется на приемлемом уровне и информация, используемая в бизнесе, является точной, надежной и последовательной;
Юридические требования к защите неприкосновенности частной информации, безопасности, конфиденциальности и целостности данных соблюдаются;
Организация обеспечивает высокий уровень эффективности и результативности в деятельности по обработке данных и информации;
Модель данных предприятия определяет наиболее важные сущности и их связи - это поможет избежать избыточности и ухудшения архитектуры, которая и без того меняется с годами.

Управление активами данных (Managing data assets). Если нет эффективного Управления данными, то:

Люди поддерживают и собирают данные, которые не нужны;
Организация может иметь историческую информацию, которая не используется;
Организация может хранить много данных, которые доступны потенциальным пользователям;
Информация может предоставляться большему числу людей, чем необходимо, или не тем, кому она необходима;
Организация может использовать неэффективные и устаревшие методы сбора, анализа, хранения и извлечения данных;
Организация может не справиться со сбором необходимых данных, уменьшить качество и потерять целостность данных, например, между связанными источниками данных.

Кроме того, трудно ответить на вопрос: «действительно ли информация получена из данных хорошего качества?», потому что нет показателей для сравнения. Например, низкое качество данных зачастую возникает из-за плохих проверок в процедурах ввода и/или обновления. После ввода неточных или неполных данных в ИТ-системах, любые отчеты, полученные с использованием этих данных будут отражать эти неточности и пробелы.

Также может быть отсутствие согласованности информации, генерируемой различными оперативными и прочими многочисленными внутренними системами, созданными и используемыми, потому что центральным данным не доверяют.

Одним из путей повышения качества данных, является использование процесса Управления данными (Data Management process), который устанавливает политику и стандарты, предоставляет экспертизу и облегчает обработку аспектов, связанных с данными для новых услуг.

Это должно обеспечить полный Data/Information Asset Management:

Увеличить ценность услуг, предоставляемых клиентам;
Снизить риски в бизнесе;
Сократить расходы на бизнес-процессы;
Стимулировать инновации во внутренние бизнес-процессы.

Область охвата Управления данными (Scope of Data Management)

Существуют четыре области менеджмента, включенных в область действия Управления данными/информацией(Data/Information Management):

Управление информационными ресурсами (Management of data resources): governance информацией в организации должны обеспечить, чтобы все эти ресурсы были известны и были назначены ответственные лица для управления ими, в том числе владельцы данных (ownership) и метаданных.

Этот процесс обычно упоминается как администрирование данных (data administration) и включает ответственность за:

Определение потребности в информации;
- Построение реестра данных (data inventory) и модели данных предприятия;
- Выявление дублирования и недостатков данных;
- Поддержку каталога/индекса информационного контента (data/information content);
- Измерение затрат и ценности данных организации.

Управление технологиями данных/информации (Management of data/information technology): управление подразделением ИТ, поддерживающим информационные системы организации, что включает в себя такие процессы, как проектирование баз данных и управления базами данных. Этими аспектами обычно занимаются специалисты подразделения ИТ.

Управление информационными процессами (Management of information processes): бизнес-процессы приводят услуги ИТ к использованию тех или иных данных. Процессы создания, сбора, доступа, модификации, хранения, удаления и архивирования данных - то есть процессы жизненного цикла данные, - должны быть надлежащим образом контролируемыми, часто совместно с процессом управления приложениями.

Управление стандартами и политикой данных (Management of data standards and policies): организация должна определить стандарты и политику в области Управления данными (Data Management), как элемент стратегии развития ИТ. Эта политика будет регулировать процедуры и ответственности по Управлению данными в организации, техническую политику, архитектуру и стандарты, которые будут применяться к ИТ-инфраструктуре, поддерживающей информационные системы организации.

Область действия процесса Управления данными (согласно best practices) включает в себя управление неструктурированными данными, которые не содержатся в обычных системах баз данных - например, использующие такие форматы, как текст, изображение и звук. Процесс Управления данными также отвечает за обеспечение качества на всех этапах жизненного цикла данных, от сбора требований до окончания эксплуатации. Основное внимание в этой публикации будет сосредоточено на роле Управления данными в фазах сбора требований, проектирования и разработки активов и на жизненном цикле сервиса (Service Lifecycle).

Команда, поддерживающая процесс Управления данными, может также предоставлять службу поддержки бизнес-информации. В этом случае они в состоянии отвечать на вопросы о значении, формате и возможности использования данных внутри организации, потому что они управляют метаданными. Они также в состоянии понять и объяснить, какие внешние данные могут быть необходимы для выполнения необходимых бизнес-процессов и предпринять необходимые действия для доступности внешнего источника данных.

Чрезвычайно важно понимать, при создании или реорганизации процессов и поддержки ИТ-услуг, что хорошая практика – продумывать повторное использования данных и метаданных в различных областях деятельности организации. Способность сделать это может быть поддержана корпоративной моделью данных – иногда называемой общей информационной моделью. Поддержка повторного использования – зачастую одна из главных задач для Управления данными.

  • Цифровая трансформация стала основной темой обсуждений на недавней 22 ой конференции «ИТ в страховании». Участники сошлись во мнении, что внедрение и применение аналитических технологий для монетизации данных уже стало обязательным условием для качественных преобразований в отрасли.
  • IoT представляет собой мощный источник данных, который в сочетании с аналитикой может дать представление обо всем, от поведения до эмоций и здоровья. И вот почему это ключ к улучшению качества обслуживания клиентов.
  • Разработайте стратегию управления данными с использованием Data Lineage и дайте возможность ИИ полностью раскрыть свой потенциал.
  • Нет единого плана по работе над проектом по аналитике данных. Эксперт по технологиям Фил Саймон предлагает рассмотреть эти десять вопросов в качестве руководства.
  • Успешный data-driven бизнес способствует формированию целенаправленной, коллаборативной культуры; имеет лидеров, которые верят в данные и ориентированы на управление. Узнайте больше в этом кратком обзоре исследования TDWI, в котором раскрываются рекомендации для становления data-driven.
  • Самое время перейти к летней практике и рассмотреть такую распространенную и понятную задачу, как планирование севооборота. Что будет, если добавить в эту задачу щепоточку искусственного интеллекта и несколько граммов математических методов?
  • В конце весны SAS Россия впервые провела День стажера. Это новый формат встреч для студентов и выпускников, которые успешно прошли все этапы отбора на стажерскую программу SAS и уже начали работать в нашей команде.
  • Чтобы узнать больше о понятии «персональные данные», почему об этих данных говорят в новостях и почему они жестко регулируются Общим положением о защите данных (GDPR), мы пообщались с Джеем Экзэмом, юристом по вопросам конфиденциальности в SAS.
  • Как можно повысить эффективность бизнес-процессов, начиная с производства и заканчивая хранением и сбытом, с помощью информационных технологий?
  • Аналитика SAS поможет страховым компаниям Как применять углубленную аналитику и машинное обучение в медицинском страховании?
  • Подготовка данных - это процесс их объединения, приведения к единому формату и очистки с целью дальнейшего анализа и решения других бизнес-задач.
  • Качество данных не является хорошим или плохим, высоким или низким. Это диапазон или показатель работоспособности данных, проходящих через вашу организацию.
  • From cows to factory floors, the IoT promises intriguing opportunities for business. Find out how three experts envision the future of IoT.
  • Что же такое озеро данных? Это просто маркетинговый хайп? И вообще, чем оно отличается от традиционного хранилища данных?
  • Data profiling, the act of monitoring and cleansing data, is an important tool organizations can use to make better data decisions.

Логический уровень (формализованное/модельное описание)

Логический уровень информационной технологии представляется комплексом взаимосвязанных моделей, формализующих информационные процессы при трансформации информации в данные. Формализованное в виде моделей представление информационной технологии позволяет связать параметры информационных процессов и дает возможность реализации управления информационными процессами и процедурами. На рис. 2.12 приведена логическая модель базовой информационной технологии, которая отражает схему взаимосвязи моделей информационных процессов.

На основе модели предметной области, характеризующей объект управления, создается общая модель управления, по которой, в свою очередь, формируются модели решаемых задач. Так как для решения задач управления применяют различные информационные процессы, то необходимо строить модель их организации, которая на логическом уровне увязывает применяемые при решении задач процессы управления.

Рис. 2.12.

При обработке данных формируются все основные информационные процессы: обработка, обмен и накопление данных, преставление знаний.

Модель обработки данных включает в себя формализованное описание процедур организации вычислительного процесса (операционные системы), преобразования (алгоритмы и программы сортировки, поиска, создания и преобразования статических и динамических структур) и логического вывода (моделирования).

Модель обмена данными содержит формальное описание процедур, выполняемых в вычислительной сети: передачи (кодирование, модуляция в каналах связи), коммутации и маршрутизации (протоколы сетевого обмена) и описывается с помощью международных стандартов: OSI (взаимодействие отрытых систем), локальных сетей (IEEE 802) и спецификации сети Интернет (см. гл. 18).

Модель накопления данных описывает как систему управления базой данных (СУБД), так и саму информационную базу, которая может быть определена как база данных и база знаний. Процесс перехода от смыслового (информационного) представления к физическому осуществляется трехуровневой системой моделей информационной базы: концептуальной (какая и в каком объеме информация должна накапливаться при реализации информационной технологии), логической (структура и взаимосвязь элементов информации) и физической (методы размещения данных и доступа к ним на машинных носителях). Функции управления базами данных регламентируют (см. гл. 19): язык баз данных SQL (Structured Query Language); информационно-справочную систему IRD (Information Resource Dictionary System); протокол удаленного доступа операций RDA (Remote Data Access), PAS (Publicly Available Specifications) Microsoft на открытый прикладной интерфейс доступа к базам данных ODBC (Open Data Base Connectivity) API (Application Program Interface).

Модель представления знаний выбирается в зависимости от полноты воспроизведения и содержания предметной области, а также вида решаемых задач. В настоящее время используют такие модели представления знаний, как логические, алгоритмические, семантические, фреймовые и интегральные.

Модель получения информации строится с учетом стандартов, регламентирующих структуры данных и документов, а также форматы данных:

  • o средств языка ASNl (Abstract Syntax Notation One), предназначенного для спецификации прикладных структур данных - абстрактного синтаксиса прикладных объектов;
  • o форматов метафайла для представления и передачи графической информации CGM (Computer Graphics Metafile);
  • o спецификации сообщений и электронных данных для электронного обмена в управлении, коммерции и транспорте EDIFACT (Electronic Data Interchange for Administration, Commence and Trade);
  • o спецификации документов и их структур ODA (Open Document Architecture);
  • o спецификации структур документов для производства, например SGML (Standard Generalized Markup Language);
  • o языков описания документов гипермедиа и мультимедиа, например: HyTime, SMDL (Standard Music Description Language), SMSL (Standard Multimedia/Hypermedia Scripting Language), SPDS (Standard Page Description Language), DSSSL (Document Style Semantics and Specification Language), HTML (HyperText Markup Language);
  • o спецификации форматов графических данных, например форматов JPEG, JBIG и MPEG.

Модель отображения информации строится с учетом стандартов X Windows, MOTIF, OPEN LOOK, VT, CGI, PHIGS, машинной графики GKS, графического пользовательского интерфейса GUI.

Модели управления информацией, данными и знаниями увязывают базовые информационные процессы, синхронизируют их на логическом уровне.

Так как базовые информационные процессы оперируют с информацией, данными и знаниям и, то управление информацией происходит через процессы получения (сбор, подготовка и ввод) и отображения (построение графики, текста и видео, синтез речи); управление данными осуществляется через процессы обработки (управление организацией вычислительного процесса преобразования), обмена (управление маршрутизацией и коммутацией в вычислительной сети, передачей сообщений по каналам связи) и накопления (системы управления базами данных), а управление знаниями - через представление знаний (управление получением и генерацией знаний).

Физический уровень (программно-аппаратная реализация)

Физический уровень информационной технологии представляет ее программно-аппаратную реализацию. На физическом уровне информационная технология рассматривается как система, состоящая из крупных подсистем: обработки, обмена, накопления данных, получения и отображения информации, представления знаний и управления данными и знаниями (рис. 2.13). С системой, реализующей информационные технологии на физическом уровне, взаимодействуют пользователь и разработчик системы.

Рис. 2.13.

Подсистемы обработки данных строятся на базе электронных вычислительных машин различных классов и отличаются как по вычислительной мощности, так и по производительности. В зависимости от потребности решаемых задач используются как большие универсальные ЭВМ (мейнфреймы) для обработки громадных объемов информации, так и персональные компьютеры (ПК). В сети используются как серверы, так и клиенты (рабочие станции).

Подсистемы обмена данными включают в себя комплексы программ и устройств (модемы, усилители, коммутаторы, кабели и др.), создающих вычислительную сеть и осуществляющих коммутацию, маршрутизацию и доступ к сетям.

Подсистема накопления данных реализуется с помощью байков и баз данных на внешних устройствах компьютера, который ими управляет. Возможна организация как локальных баз и банков, реализуемых на отдельных компьютерах, так и распределенных банков данных, использующих сети ЭВМ и распределенную обработку данных.

Подсистемы получения , отображения информации и представления знаний используют для формирования модели предметной области из ее фрагментов и модели решаемой задачи. На стадии проектирования разработчик формирует в памяти компьютера комплекс моделей решаемых задач. На стадии эксплуатации пользователь обращается к подсистеме отображения информации и представления знаний и, исходя из поставленной задачи, выбирает соответствующую модель решения, после чего через подсистему управления данными включаются другие подсистемы.

Подсистема управления данными и знаниями , как правило, частично реализуется на тех же компьютерах, на которых реализуются соответствующие подсистемы, а частично с помощью систем управления организацией вычислительного процесса и систем управления базами данных. При больших потоках информации создаются специальные службы администраторов сети и баз данных.