SlideShare a Scribd company logo
BusinessObjects глазами аналитика
BusinessObjects глазами аналитика..............................................................................................1
Информация решает все................................................................................................................1
Business intelligence........................................................................................................................1
BusinessObjects – выход на сцену.................................................................................................3
Информация решает все
«Специфические особенности человека,
резко выделяющие его из мира животных:
прямохождение, высокое развитие головного
мозга, мышление и членораздельная речь.
Человек познает и изменяет мир...»
(С) Большая энциклопедия Кирилла и
Мефодия
В процессе эволюции люди приручили диких зверей, придумали рычаг, колесо,
водяную и ветряную мельницу, освоили сушу, море, небо, космос... сделали то, что не
удалось сделать ни одному другому виду живых существ. В чем секрет столь уникального
и драматического отрыва от мира «братьев наших меньших»? Изящней классика на этот
вопрос ответить сложно: «О сколько нам открытий чудных...», - помните? «Опыт, сын
ошибок трудных» приобретается многими живыми существами, но только человек смог
передавать его из поколения в поколение.
Иначе говоря, способность хранения информации вкупе с умением принимать
правильные решения на ее основе, сделали человека доминирующим биологическим
видом на Земле. И теперь основная конкуренция проходит внутри социума «Homo
sapiens», при этом секрет победы по-прежнему заключен в способности помнить и делать
правильные выводы.
Business intelligence
С развитием цивилизации объемы знаний человечества увеличились настолько, что
победители в нашей внутривидовой борьбе затрачивают все больше сил не на получение
информации, а на умение правильно ее интерпретировать. Примечательно, что в
современном мире различные службы безопасности предпочитают работать под вывеской
информационно-аналитических центров. Возможно поэтому компании, занимающиеся
созданием программного обеспечения для обработки информации, относят свои продукты
к классу BI (Business intelligence), подразумевая тем самым то, что их программы
являются важными инструментами деловой разведки.
Хранилища данных.
Итак, для того, чтобы принимать правильные решения, необходимо уметь
получать, хранить и обрабатывать информацию. Данные могут добываться из
разрозненных источников по различным, порой очень запутанным маршрутам, и как
следствие - в своей совокупности нередко характеризуются противоречивостью, слабой
связанностью и неоднородностью. Но, как это не парадоксально, такая сырая информация
(raw data) имеет большую цену – плохие с точки зрения постулатов хорошей базы данных
свойства информации: избыточность и противоречивость, - позволяют, фигурально
выражаясь, находить истину путем анализа противоречий лжи. Гипотетически хранить
надо любою информацию, которая может быть полезна в рамках системы принятия
решений (Decision support system). Хранилище таких сырых сведений (Data warehouse) –
это некий аппаратно-программный комплекс, который, как следует из названия, должен в
первую очередь хранить, т.е. гарантировать историческую целостность информации.
Иначе говоря, всегда должен соблюдаться принцип: «Однажды записанное не может
изменяться». Данное правило сложно и накладно соблюсти в программах оперативной
обработки информации (OLTP – on-line transaction processing): билинговых, бухгалтерских
и т.д.1
Именно поэтому хранилище данных технологически проще и дешевле выделить в
отдельный комплекс, чем пытаться разрабатывать его как составную часть основной
системы учета.
Для аналитика хранилище данных в идеале должно быть единым источником
информации, как минимум, потому что одно хранилище данных на всю корпорацию
является решением проблемы унификации доступа. С другой стороны, усложняется
задача определения полезности информации с точки зрения принятия решений:
пользователей много, целей много, запросов много, динамика этих запросов
труднопредсказуема, а хранилище одно. Нахождение решения такой задачи – тема
важная, интересная, но в рамки этого небольшого очерка не вписывающаяся.
OLAP
В контексте данной статьи аналитик – это человек, который, собственно и
занимается «обработкой информационной руды»: нахождением скрытых
закономерностей, классификацией, построением шаблонов последовательностей событий
и оперативными исследованиями. С частью этих задач помогает справиться технология
класса Business intelligence под аббревиатурой OLAP (On-Line Analytical Processing).
Автором этого бренда условно признан главный идеолог реляционной модели данных Э.
Кодд2
. Он выдвинул ряд общих положений OLAP - методологии, на основе которых в
1995 годы был сформулирован тест FASMI (Fast Analysis of Shared Multidimensional
Information). В соответствии с требованиями этого теста «Fast Analysis» требует от
аналитических систем отклика на запрос с задержкой не более пяти секунд. «Shared»
налагает определенные правила на многопользовательский доступ к данным.
Многомерные кубы
А «Multidimensional Information» регламентирует формат представления
информации для дальнейшего изучения. Данные для «аналитической работы в
диалоговом режиме» проходят предварительную подготовку - организуются в так
называемые многомерные кубы.
Любителям математики
Выражаясь языком математического анализа, многомерный куб и есть набор
функций многих переменных, заданных в табличной (кубической) форме в едином
пространстве аргументов. При этом значения каждой функции (исследуемые величины)
выражаются рациональными числами, а в качестве аргументов могут выступать только
данные перечислимого типа: целые числа, строки, даты. В соответствии с OLAP-
терминологией аргументы чаще всего называют измерениями (dimensions), а исследуемые
1
С целью увеличения быстродействия этих систем и снижения стоимости их разработки справочники
зачастую проектируют так, чтобы они отражали только актуальные свойства объектов, и в таких случаях
сложно восстановить историю, например, реквизиты старого паспорта, несмотря на то, что когда-то эти
реквизиты вводились. Кроме того, во многих OLTP-программах допускаются исправления ошибок ввода,
причем ранее введенные данные затираются новыми безвозвратно.
2
Условно, потому что один из популярнейших OLAP-продуктов, Express (ныне Oracle Express), появился
задолго до 90-х – в 1970г, а концепции многомерных баз данных начали обсуждаться еще в 60-х.
величины мерами (measures). На мой взгляд, слова аргумент и показатель более подходят
в качестве перевода dimension и measure, чем измерение и мера так как, во-первых, тоже
являются вариантами перевода, а во-вторых, не являются однокоренными.
Сложности приготовления многомерного куба
С точки зрения OLAP- технологов любую информацию можно «упаковать» в
многомерный куб. При этом, что считать измерением, а что показателем зависит от целей
исследования. Данные характеризуются природой дуализма, т.е. обладают признаками,
как направления (измерения), так и цели (показателя).
Чем больше измерений выбирается, т.е. чем более многомерным становится куб,
тем больше вычислительных ресурсов требуется для анализа. Для уменьшения нагрузки
на технику, и, что важнее, для улучшения качества результатов исследования важно
выделить смысловые зависимости в списке аргументов, дабы объединить аргументы в
иерархическую структуру. Самым естественным образом структурируются понятия,
относящиеся к географии (континент, страна, город...), времени (год, квартал, месяц...),
организации (Совет директоров, Правление...) и предлагаемых услуг.
В процессе исследования обычно рассматривают показатели в так называемых
срезах и свертках куба, т.е. абстрагируются от несущественных факторов и
концентрируют свое внимание на существенных. Как было сказано выше, значение
показателя однозначно зависит от координат и выражается рациональным числом. Данное
правило должно сохраняться и в случае уменьшения количества измерений. Чтобы ему
следовать, для каждого показателя необходимо определить операцию агрегирования, т.е.
свертывания множества чисел в одно без потерь предметного смысла. Правильно
составить формулу свертывания не всегда просто.
Таким образом, моделирование многомерных кубов – нетривиальная творческая
задача. Решить ее за один проход удается далеко не всегда. Чаще всего качественный
OLAP-куб, как и положено сыну «ошибок трудных», создается итеративным методом.
BusinessObjects – выход на сцену
Аналитику вряд ли помогут в его работе знания о вариантах физической
реализации многомерной модели данных. Достаточно понимать то, что сколь бы не был
многомерен куб, на аппаратном уровне любая компьютерная информация представлена в
виде одномерной последовательности нулей и единичек, хранящейся в трехмерном
пространстве дискового массива.
Разработчики компании Business Objects задались целью абстрагировать аналитика
не только от технических деталей реализации OLAP-технологии, но и от знаний
особенностей хранилища данных, справедливо полагая, что для того, чтобы делать
правильные выводы в предметной области достаточно знаний этой самой предметной
области.
Тезис: «Обработка данных без программистов» - витает над миром
вычислительной техники со времен царя Гороха3
. Продукт BusinessObjects (BO) – еще
одна попытка воплотить его в жизнь.
Юниверс
Основной конек, на котором архитекторы BO решили преодолеть «барьер
компьютерной скромности пользователя», носит имя Universe. Из всех вариантов
перевода этого пафосного слова латинского происхождения наиболее подходящим,
видимо, является – область исследования.
3
Автор статьи впервые услышал этот рекламный лозунгом в 1991 году во время изучения пакета «Dbase»
для IBM PC/XT/AT.
Юниверс представляет собой сконструированное в соответствии с идеологией
OLAP представление информации в терминах предметной области пользователя. Наличие
юниверса, теоретически, избавляет пользователя от необходимости разбираться в чем-
либо, касающемся структуры исходной базы данных.
Бизнес-понятия: аргументы (dimensions) и их свойства (details), показатели
(measures), - в юниверсе называются объектами. Тщательно спроектированный юниверс
помогает аналитику сконцентрироваться на выполнении своей задачи, в тщательно
спроектированном юниверсе каждому объекту сопоставлено описание, ознакомится с
которым можно, не покидая панели составления запроса. Описания терминов
пользователя созданы не только для начинающих аналитиков, их наличие позволяет
избежать двойного толкования, что в области экономики и финансов не редкость.
Технические специалисты могут настроить юниверс на автоматический выбор
исходных таблиц базы данных в зависимости от прав доступа. Например, можно
имперсонализировать остатки на счетах клиентов банка для одних пользователей и
оставить детализацию для других – и все это в рамках одного юниверса. Один и тот же
отчет в результате разным пользователям будет добывать различные данные.
Даже для технически грамотных аналитиков юниверс представляет собой удобный
интерфейс формирования отчетов – значительно более удобный и быстрый, хотя и менее
гибкий, по сравнению, например, с прямыми запросами SQL.
Состав и роли BO
С целью освобождения аналитика от технических деталей, создатели
BusinessObjects переложили решение технических вопросов на сотрудников IT4
. В
результате был создан корпоративный многомодульный комплекс для следующих ролей:
администраторы, проектировщики, аналитики и пользователи отчетов.
• Проектировщики с помощью модуля BusinessObjects Designer создают
ориентированные на аналитиков представления данных под названием юниверсы
(Universes).
• Аналитики занимаются исследованием и компоновкой сведений, полученных из
юниверсов. Найденные закономерности оформляются в виде отчетов. Аналитики
используют модули BusinessObjects и BusinessQuery (для MS Excel).
• Пользователи отчетов принимают решения на основании данных, полученных
аналитиками. Для просмотра отчетов рекомендуется использовать web-
обозреватель, представляющий информацию через портал InfoView. Впрочем, это
не исключает других форматов представления: Adobe Acrobat, Excel и т.д.
• Немного в стороне от этой вертикали обработки данных находятся
Администраторы - бойцы невидимого фронта, определяющие права доступа и
обеспечивающие безотказную работу системы5
, Администраторы имеют довольно
широкие полномочия по настройке/ограничению как серверной так и клиентской
части BO. Например, они могут запретить доступ к определенным пунктам меню.
Среди неназванных приложений, которые находятся в зоне ответственности
администраторов, нелишним будет упомянуть еще пару:
o «Repository» - хранилище настроек безопасности BO и опубликованных
отчетов;
o «Broadcast Agent» - позволяет автоматически обновлять, публиковать или
пересылать отчеты.
4
Information technologies department
5
А в случае отказов и сбоев они же занимаются восстановлением работоспособности системы.
Гибкость и универсальность: два в одном
Размежевание обязанностей позволяет снизить как нагрузку на IT–ресурсы, так и
требования к техническому образованию аналитиков. Но для реализации принципа
«разделяй и властвуй» требуется слаженная организация взаимодействия всех
представленных выше ролей. В реальной жизни проблемы согласования и
взаимопонимания увеличивают время подготовки конечных отчетов порой до
неприемлемой величины в контексте актуальности результатов исследования.
С точки зрения аналитика основным камнем преткновения на пути разведки
данных является юниверс – иногда недостаточно гибкий с точки зрения набора операций
над данными, а то и вовсе не содержащий всей необходимой информации.
Дополнительная «универсализация» юниверса помимо проблем согласования влечет за
собой также и проблемы увеличения времени отклика на запросы, нарушая тем самым
максиму «Fast Analysis» идеологии OLAP. Но не все так безнадежно.
Для случаев, когда, с одной стороны, требуется быстрый анализ данных, а с другой
стороны, аналитики обладают достаточными техническими навыками, т.е. для случаев,
когда оперативность ставится выше порядка, BusinessObjects предоставляет
альтернативные пути доступа к данным, включающие в себя: прямые запросы SQL и
использование хранимых процедур, персональные файлы6
и даже процедуры на языке
VBA7
. Предоставление такой свободы позволяет нивелировать недостатки хранилища
данных и несовершенство юниверсов.
Все, что нужно для того, чтобы воспользоваться этой свободой – обладание
навыками программирования.
Кручу, верчу, понять хочу
Чисто ассоциативно работа с BusinessObjects напоминает игру с кубиком Рубика –
из разрозненных данных нужно собрать узор, являющийся ключом к правильному
решению. Причем интерфейс для вращения кубика в BO прост и изящен.
Один раз получив результаты запроса из хранилища данных, аналитик получает
возможность работать с ними в автономном режиме, т.е. без обращения к серверу.
Множество информации, полученное с сервера на персональный компьютер, называется
локальным кубом, иногда - микрокубом. Но в случае BusinessObjects корень «микро-» не
всегда уместен. В один такой «микрокуб» приходилось закачивать и 100 тысяч записей из
таблицы фактов8
, и миллион. Понятно, что чем больше объем локального куба, тем
меньше скорость его обработки. Кроме того, тип информации также имеет значение –
быстрее всего обрабатываются целые числа, медленнее всего – строки. Но, как бы там ни
было, если IT (по, быть может, и объективным причинам) не может обеспечить быстрое
получение данных с сервера, то у аналитика есть возможность создать локальный куб,
удовлетворяющий требованию «Fast analysis».
Лучше, чем другие
Чтобы «почувствовать вкус» BO, достаточно самостоятельно пройти курс «Getting
Started with BusinessObjects». Это займет от трех до шести часов. А познав интерфейс,
можно понять разницу... если, конечно, есть с чем сравнивать.
Абсолютное большинство аналитиков, которым мог бы быть полезен
BusinessObjects, уже имеют опыт работы с самым популярным приложением для
расчетов - Microsoft Excel. Этот любимец малого и среднего бизнеса обладает
6
Так в BusinessObjects называют файлы типа: Excel, текстовые, XML и т.д.
7
Visual Basic for applications
8
Таблица фактов – стержневая структура хранилища данных, содержащая сведения об исследуемой
сущности.
универсальным набором функций «на все случаи жизни», в том числе и для OLAP-
исследований9
.
Microsoft Excel с помощью механизма «Pivot table report» позволяет получать и
анализировать срезы данных подобно клиентской части BusinessObjects, при этом
источниками информации могут служить не только OLAP-кубы, но и сами электронные
таблицы Excel, а также все, что можно получить через Microsoft Query.
Однако возможности параметризации запросов из MS Excel ограничены10
, размер
таблицы Excel ограничен 65536 строками, да и просто с точки зрения дружественности
интерфейса пользователя, которую трудно выразить словами, с точки зрения
наличия/отсутствия множества разных фитингов, помогающих делать отчеты быстро и
легко, MS Excel, на мой взгляд, проигрывает BusinessObjects. Впрочем, как говорил
Плиний старший, каждому свое нравится.
Принципы работы в BusinessObjects отличаются регулярностью, в то время как в
Excel предпочтение дано гибкости. Это означает, что есть целый ряд задач, которые в BO
решаются легким движением мыши, в то время как в Excel достижение аналогичного
результата трудоемко и чревато получением противоречий. С другой стороны, есть целый
ряд задач, которые в Excel реализовать сложно, а в BO их решить просто невозможно.
Области применения MS Excel и BusinessObjects пересекаются приблизительно так
же, как и маркетинговые сегменты этих продуктов. Microsoft давно занимается
распространением своих решений в «горизонтальной плоскости», в то время как компания
Business Objects преуспела на поприще вертикального рынка – более 80% процентов
компаний из списка Fortune 500 являются клиентами компании Business Objects.
Да и с компанией Microsoft у Business Objects довольно тесные связи: в
BusinessObjects встроен язык VBA от Microsoft, а сам BusinessObjects в свою очередь
предлагает add-in «BusinessQuery for Excel». После того, как в конце 2003 года Business
Objects приобрела Crystal Decision, эти связи укрепились – Crystal reports является
составной частью MS Visual Studio.NET. Такой вот симбиоз.
Кроме BusinessObjects и MS Excel, на рынке клиентов OLAP-систем существует
множество достойных предложений: Cognos ReportNet, MicroStrategy DSS Agent, Контур
Стандарт и т.д. Объективно сравнить эти продукты друг с другом трудно. Для этого
придется привлечь адептов соответствующих программ, составить объемлющий список
задач согласовать алгоритм тестирования и принципы проставления оценок. И даже если
найдется спонсор, которому такое мероприятие будет нужно, смею предположить, что
абсолютного лидера определить не удастся – в лучшем случае будет получена кросс-
таблица, в которой на пересечении продукта и задачи будет проставлена экспертная
оценка качества решения. Хотя, я бы с интересом принял участие в таком эксперименте.
Ложка дегтя
BusinessObjects показал себя надежным инструментом в том плане, что за время
его эксплуатации не обнаружилось так называемых «блуждающих ошибок». Всякие
кандидаты в «блуждающие ошибки» в конечно счете оказывались ошибками
пользователя. Зато «стационарные грабли» можно найти без труда. Все они сводятся к
проблемам российской локализации. На сегодняшний день русскоязычные пользователи
BO (речь не идет о тонком клиенте) будут испытывать серьезные трудности при экспорте
отчетов с кириллическими символами в форматы PDF или MS Excel. Также возникают
сложности с типом «дата/время» при использовании источника данных «Visual basic
9
В далеком 1996 году компания Microsoft в поисках лучшего варианта выхода на рынок OLAP
рассматривала три сценария: вместе с Excel, вместе с SQL Server, независимо от этих продуктов. Для
серверной части, Microsoft Analysis services, был выбран SQL Server. И теперь именно этот сервис
предоставляет интерфейс доступа к данным, упакованным в OLAP-структуру. С точки зрения аналитика, не
задумывающегося о разнице между ROLAP и MOLAP, Microsoft Analysis services конвертирует данные из
хранилища в объекты предметной области подобно юниверсу от BusinessObjects.
10
Например, нельзя использовать параметры для невизуальных запросов.
procedures». Для решения этих проблем в первом случае придется править реестр, а во
втором, загружать дату как строку.
С каждым годом становится все больше русскоязычных пользователей
BusinessObjects. Возможно, на фоне динамично растущего интереса к системам
интеллектуального и оперативного анализа данных компания Business Objects всерьез
озаботится исправлением небольших, но все же неприятных недостатков своего в целом
замечательного продукта.
О компании Business Objects
История компании – есть один из ярких пример «Successful story». Организованное
в 1990 году двумя парижскими чуть ли не студентами предприятие уже через два года
благодаря своему крупнейшему на тот момент клиенту France Telecom вышло на
прибыльный уровень. Претворяя в жизнь тезисы: лидерство, целостность, энтузиазм,
инновации, международная кооперация, - руководители Business Objects первыми в
Европе зарегистрировали акции своего предприятия в листинге NASDAQ в 1994 году.
Благодаря умелому управлению полученными инвестициями, эта компания не только не
обанкротилась во время кризиса Hi-tech на рубеже тысячелетий, но даже более того,
успешно поглотила несколько софтверных фирм. Возможно, намекая на одно из своих
крупнейших приобретений, с 2004 года Business Objects продолжает свою деятельность
под лозунгом: «Наше будущее ясно, Кристально ясно»11
.
11
"Our Future is Clear, Crystal Clear."

More Related Content

PPTX
Логическая витрина для доступа к большим данным
PPTX
Логическая витрина данных
PPTX
База знаний службы техподдержки
PPTX
Управление Знаниями на все сто
PPTX
АрхиГраф.MDM: управление мастер-данными
PPTX
Симуляционное моделирование и семантические технологии
DOCX
Compos 3
PPTX
Choosing the track
Логическая витрина для доступа к большим данным
Логическая витрина данных
База знаний службы техподдержки
Управление Знаниями на все сто
АрхиГраф.MDM: управление мастер-данными
Симуляционное моделирование и семантические технологии
Compos 3
Choosing the track

Viewers also liked (6)

PDF
PPTX
Question 3
PDF
Distributed Data Systems
PDF
unidades de corel
ODP
Muusikud Järvamaalt
PDF
Senior Paper_Restoring Oak Savannas
Question 3
Distributed Data Systems
unidades de corel
Muusikud Järvamaalt
Senior Paper_Restoring Oak Savannas
Ad

Similar to BusinessObjects глазами аналитика - Tern4 (20)

PPTX
Olap и oltp технологии
PPTX
PPTX
PPT
многомерные модели данных
PDF
Основы OLAP. Вебинар Workaround в Softengi
PPTX
Хранилища данных, средства анализа данных
PPSX
Бизнес-аналитика – не роскошь, а средство для принятия решений:
PPTX
Business intlligence
PPT
Современные методы анализа данных
PPTX
Bios power bi о нас (RU)
PPT
Последняя миля BI проекта: визуализация и анализ данных
PPTX
Конкурс презентаций - Коноплева
PDF
Using open source BI. Practical experience - RU
PPT
последняя миля Bi проекта
PPTX
Бизнес аналитика
PPT
Informatica datawarehouse
PPT
Data Mining presentation in detail for prepare
PDF
Информация о системе ЦАРь-КУБ
PDF
OSPconf Big Data Forum 2014 Ilya Gershanov
PPT
лекц11
Olap и oltp технологии
многомерные модели данных
Основы OLAP. Вебинар Workaround в Softengi
Хранилища данных, средства анализа данных
Бизнес-аналитика – не роскошь, а средство для принятия решений:
Business intlligence
Современные методы анализа данных
Bios power bi о нас (RU)
Последняя миля BI проекта: визуализация и анализ данных
Конкурс презентаций - Коноплева
Using open source BI. Practical experience - RU
последняя миля Bi проекта
Бизнес аналитика
Informatica datawarehouse
Data Mining presentation in detail for prepare
Информация о системе ЦАРь-КУБ
OSPconf Big Data Forum 2014 Ilya Gershanov
лекц11
Ad

BusinessObjects глазами аналитика - Tern4

  • 1. BusinessObjects глазами аналитика BusinessObjects глазами аналитика..............................................................................................1 Информация решает все................................................................................................................1 Business intelligence........................................................................................................................1 BusinessObjects – выход на сцену.................................................................................................3 Информация решает все «Специфические особенности человека, резко выделяющие его из мира животных: прямохождение, высокое развитие головного мозга, мышление и членораздельная речь. Человек познает и изменяет мир...» (С) Большая энциклопедия Кирилла и Мефодия В процессе эволюции люди приручили диких зверей, придумали рычаг, колесо, водяную и ветряную мельницу, освоили сушу, море, небо, космос... сделали то, что не удалось сделать ни одному другому виду живых существ. В чем секрет столь уникального и драматического отрыва от мира «братьев наших меньших»? Изящней классика на этот вопрос ответить сложно: «О сколько нам открытий чудных...», - помните? «Опыт, сын ошибок трудных» приобретается многими живыми существами, но только человек смог передавать его из поколения в поколение. Иначе говоря, способность хранения информации вкупе с умением принимать правильные решения на ее основе, сделали человека доминирующим биологическим видом на Земле. И теперь основная конкуренция проходит внутри социума «Homo sapiens», при этом секрет победы по-прежнему заключен в способности помнить и делать правильные выводы. Business intelligence С развитием цивилизации объемы знаний человечества увеличились настолько, что победители в нашей внутривидовой борьбе затрачивают все больше сил не на получение информации, а на умение правильно ее интерпретировать. Примечательно, что в современном мире различные службы безопасности предпочитают работать под вывеской информационно-аналитических центров. Возможно поэтому компании, занимающиеся созданием программного обеспечения для обработки информации, относят свои продукты к классу BI (Business intelligence), подразумевая тем самым то, что их программы являются важными инструментами деловой разведки. Хранилища данных. Итак, для того, чтобы принимать правильные решения, необходимо уметь получать, хранить и обрабатывать информацию. Данные могут добываться из разрозненных источников по различным, порой очень запутанным маршрутам, и как следствие - в своей совокупности нередко характеризуются противоречивостью, слабой связанностью и неоднородностью. Но, как это не парадоксально, такая сырая информация (raw data) имеет большую цену – плохие с точки зрения постулатов хорошей базы данных свойства информации: избыточность и противоречивость, - позволяют, фигурально
  • 2. выражаясь, находить истину путем анализа противоречий лжи. Гипотетически хранить надо любою информацию, которая может быть полезна в рамках системы принятия решений (Decision support system). Хранилище таких сырых сведений (Data warehouse) – это некий аппаратно-программный комплекс, который, как следует из названия, должен в первую очередь хранить, т.е. гарантировать историческую целостность информации. Иначе говоря, всегда должен соблюдаться принцип: «Однажды записанное не может изменяться». Данное правило сложно и накладно соблюсти в программах оперативной обработки информации (OLTP – on-line transaction processing): билинговых, бухгалтерских и т.д.1 Именно поэтому хранилище данных технологически проще и дешевле выделить в отдельный комплекс, чем пытаться разрабатывать его как составную часть основной системы учета. Для аналитика хранилище данных в идеале должно быть единым источником информации, как минимум, потому что одно хранилище данных на всю корпорацию является решением проблемы унификации доступа. С другой стороны, усложняется задача определения полезности информации с точки зрения принятия решений: пользователей много, целей много, запросов много, динамика этих запросов труднопредсказуема, а хранилище одно. Нахождение решения такой задачи – тема важная, интересная, но в рамки этого небольшого очерка не вписывающаяся. OLAP В контексте данной статьи аналитик – это человек, который, собственно и занимается «обработкой информационной руды»: нахождением скрытых закономерностей, классификацией, построением шаблонов последовательностей событий и оперативными исследованиями. С частью этих задач помогает справиться технология класса Business intelligence под аббревиатурой OLAP (On-Line Analytical Processing). Автором этого бренда условно признан главный идеолог реляционной модели данных Э. Кодд2 . Он выдвинул ряд общих положений OLAP - методологии, на основе которых в 1995 годы был сформулирован тест FASMI (Fast Analysis of Shared Multidimensional Information). В соответствии с требованиями этого теста «Fast Analysis» требует от аналитических систем отклика на запрос с задержкой не более пяти секунд. «Shared» налагает определенные правила на многопользовательский доступ к данным. Многомерные кубы А «Multidimensional Information» регламентирует формат представления информации для дальнейшего изучения. Данные для «аналитической работы в диалоговом режиме» проходят предварительную подготовку - организуются в так называемые многомерные кубы. Любителям математики Выражаясь языком математического анализа, многомерный куб и есть набор функций многих переменных, заданных в табличной (кубической) форме в едином пространстве аргументов. При этом значения каждой функции (исследуемые величины) выражаются рациональными числами, а в качестве аргументов могут выступать только данные перечислимого типа: целые числа, строки, даты. В соответствии с OLAP- терминологией аргументы чаще всего называют измерениями (dimensions), а исследуемые 1 С целью увеличения быстродействия этих систем и снижения стоимости их разработки справочники зачастую проектируют так, чтобы они отражали только актуальные свойства объектов, и в таких случаях сложно восстановить историю, например, реквизиты старого паспорта, несмотря на то, что когда-то эти реквизиты вводились. Кроме того, во многих OLTP-программах допускаются исправления ошибок ввода, причем ранее введенные данные затираются новыми безвозвратно. 2 Условно, потому что один из популярнейших OLAP-продуктов, Express (ныне Oracle Express), появился задолго до 90-х – в 1970г, а концепции многомерных баз данных начали обсуждаться еще в 60-х.
  • 3. величины мерами (measures). На мой взгляд, слова аргумент и показатель более подходят в качестве перевода dimension и measure, чем измерение и мера так как, во-первых, тоже являются вариантами перевода, а во-вторых, не являются однокоренными. Сложности приготовления многомерного куба С точки зрения OLAP- технологов любую информацию можно «упаковать» в многомерный куб. При этом, что считать измерением, а что показателем зависит от целей исследования. Данные характеризуются природой дуализма, т.е. обладают признаками, как направления (измерения), так и цели (показателя). Чем больше измерений выбирается, т.е. чем более многомерным становится куб, тем больше вычислительных ресурсов требуется для анализа. Для уменьшения нагрузки на технику, и, что важнее, для улучшения качества результатов исследования важно выделить смысловые зависимости в списке аргументов, дабы объединить аргументы в иерархическую структуру. Самым естественным образом структурируются понятия, относящиеся к географии (континент, страна, город...), времени (год, квартал, месяц...), организации (Совет директоров, Правление...) и предлагаемых услуг. В процессе исследования обычно рассматривают показатели в так называемых срезах и свертках куба, т.е. абстрагируются от несущественных факторов и концентрируют свое внимание на существенных. Как было сказано выше, значение показателя однозначно зависит от координат и выражается рациональным числом. Данное правило должно сохраняться и в случае уменьшения количества измерений. Чтобы ему следовать, для каждого показателя необходимо определить операцию агрегирования, т.е. свертывания множества чисел в одно без потерь предметного смысла. Правильно составить формулу свертывания не всегда просто. Таким образом, моделирование многомерных кубов – нетривиальная творческая задача. Решить ее за один проход удается далеко не всегда. Чаще всего качественный OLAP-куб, как и положено сыну «ошибок трудных», создается итеративным методом. BusinessObjects – выход на сцену Аналитику вряд ли помогут в его работе знания о вариантах физической реализации многомерной модели данных. Достаточно понимать то, что сколь бы не был многомерен куб, на аппаратном уровне любая компьютерная информация представлена в виде одномерной последовательности нулей и единичек, хранящейся в трехмерном пространстве дискового массива. Разработчики компании Business Objects задались целью абстрагировать аналитика не только от технических деталей реализации OLAP-технологии, но и от знаний особенностей хранилища данных, справедливо полагая, что для того, чтобы делать правильные выводы в предметной области достаточно знаний этой самой предметной области. Тезис: «Обработка данных без программистов» - витает над миром вычислительной техники со времен царя Гороха3 . Продукт BusinessObjects (BO) – еще одна попытка воплотить его в жизнь. Юниверс Основной конек, на котором архитекторы BO решили преодолеть «барьер компьютерной скромности пользователя», носит имя Universe. Из всех вариантов перевода этого пафосного слова латинского происхождения наиболее подходящим, видимо, является – область исследования. 3 Автор статьи впервые услышал этот рекламный лозунгом в 1991 году во время изучения пакета «Dbase» для IBM PC/XT/AT.
  • 4. Юниверс представляет собой сконструированное в соответствии с идеологией OLAP представление информации в терминах предметной области пользователя. Наличие юниверса, теоретически, избавляет пользователя от необходимости разбираться в чем- либо, касающемся структуры исходной базы данных. Бизнес-понятия: аргументы (dimensions) и их свойства (details), показатели (measures), - в юниверсе называются объектами. Тщательно спроектированный юниверс помогает аналитику сконцентрироваться на выполнении своей задачи, в тщательно спроектированном юниверсе каждому объекту сопоставлено описание, ознакомится с которым можно, не покидая панели составления запроса. Описания терминов пользователя созданы не только для начинающих аналитиков, их наличие позволяет избежать двойного толкования, что в области экономики и финансов не редкость. Технические специалисты могут настроить юниверс на автоматический выбор исходных таблиц базы данных в зависимости от прав доступа. Например, можно имперсонализировать остатки на счетах клиентов банка для одних пользователей и оставить детализацию для других – и все это в рамках одного юниверса. Один и тот же отчет в результате разным пользователям будет добывать различные данные. Даже для технически грамотных аналитиков юниверс представляет собой удобный интерфейс формирования отчетов – значительно более удобный и быстрый, хотя и менее гибкий, по сравнению, например, с прямыми запросами SQL. Состав и роли BO С целью освобождения аналитика от технических деталей, создатели BusinessObjects переложили решение технических вопросов на сотрудников IT4 . В результате был создан корпоративный многомодульный комплекс для следующих ролей: администраторы, проектировщики, аналитики и пользователи отчетов. • Проектировщики с помощью модуля BusinessObjects Designer создают ориентированные на аналитиков представления данных под названием юниверсы (Universes). • Аналитики занимаются исследованием и компоновкой сведений, полученных из юниверсов. Найденные закономерности оформляются в виде отчетов. Аналитики используют модули BusinessObjects и BusinessQuery (для MS Excel). • Пользователи отчетов принимают решения на основании данных, полученных аналитиками. Для просмотра отчетов рекомендуется использовать web- обозреватель, представляющий информацию через портал InfoView. Впрочем, это не исключает других форматов представления: Adobe Acrobat, Excel и т.д. • Немного в стороне от этой вертикали обработки данных находятся Администраторы - бойцы невидимого фронта, определяющие права доступа и обеспечивающие безотказную работу системы5 , Администраторы имеют довольно широкие полномочия по настройке/ограничению как серверной так и клиентской части BO. Например, они могут запретить доступ к определенным пунктам меню. Среди неназванных приложений, которые находятся в зоне ответственности администраторов, нелишним будет упомянуть еще пару: o «Repository» - хранилище настроек безопасности BO и опубликованных отчетов; o «Broadcast Agent» - позволяет автоматически обновлять, публиковать или пересылать отчеты. 4 Information technologies department 5 А в случае отказов и сбоев они же занимаются восстановлением работоспособности системы.
  • 5. Гибкость и универсальность: два в одном Размежевание обязанностей позволяет снизить как нагрузку на IT–ресурсы, так и требования к техническому образованию аналитиков. Но для реализации принципа «разделяй и властвуй» требуется слаженная организация взаимодействия всех представленных выше ролей. В реальной жизни проблемы согласования и взаимопонимания увеличивают время подготовки конечных отчетов порой до неприемлемой величины в контексте актуальности результатов исследования. С точки зрения аналитика основным камнем преткновения на пути разведки данных является юниверс – иногда недостаточно гибкий с точки зрения набора операций над данными, а то и вовсе не содержащий всей необходимой информации. Дополнительная «универсализация» юниверса помимо проблем согласования влечет за собой также и проблемы увеличения времени отклика на запросы, нарушая тем самым максиму «Fast Analysis» идеологии OLAP. Но не все так безнадежно. Для случаев, когда, с одной стороны, требуется быстрый анализ данных, а с другой стороны, аналитики обладают достаточными техническими навыками, т.е. для случаев, когда оперативность ставится выше порядка, BusinessObjects предоставляет альтернативные пути доступа к данным, включающие в себя: прямые запросы SQL и использование хранимых процедур, персональные файлы6 и даже процедуры на языке VBA7 . Предоставление такой свободы позволяет нивелировать недостатки хранилища данных и несовершенство юниверсов. Все, что нужно для того, чтобы воспользоваться этой свободой – обладание навыками программирования. Кручу, верчу, понять хочу Чисто ассоциативно работа с BusinessObjects напоминает игру с кубиком Рубика – из разрозненных данных нужно собрать узор, являющийся ключом к правильному решению. Причем интерфейс для вращения кубика в BO прост и изящен. Один раз получив результаты запроса из хранилища данных, аналитик получает возможность работать с ними в автономном режиме, т.е. без обращения к серверу. Множество информации, полученное с сервера на персональный компьютер, называется локальным кубом, иногда - микрокубом. Но в случае BusinessObjects корень «микро-» не всегда уместен. В один такой «микрокуб» приходилось закачивать и 100 тысяч записей из таблицы фактов8 , и миллион. Понятно, что чем больше объем локального куба, тем меньше скорость его обработки. Кроме того, тип информации также имеет значение – быстрее всего обрабатываются целые числа, медленнее всего – строки. Но, как бы там ни было, если IT (по, быть может, и объективным причинам) не может обеспечить быстрое получение данных с сервера, то у аналитика есть возможность создать локальный куб, удовлетворяющий требованию «Fast analysis». Лучше, чем другие Чтобы «почувствовать вкус» BO, достаточно самостоятельно пройти курс «Getting Started with BusinessObjects». Это займет от трех до шести часов. А познав интерфейс, можно понять разницу... если, конечно, есть с чем сравнивать. Абсолютное большинство аналитиков, которым мог бы быть полезен BusinessObjects, уже имеют опыт работы с самым популярным приложением для расчетов - Microsoft Excel. Этот любимец малого и среднего бизнеса обладает 6 Так в BusinessObjects называют файлы типа: Excel, текстовые, XML и т.д. 7 Visual Basic for applications 8 Таблица фактов – стержневая структура хранилища данных, содержащая сведения об исследуемой сущности.
  • 6. универсальным набором функций «на все случаи жизни», в том числе и для OLAP- исследований9 . Microsoft Excel с помощью механизма «Pivot table report» позволяет получать и анализировать срезы данных подобно клиентской части BusinessObjects, при этом источниками информации могут служить не только OLAP-кубы, но и сами электронные таблицы Excel, а также все, что можно получить через Microsoft Query. Однако возможности параметризации запросов из MS Excel ограничены10 , размер таблицы Excel ограничен 65536 строками, да и просто с точки зрения дружественности интерфейса пользователя, которую трудно выразить словами, с точки зрения наличия/отсутствия множества разных фитингов, помогающих делать отчеты быстро и легко, MS Excel, на мой взгляд, проигрывает BusinessObjects. Впрочем, как говорил Плиний старший, каждому свое нравится. Принципы работы в BusinessObjects отличаются регулярностью, в то время как в Excel предпочтение дано гибкости. Это означает, что есть целый ряд задач, которые в BO решаются легким движением мыши, в то время как в Excel достижение аналогичного результата трудоемко и чревато получением противоречий. С другой стороны, есть целый ряд задач, которые в Excel реализовать сложно, а в BO их решить просто невозможно. Области применения MS Excel и BusinessObjects пересекаются приблизительно так же, как и маркетинговые сегменты этих продуктов. Microsoft давно занимается распространением своих решений в «горизонтальной плоскости», в то время как компания Business Objects преуспела на поприще вертикального рынка – более 80% процентов компаний из списка Fortune 500 являются клиентами компании Business Objects. Да и с компанией Microsoft у Business Objects довольно тесные связи: в BusinessObjects встроен язык VBA от Microsoft, а сам BusinessObjects в свою очередь предлагает add-in «BusinessQuery for Excel». После того, как в конце 2003 года Business Objects приобрела Crystal Decision, эти связи укрепились – Crystal reports является составной частью MS Visual Studio.NET. Такой вот симбиоз. Кроме BusinessObjects и MS Excel, на рынке клиентов OLAP-систем существует множество достойных предложений: Cognos ReportNet, MicroStrategy DSS Agent, Контур Стандарт и т.д. Объективно сравнить эти продукты друг с другом трудно. Для этого придется привлечь адептов соответствующих программ, составить объемлющий список задач согласовать алгоритм тестирования и принципы проставления оценок. И даже если найдется спонсор, которому такое мероприятие будет нужно, смею предположить, что абсолютного лидера определить не удастся – в лучшем случае будет получена кросс- таблица, в которой на пересечении продукта и задачи будет проставлена экспертная оценка качества решения. Хотя, я бы с интересом принял участие в таком эксперименте. Ложка дегтя BusinessObjects показал себя надежным инструментом в том плане, что за время его эксплуатации не обнаружилось так называемых «блуждающих ошибок». Всякие кандидаты в «блуждающие ошибки» в конечно счете оказывались ошибками пользователя. Зато «стационарные грабли» можно найти без труда. Все они сводятся к проблемам российской локализации. На сегодняшний день русскоязычные пользователи BO (речь не идет о тонком клиенте) будут испытывать серьезные трудности при экспорте отчетов с кириллическими символами в форматы PDF или MS Excel. Также возникают сложности с типом «дата/время» при использовании источника данных «Visual basic 9 В далеком 1996 году компания Microsoft в поисках лучшего варианта выхода на рынок OLAP рассматривала три сценария: вместе с Excel, вместе с SQL Server, независимо от этих продуктов. Для серверной части, Microsoft Analysis services, был выбран SQL Server. И теперь именно этот сервис предоставляет интерфейс доступа к данным, упакованным в OLAP-структуру. С точки зрения аналитика, не задумывающегося о разнице между ROLAP и MOLAP, Microsoft Analysis services конвертирует данные из хранилища в объекты предметной области подобно юниверсу от BusinessObjects. 10 Например, нельзя использовать параметры для невизуальных запросов.
  • 7. procedures». Для решения этих проблем в первом случае придется править реестр, а во втором, загружать дату как строку. С каждым годом становится все больше русскоязычных пользователей BusinessObjects. Возможно, на фоне динамично растущего интереса к системам интеллектуального и оперативного анализа данных компания Business Objects всерьез озаботится исправлением небольших, но все же неприятных недостатков своего в целом замечательного продукта. О компании Business Objects История компании – есть один из ярких пример «Successful story». Организованное в 1990 году двумя парижскими чуть ли не студентами предприятие уже через два года благодаря своему крупнейшему на тот момент клиенту France Telecom вышло на прибыльный уровень. Претворяя в жизнь тезисы: лидерство, целостность, энтузиазм, инновации, международная кооперация, - руководители Business Objects первыми в Европе зарегистрировали акции своего предприятия в листинге NASDAQ в 1994 году. Благодаря умелому управлению полученными инвестициями, эта компания не только не обанкротилась во время кризиса Hi-tech на рубеже тысячелетий, но даже более того, успешно поглотила несколько софтверных фирм. Возможно, намекая на одно из своих крупнейших приобретений, с 2004 года Business Objects продолжает свою деятельность под лозунгом: «Наше будущее ясно, Кристально ясно»11 . 11 "Our Future is Clear, Crystal Clear."