Для таких же начинающих, в онтологиях, как и я, а так же для тех, кто хочет начать, для тех, кто задаётся вопросом, что это, с чем это едят и с чего начать, предлагаю начинать с того, с чего начал и я, а именно:

  1. Терминология онтологий, которая позволит вам понимать смысл терминов использующихся в статье и лекции
  2. Статья Ontology Development 101: A Guide to Creating Your First Ontology за 2001 год, являющаяся базовой статьёй для всех, кто начинает заниматься онтологиями, а так же её перевод на русский язык с сайта Международный форум «Образовательные технологи и общество. Недостатком статьи является не слишком удачный пример онтологии с вином
  3. Лекция Онтология и представление знаний от lektorium.tv упоминавшаяся тут. По моему мнению это как раз именно то, что надо, для преставления того, что такое онтологии и для чего это нужно. Кроме того в лекции приводится очень много полезной информации по уже имеющимся проектам, инструментарию, сферам применения и прочее.

И в качестве вводного курса копипаста из перевода на русском языке для поднятия интереса к этой теме.

За перевод спасибо неизвестному переводчику Филяеву А.И.

В будущем, надеюсь, продолжу данную тему по мере освоения материала и получения новых знаний.

Зачем создавать онтологию?

В последние годы разработка онтологий — формальных явных описаний терминов предметной области и отношений между ними (Gruber 1993) – переходит из мира лабораторий по искусственному интеллекту на рабочие столы экспертов по предметным областям. Во всемирной паутине онтологии стали обычным явлением. Онтологии в сети варьируются от больших таксономий, категоризирующих веб-сайты (как на сайте Yahoo!), до категоризаций продаваемых товаров и их характеристик (как на сайте Amazon.com). Консорциум WWW (W3C) разрабатывает RDF (Resource Description Framework) (Brickley and Guha 1999), язык кодирования знаний на веб-страницах, для того, чтобы сделать их понятными для электронных агентов, которые осуществляют поиск информации. Управление перспективных исследований и разработок министерства обороны США (The Defense Advanced Research Projects Agency, DARPA) в сотрудничестве с W3C разрабатывает Язык Разметки для Агентов DARPA (DARPA Agent Markup Language, DAML), расширяя RDF более выразительными конструкциями, предназначенными для облегчения взаимодействия агентов в сети (Hendler and McGuinness 2000). Во многих дисциплинах сейчас разрабатываются стандартные онтологии, которые могут использоваться экспертами по предметным областям для совместного использования и аннотирования информации в своей области.


пример, в области медицины созданы большие стандартные, структурированные словари, такие как snomed (Price and Spackman 2000) и семантическая сеть Системы Унифицированного Медицинского Языка (the Unified Medical Language System) (Humphreys and Lindberg 1993). Также появляются обширные общецелевые онтологии. Например, Программа ООН по развитию (the United Nations Development Program) и компания Dun & Bradstreet объединили усилия для разработки онтологии UNSPSC, которая предоставляет терминологию товаров и услуг (http://www.unspsc.org/).

Онтология определяет общий словарь для ученых, которым нужно совместно использовать информацию в предметной области. Она включает машинно-интерпретируемые формулировки основных понятий предметной области и отношения между ними.

Почему возникает потребность в разработке онтологии? Вот некоторые причины:
Для совместного использования людьми или программными агентами общего понимания структуры информации.

  • Для возможности повторного использования знаний в предметной области.
  • Для того чтобы сделать допущения в предметной области явными.
  • Для отделения знаний в предметной области от оперативных знаний.
  • Для анализа знаний в предметной области.

Совместное использование людьми или программными агентами общего понимания структуры информации является одной из наиболее общих целей разработки онтологий (Musen 1992; Gruber 1993).


примеру, пусть, несколько различных веб-сайтов содержат информацию по медицине или предоставляют информацию о платных медицинских услугах, оплачиваемых через Интернет. Если эти веб-сайты совместно используют и публикуют одну и ту же базовую онтологию терминов, которыми они все пользуются, то компьютерные агенты могут извлекать информацию из этих различных сайтов и накапливать ее. Агенты могут использовать накопленную информацию для ответов на запросы пользователей или как входные данные для других приложений.
Обеспечение возможности использования знаний предметной области стало одной из движущих сил недавнего всплеска в изучении онтологий. Например, для моделей многих различных предметных областей необходимо сформулировать понятие времени. Это представление включает понятие временных интервалов, моментов времени, относительных мер времени и т.д. Если одна группа ученых детально разработает такую онтологию, то другие могут просто повторно использовать ее в своих предметных областях. Кроме того, если нам нужно создать большую онтологию, мы можем интегрировать несколько существующих онтологий, описывающих части большой предметной области. Мы также можем повторно использовать основную онтологию, такую как UNSPSC, и расширить ее для описания интересующей нас предметной области.

Создание явных допущений в предметной области, лежащих в основе реализации, дает возможность легко изменить эти допущения при изменении наших знаний о предметной области. Жесткое кодирование предположений о мире на языке программирования приводит к тому, что эти предположения не только сложно найти и понять, но и также сложно изменить, особенно непрограммисту. Кроме того, явные спецификации знаний в предметной области полезны для новых пользователей, которые должны узнать значения терминов предметной области.


Отделение знаний предметной области от оперативных знаний – это еще один вариант общего применения онтологий. Мы можем описать задачу конфигурирования продукта из его компонентов в соответствии с требуемой спецификацией и внедрить программу, которая делает эту конфигурацию независимой от продукта и самих компонентов (McGuinness and Wright 1998). После этого мы можем разработать онтологию компонентов и характеристик ЭВМ и применить этот алгоритм для конфигурирования нестандартных ЭВМ. Мы также можем использовать тот же алгоритм для конфигурирования лифтов, если мы предоставим ему онтологию компонентов лифта (Rothenfluh et al. 1996).

Анализ знаний в предметной области возможен, когда имеется декларативная спецификация терминов. Формальный анализ терминов чрезвычайно ценен как при попытке повторного использования существующих онтологий, так и при их расширении (McGuinness et al. 2000).

Часто онтология предметной области сама по себе не является целью. Разработка онтологии сродни определению набора данных и их структуры для использования другими программами.


тоды решения задач, доменно-независимые приложения и программные агенты используют в качестве данных онтологии и базы знаний, построенные на основе этих онтологий. К примеру, в этой статье мы разрабатываем онтологию вин и еды, а также подходящие комбинации вин и блюд. Затем эту онтологию можно будет использовать как основу для приложений в наборе инструментов для управления рестораном: Одно приложение могло бы составлять список вин для меню на текущий день или отвечать на запросы официантов и посетителей. Другое приложение могло бы анализировать инвентарный перечень винного погреба и предлагать категории вин для пополнения и конкретные вина для закупки к следующим меню или для поваренных книг.

Источник: habr.com

Предмет онтологии

Бытие невозможно определить традиционным образом. Это существование в целом, как оно есть безо всякой причины. У бытия не может быть причины. Оно само является причиной для себя и для всего сущего. Сущее — это всё, что существует. Бытие — первично, сущее — вторично. Онтология изучает взаимосвязь между бытием и сущим. К проблемам онтологии относятся вопросы:

  • Как бытие выражается через сущее?
  • Какие формы оно принимает?
  • Какие закономерности существуют?

При этом бытие можно условно разделить на природное целое, и осознаваемое человеком.

Предметом онтологии в узком смысле является противопоставление бытия и небытия, сущего и не-сущего. Проще говоря, онтология в узком смысле изучает вопрос «Что существует, а что нет?»

Основные категории онтологии

Какие категории и основные понятия онтология в широком смысле использует в процессе познания бытия? В основном это понятия из философии:


  • Онтология в античные временаНебытие — полное и абсолютное ничто. Но бытие познаваемо лишь на фоне небытия.
  • Ничто — пустота, из которой под воздействием бытия может возникнуть сущее.
  • Сущее — категория, которая употребляется для обозначения всех существующих вещей и процессов. В некоторых онтологических концепциях сущее используется как синоним бытия, а в других — противопоставляется ему.
  • Сущность или «вещь в себе». Эта категория описывает внутреннее существование вещей и зачастую используется как синоним бытия.
  • Материя — всё то, что существует в объективной реальности и познаётся человеком через органы чувств.
  • Движение — изменение всего сущего в пространстве и времени.
  • Пространство — взаиморасположение объектов и элементов материального мира.
  • Время — категория, предназначенная для определения продолжительности протекания процессов.
  • Субстанция — основа мироздания, которая может быть как материальной, так и духовной.

Ознакомившись с основными понятиями онтологии, можно приступить к рассмотрению концепций этой науки.

История развития онтологии

Онтология, как особый раздел философии, складывалась веками. Основной фундамент заложили древние греки. Выдающиеся мыслители средневековья и нового времени добавляли по кирпичику в здание онтологической науки, выявляя её функции и задачи. Чтобы разобраться в онтологических концепциях и проблемах, необходимо проследить за развитием философской мысли с древних времен и до наших дней.

В античные времена

Онтология и ее предметДревнегреческий философ Парменид был первым, кто рассматривал не только существующие объекты и процессы, но и поднял в своих трудах вопрос бытия в целом. Он определял бытие как нечто, являющееся причиной всего, в том числе самого себя. Оно, согласно Пармениду, ни от чего не зависело и поэтому не могло возникнуть или исчезнуть. Оно едино, неделимо, неизменно и самодостаточно. Как материальный мир, так и духовный, божественный, являются лишь проявлениями бытия.

Зенон Элийский — ученик Парменида — предложил несколько парадоксов в подтверждение теории о единстве и неделимости бытия. Во всех этих парадоксах использовалось предположение, что бытие делимо, что и приводило к противоречию. Самые известные парадоксы Зенона:

  • Ахиллес и черепаха,
  • Дихотомия,
  • Летящая стрела.

Онтология в философииПарадокс Ахиллеса и черепахи заключался в том, что в соревнованиях по бегу Ахиллес, дав фору черепахе, никогда её не догонит. Доказательство строилось на делимости расстояния. Черепаха получила какое-то расстояние форы. Пока Ахиллес преодолеет это расстояние, черепаха тоже немного продвинется вперед, и Ахиллес вновь останется позади. Пока он преодолеет то расстояние, что черепаха прошла за это время, черепаха вновь окажется ненамного, но впереди. И так до бесконечности.

Аналогичен парадокс дихотомии. Он утверждает, что любой путь непреодолим. Ведь пройдя половину пути, человеку надо пройти половину оставшейся половины, потом половину оставшейся четверти и так далее. В любой момент времени его будет отделять от финиша половина пути.

Парадокс о летящей стреле опровергает предположение о делимости времени. Ведь в любой момент времени стрела в пространстве покоится, так как занимает в пространстве место, равное её длине . Но из моментов покоя не может сложиться движение, значит, летящая стрела неподвижна.


Следующим философом, внесшим значительный вклад в развитие онтологии, стал Платон. Его учение об идеях гласило, что идеи — это первообразы, первопричины и цели всех вещей. Сущность вещей в понимании Платона единична, а идеи общи. Но единичное причастно к общей идее, а общая идея временно присутствует в единичном. Согласно диалектике Платона, бытие представляло собой совокупность идей. В познании же он видел интеллектуальное восхождение к сущности бытия.

Если Платон провёл границу между бытием и материальным миром, то его последователи, названные неоплатониками, изобразили это различие, как две ипостаси: «единого» и «ума». Единым они называли совокупность идей, умом обозначали познание материального мира. Далее идеи Платона развил и систематизировал Аристотель, описал их в своей «Метафизике». Но он уделял больше внимания сущему и объектам физического мира.

В Средние века

Разделение мненийВ средневековой философии основной проблемой онтологии стало то, что оказалась на службе у теологии. Некоторые мыслители разделяли понятие бытия и Бога. Бог для них мыслился источником и дарителем бытия. Тем самым они противоречили самому определению этого понятия, как неизменного и не имеющего причины. Поэтому большинство средневековых философов персонализировали бытие как Бога, который является причиной самого себя и всего сущего.


В это время формируются два направления в философии и, в частности, в онтологии: аристотелевскую и августинскую. Представитель первого направления — Фома Аквинский — выявляет различия между сущностью и существованием, а также ввёл такое понятие, как «чистый акт творения», сосредоточенный в самом бытии. Его главный оппонент — представитель второго направления — Иоанн Дунс Скотт убежден, что абсолютная полнота сущности — это и есть существование, а Бог свободен лишь в выборе идей. Подобные споры схоластов порождали новые установки и понятия в онтологии.

Уильям Оккам придерживался идеи об абсолютной свободе Бога в акте творения, указывая, что Бог не ограничен даже идеями. Более тог он отрицал идеи, как некие универсалии и рассматривал их как внутреннюю реальность индивидов. Именно идеи Оккама привели к тому, что онтология в новом времени ушла на задворки философии и её место заняла гносеология, а проблема бытия была заменена проблемой познания. В эпоху Ренессанса появляется сам термин онтология, близкий по значению к метафизике.

В новое время

Однако философы нового времени возвращаются к онтологии. Самой яркой фигурой в онтологии нового времени становится Иммануил Кант, хотя сам он считал эту науку бессодержательной метафизикой. Кант раскладывает бытие на две составляющие:

  • материальные феномены,
  • идеальные категории.

Объединение этих граней реальности он видит только в мыслящем «Я». Здесь отчётливо видно влияние гносеологии на философию Канта. Его мало интересует бытие само по себе, вне действительного или возможного опыта. Основой для идеальных категорий у Канта служит свобода и целесообразность. Именно его взгляды заложили основу для, так называемой, новой онтологии.

Если Кант утверждал, что онтология, как учение о бытие без опоры на человеческий разум и познание, бессмысленна, то Гегель опровергал это утверждение. Согласно Гегелю, жизнь любого индивида подчинялась определенный законам мирозданья, единым для всех и существующим независимо от людских знаний о них.

Фейербах не разделял идеализма Гегеля. Он полагал, тот навязывает бытию формы и наделяет его самостоятельностью. В то время как сам Фейербах считал, что бытие познаётся через органы чувств. Таким образом, в новом времени столкнулись идеализм и диалектический материализм в рамках онтологии. Диалектический материализм полагал, что бытие исключительно материально. А идеализм считал, что бытие лишь проявляется в материальном мире, но представляет с собой нечто большее. Идеалисты были ближе к изначальным идеям Парменида и Зенона. Исключительная материальность бытия противоречит идеи о его неизменности. Идеалисты считали, что материально лишь сущее, а форму и смысл ему придаёт бытие.

Нельзя не упомянуть такого яркого представителя диалектического материализма, как Карл Маркс. Он не считал онтологию наукой, так как она не имела собственного метода познания. Взгляды Маркса на сущность и сущее были весьма прагматичны. Он считал, чти идеальная субстанция или дух — это нечто такое, через что можно выразить все объекты материального мира. Такой идеальной субстанцией, в понимании Карла Маркса, были деньги, так как любой объект материального мира можно было выразить через них.

Двадцатый век

Основные категории онтологииНа сегодняшний день авторство наиболее структурированной онтологической концепции принадлежит Николаю Гартману. Но не поддерживает определение бытия как некой абстрактной сущности. Гартман утверждает, что бытие неотделимо от познания и смысл онтологии видит в изучении этого бытия. Именно в этом и заключается новая онтология, основы которой заложил ещё Кант. Именно новая онтология стала использовать категорийный анализ как метод познания, что должно было положить конец спорам о её научности.

Хайдеггер в своей фундаментальной онтологии расширяет понятие реальности, включая в него не только материальное, но и духовное. Также он отделяет бытие от его проявлений и выделяет «чистую субъективность» в познаниях человека. Ему противостоят сторонники неопозитивизма, считающие, что возрождение онтологии — это возврат к заблуждениям прошлого, а все проблемы онтологии решаются путём логического анализа её постулатов.

Источник: obrazovanie.guru

Раздел: Информационные технологии
Автор(ы): А.Я. Гладун, Ю.В. Рогушина, журнал «Корпоративные системы» (№1, 2006) размещено: 05.03.2007
обращений: 52450

Онтологический подход это
Онтологический подход это
Сегодня при разработке корпоративных систем управления знаниями самое узкое место — не программный аспект, а задача извлечения, формулирования, структурирования и представления информации, т. е. данных и знаний. В статье акцент делается на роли онтологий как модели описания знания в подобных системах. Именно онтология формирует самое общее представление об объекте исследования, фиксирует категориальный аппарат концепции (теории).
К ключевым идеям, влияющим на современные тенденции развития корпоративных систем и бизнеса, можно отнести управление знаниями, виртуальные предприятия, реинжиниринг, организационное обучение, инновации в бизнес-процессах, комплексные системные приложения для бизнеса, самоадаптирующиеся системы, электронную коммерцию, Интернет/Интранет-стратегии, права интеллектуальной собственности, технологии аутсорсинга, информационные порталы.

Эти идеи могут быть выражены одной фразой: «радикальные непрекращающиеся изменения».

БИЗНЕС И ЗНАНИЯ

Для современного бизнеса характерно постоянное изменение среды, в которой работают, адаптируются и выживают общества, организации, люди. В условиях конкуренции судьба бизнеса во многом определяется скоростью и точностью реакции компании на изменение внешней среды, а это требует применения в менеджменте новых концепций, техник и инструментария.

Деятельность как отдельных людей, так и организаций сейчас все в большей степени зависит от имеющихся у них знаний — одного из самых ценных ресурсов — и способности их эффективно использовать. Однако средства, предназначенные для представления знаний, еще недостаточно совершенны и часто заставляют вновь и вновь искать решения одних и тех же задач.

Различные группы пользователей, занимающиеся обработкой и анализом информации, используют специальную терминологию, которая применяется другими сообществами в ином контексте. В то же время в различных сообществах часто встречаются различные обозначения для одних и тех же понятий.

Все это значительно усложняет взаимопонимание, поэтому важно разрабатывать модели представления знаний, которые обеспечивали бы автоматизированную обработку информации на семантическом уровне в системах управления знаниями (СУЗ).

Управление знаниями сегодня рассматривается как мощное конкурентное преимущество в фирме, ориентированной на постоянные изменения бизнес-процессов. Но ни информационные технологии (ИТ), ни данные сами по себе не могут обеспечить конкурентного преимущества на долгосрочный период. Конкурентные преимущества могут быть достигнуты только «переводом» информации в ценные, смысловые руководства к действию. Таким образом, знание состоит в действии: в эффективном представлении данных и информационных ресурсов для принятия решений, а также в самом выполнении принятого решения.

Почти все компании обладают огромным исходным багажом данных и практического опыта. Но пока эта информация рассредоточена в базах данных, хранилищах документов, сообщениях электронной почты, отчетах о продажах и, разумеется, в головах сотрудников. Проблема в том, чтобы организовать доступ к этим данным, придав им форму, удобную для использования. Это не просто, а если еще требуется сделать это быстро (чтобы принять на основе анализа информации неотложное решение), задача может оказаться практически невыполнимой.

Таким образом, управление знаниями — это стратегия предприятия, цель которой — выявить и обратить на пользу фирме всю имеющуюся у нее информацию, опыт и квалификацию сотрудников с тем, чтобы повысить качество обслуживания клиентов и сократить время реакции на меняющиеся рыночные условия. Одним из важнейших и перспективных направлений в области формализации знаний, которое дает возможность использования накопленных знаний для компьютерной обработки, являются онтологии.

Управление знаниями (Knowledge Management) — совокупность процессов и технологий, предназначенных для выявления, создания, распространения, обработки, хранения и предоставления для использования знаний.

Онтология — целостная структурная спецификация некоторой предметной области, ее формализованное представление, которое включает словарь (или имена) указателей на термины предметной области и логические выражения, описывающие, как они соотносятся друг с другом.

КОРПОРАТИВНЫЕ СИСТЕМЫ, ОСНОВАННЫЕ НА ЗНАНИЯХ

Термин «управление знаниями» начал использоваться еще в середине 1990-х годов в связи с проблемами, возникшими при обработке больших объемов информации в крупных корпорациях. Он связан с поддержкой процессов создания, распространения, обработки и использования знаний внутри предприятия.

Можно рассматривать управление знаниями как комплексную организационно-техническую деятельность, направленную на повышение эффективности использования знания в бизнес-процессах организации (предприятия). При этом знания классифицируются и распределяются по категориям в соответствии с предопределенной, но развивающейся онтологией структурированных и слабо структурированных баз данных и баз знаний.

Задачи и цели СУЗ. Задача СУЗ — накапливать не разрозненную информацию, а структурированные, формализованные знания — закономерности и принципы, позволяющие решать реальные производственные задачи. Основная цель СУЗ — сделать знания доступными и повторно используемыми на уровне всей корпорации.

Онтологический подход к проектированию СУЗ как раз и позволяет создавать системы, в которых знания, накопленные внутри организации, становятся доступными для большинства пользователей. Основные преимущества этого подхода:

  • онтология представляет пользователю целостный, системный взгляд на определенную предметную область (ПрО);
  • знания о ПрО представлены единообразно, что упрощает их восприятие;
  • построение онтологии позволяет восстановить недостающие логические связи ПрО.

Например, в электронной коммерции онтологическое представление знаний используют для поддержки автоматизированного обмена данными между покупателями и продавцами, для вертикальной интеграции рынков (VerticalNet.com), а также для повторного использования описаний различными электронными торговыми точками. Механизмы поиска также применяют онтологии для выборки страниц с синтаксически различными, но семантически одинаковыми словами.

Важность онтологического подхода в СУЗ обусловлена также тем, что знание, которое не описано и не тиражировано, в конечном счете становится устаревшим и бесполезным. Напротив, знание, которое распространяется, приобретается и обменивается, генерирует новое знание.

В СУЗ знаниями считают всю доступную информацию (документы, сведения о заказчиках, описание технологий работы, продукции и т. д.), а также закономерности предметной области, полученные из практического опыта или внешних источников. Эти знания различаются в зависимости от отраслей индустрии и могут быть рассредоточены по всему предприятию.

Одними из первых СУЗ были хранилища данных. В дальнейшем идея хранилища трансформировалась в понятие корпоративной памяти, которая содержит гетерогенную информацию из различных источников и обеспечивает доступ к ней для решения производственных задач. Корпоративная память фиксирует информацию из различных источников и делает эту информацию доступной специалистам для решения производственных задач (рис. 1).

Структура корпоративной памяти

Разработка СУЗ. При разработке СУЗ выделяют следующие этапы:

  • накопление — стихийное и бессистемное накопление информации в организации;
  • извлечение — процесс, идентичный традиционному извлечению знаний для экспертной системы (один из наиболее сложных и трудоемких этапов, от его успешности зависит дальнейшая жизнеспособность системы);
  • структурирование — на этом этапе должны быть выделены основные понятия, выработана структура представления информации, обладающая максимальной наглядностью, простотой изменения и дополнения;
  • формализация — представление структурированной информации в форматах машинной обработки, то есть на языках описания данных и знаний;
  • обслуживание — под процессом обслуживания понимается корректировка формализованных данных и знаний (добавление, обновление), удаление устаревшей информации, фильтрация данных и знаний для поиска информации, необходимой пользователям.

На сегодняшний день созданы индустриальные системы централизованного управления распределенными хранилищами информации, представленной в любых форматах, в том числе изображения, файлы различных офисных приложений и систем CAD/CAM.

При этом возникает естественный вопрос — откуда берутся эти знания?

Источники знаний. Традиционным решением, широко применявшимся в ранних экспертных системах, было извлечение знаний из памяти эксперта. При этом применяются как пассивные методы (наблюдение, анализ протоколов работы, лекционные материалы), так и активные (анкетирование, интервью, экспертные игры и т. д.). Однако широко известна парадоксальная закономерность: по мере накопления опыта эксперт все больше утрачивает способность формализовать эти знания в виде, доступном неспециалисту. Именно поэтому работа с экспертами так сложна и дорога (к ней надо привлекать квалифицированных инженеров по знаниям), а главное — крайне трудоемка и требует значительного времени.

В связи с этим для создания прикладных систем, основанных на знаниях, интерес представляют методы автоматизированного извлечения знаний из потоков данных, отражающих реальную работу специалистов в какой-либо ПрО и позволяющих обобщать и формализовать их опыт.

Знания — совокупность сведений, отчетов, фактов, понятий, представлений о чем-либо, накопленных в результате обучения, опыта, в процессе деятельности.

Корпоративные знания — знания, которые доступны организации в явном виде и могут использоваться для повышения эффективности сотрудниками данной организации.

Хранилище данных — система хранения данных большого объема, реализуемая на основе БД разных типов и позволяющая объединять их в единый рабочий массив.

DATA MINING

Data Mining (в буквальном переводе с английского — «добыча данных») — это направление в ИТ, которое связано с автоматизированным извлечением знаний (неявным образом присутствующих в обрабатываемой информации) и базируется на интеллектуальном анализе данных.

Мониторинг деятельности. В связи с совершенствованием технологий записи и хранения данных в электронной форме деятельность любого предприятия стала сопровождаться регистрацией и записью всех подробностей его деятельности, вследствие чего стали доступны потоки информации в самых различных областях. Специфика таких потоков данных заключается в следующем:

  • данные крайне неоднородны, что требует различных средств для обработки (например для информации на естественном языке, мультимедийных данных от разнообразных датчиков, переработки количественной информации);
  • объем данных крайне велик и постоянно возрастает;
  • инструменты, предназначенные для анализа этих данных, должны быть доступны пользователю, не являющемуся профессиональным программистом или специалистом в ИТ (соответственно, полученные в результате анализа знания должны представляться наглядно и просто);
  • необходимо обеспечить отчуждаемость от производителя, т. е. однажды извлеченные знания (правила, закономерности, связи) должны быть доступны всем пользователям (например в рамках корпоративной БЗ).

Скрытые знания. В основе современной технологии Data Mining лежит концепция шаблонов, отражающих различные фрагменты взаимоотношений в данных. Важное свойство методов Data Mining — нетривиальность обнаруживаемых шаблонов, которые должны отражать неочевидные, ранее неизвестные регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge). Примерами сфер приложения таких технологий являются анализ покупательской корзины в розничной торговле, прогнозирование изменений клиентуры, выявления мошенничества с кредитными карточками.

Методы Data Mining позволяют выделить следующие типы закономерностей:

  • последовательность (например после покупки объекта А в течение месяца с большой вероятностью следует покупка объекта Б);
  • связь между событиями (например покупка объектов А и Б с большой вероятностью осуществляется одновременно);
  • классификация (клиенты фирмы относятся к одной из групп с относительно постоянными потребностями и требованиями);
  • кластеризация отличается от классификации тем, что сами группы заранее не задаются и выделяются непосредственно в процессе анализа;
  • прогноз — построение временных рядов, отражающих динамику поведения целевых показателей.

Text Mining. Так называется одна из подобластей Data Mining, которая ориентирована на обработку текстовой информации и широко применяется для мониторинга ресурсов Интернет. Задача Text Mining — проанализировать не синтаксис, а семантику значения текстов, выбрать из него информацию, наиболее значимую для пользователя (есть тесная связь с контент-анализом). Обычно выделяют такие приложения Text Mining:

  • реферирование текстов на естественном языке;
  • классификацию (тематическое индексирование) текстовых документов;
  • кластеризацию текстовых документов и их фрагментов;
  • построение онтологии текстового документа (основных терминов и связей между ними), например семантической сети;
  • визуализация полученных знаний.

Повторное использование. Data Mining — достаточно трудоемкий и дорогостоящий процесс, а получаемые в результате знания — ценный продукт. Поэтому одним из важных направлений является построение технологий и методов, направленных на обеспечение повторного использования этих знаний. Однако повторное использование знаний в различных контекстах невозможно без наличия механизмов, позволяющих фиксировать различное понимание этих знаний. Это связано с тем, что у каждого пользователя есть свое индивидуальное представление об окружающем его мире. Целостное представление о некоторой проблемной области позволяет дать ее онтологическая модель.

Рассмотрим более детально, что такое онтология, и в каком смысле применяется этот термин сегодня в ИТ.

Data Mining — процесс обнаружения значимых зависимостей и тенденций в результате интеллектуального анализа содержимого хранилищ и баз данных.

Text Mining — совокупность технологий извлечения знаний из документов на естественных языках и их представления в необходимой пользователю форме.

Контент-анализ — методика объективного качественного анализа содержимого информационных ресурсов.

ЧТО ТАКОЕ ОНТОЛОГИЯ?

Понятие онтология1 сейчас активно применяется в информатике и искусственном интеллекте. Этот термин пришел из философии, где обозначал часть метафизики — учение о всем сущем, о его наиболее общих философских категориях, таких как бытие, субстанция, причина, действие, явление. При этом онтология как наука претендовала на полное объяснение причин всех явлений.

В инженерии знаний под онтологией понимается детальное описание некоторой проблемной области, которое используется для формального и декларативного определения ее концептуализации. Часто онтологией называют базу знаний специального вида, которую можно разделять, отчуждать и самостоятельно использовать в рамках рассматриваемой ПрО.

Можно сказать, что онтология — это точная спецификация некоторой области, которая включает в себя словарь терминов этой области и множество логических связей (типа «элемент-класс», «часть-целое»), которые описывают, как эти термины соотносятся между собой2. Заметим, что при таком подходе понятие онтологии сильно пересекается с уже давно принятым в информатике и лингвистике понятием тезауруса.

Онтологии позволяют представить понятия в таком виде, что они становятся пригодными для машинной обработки. Нередко онтологии используются в качестве посредника между пользователем и информационной системой, они позволяют формализовать договоренности о терминологии между членами сообщества, например между пользователями некоторого корпоративного хранилища данных.

В центре большинства онтологий находятся классы, которые описывают понятия ПрО. Например, все информационные ресурсы Интернет, с одной стороны можно классифицировать как текстовые, графические, аудио, мультимедийные и т. д., а с другой — как платные либо бесплатные. Слоты (параметры) описывают свойства классов и экземпляров. Например, на уровне экземпляров классов информационные ресурсы можно описывать через такие слоты, как размер, имя, тематика, местоположение, протокол доступа и т. д.

На формальном уровне онтология — система, состоящая из наборов понятий и утверждений об этих понятиях, на основе которых можно строить классы, объекты, отношения, функции и теории. Практически все модели онтологии содержат определенные концепты (понятия, классы), свойства концептов (атрибуты, роли), отношения между концептами (зависимости, функции) и дополнительные ограничения, которые определяются аксиомами. Концептом может быть описание задачи, функции, действия, стратегии, процесса соображения и т. п.

Онтологические системы строятся на основе следующих принципов:

  • формализации, т. е. описания объективных элементов действительности в единых, строго определенных образцах (терминах, моделях и др.);
  • использования ограниченного количества базовых терминов (сущностей), на основе которых конструируются все остальные понятия;
  • внутренней полноты и логической непротиворечивости.

В отличие от обычного словаря для онтологической системы характерно внутреннее единство, логическая взаимосвязь и непротиворечивость используемых понятий.

КЛАССИФИКАЦИЯ ОНТОЛОГИЙ

Классифицировать онтологии можно по различным параметрам (в зависимости от того, с какой целью их классифицируют), например:

  • по степени зависимости от конкретной задачи или прикладной области;
  • по языку представления онтологических знаний и его выразительным возможностям;
  • по уровню детализации аксиоматизации;
  • по предметной области.

Дополнительно к этим характеристикам можно ввести и классификации онтологии, связанные с разработкой, реализацией и сопровождением онтологии, но такая типизация более уместна при обсуждении вопросов реализации онтологических систем.

По степени зависимости от конкретной задачи или предметной области обычно различают следующие онтологии (рис. 2).

Иерархия онтологий

Верхнего уровня. Такие онтологии описывают наиболее общие концепты (пространство, время, материя, объект, событие, действие и т. д.), которые независимы от конкретной проблемы или области. Поэтому представляется разумным (по крайней мере, в теории) унифицировать их для больших сообществ пользователей. Примером такой общей онтологии является коммерческий проект онтологии CYC. Это база знаний, содержащая все общие понятия окружающего мира, которую могут использовать самые разные программные средства. По некоторым данным, в CYC уже представлены 10 концептов и 105 аксиом. Для представления знаний в рамках этого проекта разработан специальный язык CYCL.

Ориентированные на предметную область. Во многих дисциплинах сейчас разрабатываются стандартные онтологии, которые могут использоваться экспертами по предметным областям (доменам) для совместного использования и аннотирования информации в своей области. Например, в области медицины созданы большие стандартные, структурированные словари, такие как SNOMED и семантическая сеть Системы Унифицированного Медицинского Языка (the Unified Medical Language System). Также появляются обширные общецелевые онтологии. Так, программа ООН по развитию (United Nations Development Program) и компания Dun&Bradstreet объединили усилия для разработки онтологии UNSPSC, которая предоставляет терминологию товаров и услуг (www.unspsc.org).

Ориентированные на задачу. Это онтология, используемая конкретной прикладной программой и содержащая термины, которые используются при разработке ПО, выполняющего конкретную задачу. Она отражает специфику приложения, но может также содержать некоторые общие термины (например, в графическом редакторе будут и специфические термины — палитра, тип заливки, наложение слоев и т. д., и общие — сохранить и загрузить файл).

Онтологии ПрО и онтологии задач описывают, соответственно, словари, которые относятся к определенной ПрО (например медицина, дистанционное обучение, Интернет-технологии) или типичной задаче (например диагностика, продажа). При этом они используют специализацию терминов, представленных в онтологиях верхнего уровня.

Прикладные онтологии описывают концепты, которые зависят как от онтологии задач, так и от онтологии домена. Примером может служить онтология для автомобилей, строительных материалов, вычислительной техники. Онтология ПрО обобщает понятия, использующиеся в некоторых задачах домена, абстрагируясь от самих задач (так, онтология автомобилей независима от любых особенностей конкретных марок машин).

ОНТОЛОГИЧЕСКИЙ АНАЛИЗ

В основе онтологического анализа лежит описание системы (например корпорации) в терминах сущностей, отношений между ними и преобразование сущностей, которое выполняется в процессе решения определенной задачи.

Основной характерной чертой этого подхода является, в частности, разделение реального мира на составляющие и классы объектов и определение их онтологий, или же совокупности фундаментальных свойств, которые определяют их изменения и поведение. Эти подходы и методологии базируются на следующих принципах проектирования и реализации онтологии.

Ясность — онтология должна эффективно передавать смысл введенных терминов, ее определения должны быть объективны, а для их объективизации должен использоваться четко фиксированный формализм.

Согласованность — все определения должны быть логически непротиворечивы, а те утверждения, которые выводимы в онтологии, не должны противоречить ее аксиомам.

Расширяемость — необходимо проектировать онтологию так, чтобы ее словари терминов можно было расширять без ревизии уже существующих понятий.

Минимум влияния кодирования — концептуализация онтологии должна быть специфицирована на уровне представления, а не символьного кодирования.

Минимум онтологических обязательств — онтология должна содержать только наиболее существенные предположения о моделируемой ПрО, чтобы оставлять свободу расширения и специализации.

Онтологический инжиниринг подразумевает глубокий структурный анализ предметной области. Приведем простейший алгоритм онтологического инжиниринга:

  • выделение концептов — базовых понятий данной предметной области;
  • определение «высоты дерева онтологий» — количество уровней абстракции;
  • распределение концептов по уровням;
  • построение связей между концептами — определение отношений и взаимодействий базовых понятий;
  • консультации с различными специалистами для исключения противоречий и неточностей.

Методология построения онтологии предполагает рассмотрение следующих важных вопросов:

  • обозначение целей и области применения создаваемой онтологии;
  • построение онтологии, которое включает:
    1) фиксирование знаний о ПрО, т. е. определение основных понятий и их взаимоотношений в выбранной предметной области; создание точных непротиворечивых определений для каждого основного понятия и отношения; определение терминов, которые связаны с этими терминами и отношениями; 2) кодирование, т. е. разделение совокупности основных терминов, используемых в онтологии, на отдельные классы понятий; 3) выбор или разработку специального языка для представления онтологии; 4) непосредственно задание фиксированной концептуализации на выбранном языке представления знаний;
  • совместное использование людьми или программными агентами общего понимания структуры информации;
  • обеспечение возможности использования знаний ПрО;
  • создание явных допущений в ПрО, лежащих в основе реализации;
  • отделение знаний ПрО от оперативных знаний — это еще один вариант общего применения онтологий;
  • анализ знаний в ПрО.

МОДЕЛИРОВАНИЕ БИЗНЕС-ПРОЦЕССОВ

Понятие онтологии и онтологического анализа вошли и в процедуры и стандарты моделирования бизнес-процессов. Ведь описание бизнес-процесса — это по сути структурирование данных и знаний.

Существует много сложных формаций или систем, созданных и поддерживаемых человеком, таких как коммерческие предприятия, корпорации и т. д. Эти системы представляют собой совокупность взаимосвязанных между собой объектов и процессов, в которых определенные объекты тем или иным образом участвуют. Онтологическое исследование подобных сложных систем позволяет накопить ценную информацию об их работе, результаты анализа которой будут иметь решающее мнение при проведении процесса реорганизации существующих и построении новых систем.

Для моделирования таких сложных систем разработан ряд методологий, например методологии семейства IDEF (Integrated DEFintion). IDEF содержит 14 государственных стандартов США, созданных в рамках предложенной ВВС США программы компьютеризации промышленности ICAM. Они предназначены для анализа процессов взаимодействия в производственных системах. Для поддержки онтологического анализа предназначена методология IDEF5.

Онтологический анализ обычно начинается с составления словаря терминов, который используется при обсуждении и исследовании характеристик объектов и процессов, составляющих рассматриваемую систему, а также создания системы точных определений этих терминов. Кроме того, документируются основные логические взаимосвязи между соответствующими введенным терминам понятиями. Результатом этого анализа является словарь терминов, точных их определений и взаимосвязей между ними.

Таким образом, онтология содержит совокупность терминов и правила, согласно которым эти термины могут быть скомбинированы для построения достоверных утверждений о состоянии рассматриваемой системы в некоторый момент времени. Кроме того, на основе этих утверждений могут быть сделаны соответствующие выводы, позволяющие вносить изменения в систему для повышения эффективности её функционирования.

Процесс построения онтологии, согласно IDEF5, состоит из пяти основных действий:

  • изучение и систематизирование начальных условий — это действие устанавливает основные цели и контексты проекта разработки онтологии, а также распределяет роли между членами проекта;
  • сбор и накапливание данных — на этом этапе происходит сбор и накапливание необходимых начальных данных для построения онтологии;
  • анализ данных — эта стадия заключается в анализе и группировке собранных данных ипредназначена для облегчения построения терминологии;
  • начальное развитие онтологии — на этом этапе формируется предварительная онтология на основе отобранных данных;
  • уточнение и утверждение онтологии — заключительная стадия процесса.

В любой системе существуют две основные категории предметов восприятия: объекты, составляющие систему, и взаимосвязи между этими объектами, характеризующие состояние системы.

На начальном этапе построения онтологии должны быть выполнены следующие задачи:

  • создание и документирование словаря терминов;
  • описание правил и ограничений, согласно которым на базе введенной терминологии формируются достоверные утверждения, описывающие состояние системы;
  • построение модели, которая на основе существующих утверждений позволяет формировать необходимые дополнительные утверждения.

Для поддержания процесса построения онтологии в IDEF5 разработаны специальные онтологические языки: схематический язык (Schematic Language-SL) и язык доработок и уточнений (Elaboration Language-EL).

Язык SL (рис. 3) позволяет строить разнообразные типы диаграмм и схем в IDEF5. Основная цель всех этих диаграмм — наглядно и визуально представлять основную онтологическую информацию.

Элементы построения онтологий в IDEF5

Существуют четыре основных вида схем, которые используются для накопления информации об онтологии в прозрачной графической форме.

  • диаграмма классификации (Classification Schematics) — обеспечивает механизм для логической систематизации знаний, накопленных при изучении системы;
  • композиционная схема (Composition Schematics) — механизм графического представления состава классов онтологии, позволяющий описывать, что из каких частей состоит, т. е. наглядно отображать состав объектов, относящихся к тому или иному классу;
  • схема взаимосвязей (Relation Schematics) — инструмент визуализации и изучения взаимосвязей между различными классами объектов в системе;
  • диаграмма состояния объекта (Object State Schematics) — средство документации процессов с точки зрения изменения состояния объекта.

Таким образом, диаграммы состояния в IDEF5 наглядно представляют изменения состояния или класса объекта в течение всего хода процесса. При построении концептуальной модели используются предметные знания в виде набора понятий и связывающих их отношений. Каждое понятие имеет имя и может иметь атрибуты, каждый атрибут может иметь значение с учетом специфики предметной области.

Строение и свойства любой системы могут быть эффективно исследованы при помощи словаря терминов, используемых при описании характеристик объектов и процессов, имеющих отношение к рассматриваемой системе, точных и однозначных определений всех терминов этого словаря и классификации логических взаимосвязей между этими терминами. Набор этих средств и является онтологией системы, а стандарт IDEF5 предоставляет структурированную методологию, с помощью которой можно наглядно и эффективно разрабатывать, поддерживать и изучать эту онтологию.

ПРОДОЛЖЕНИЕ — Онтологии в корпоративных системах. Часть II

Об авторах:

    Гладун Анатолий Ясонович — канд. техн. наук, с.н.с. Международного НУЦ информационных технологий и систем НАНУ,

    Рогушина Юлия Витальевна — канд. физ-мат. наук, с.н.с. Института программных систем НАНУ.


    1 От др.-греч, онтос — сущее, логос — учение, понятие.

    2 Самый простой пример — классификатор в любой ИС (прим ред.).

Онтологический подход это

comments powered by HyperComments

  • Множественность функций блокчейна
  • Три фактора для менеджера
  • Аналитика и разведка в организации — чем работать?
  • Реинжиниринг человеческих ресурсов, или испытание эффективностью
  • Управление портфелем ИТ-проектов
Торговля 4.0. Цифровая революция в торговле. Стратегии, технологии, трансформация Торговля 4.0. Цифровая революция в торговле. Стратегии, технологии, трансформация
Машинное обучение Машинное обучение
Технологии четвертой промышленной революции Технологии четвертой промышленной революции

Отзывы

Илья, [email protected]
Очень важный и интересный материал, особенно в современный период возрастания знаний в корпоративных системах.
Хотелось бы побольше таких статтей (как с информативной точки зрения так и с использованием реальных результатов).


Анатолий, [email protected]
Онтологии сейчас используются повсеместно для интеллектуализации различных задач ИКТ. Нет ни одной области, где невозможно было бы применить знания об этой предметной области для улучшения различных ее задач и функций

Источник: www.management.com.ua


Categories: Другое

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.