12.11.2020

Бикластеризация


Бикластеризация, блоковая кластеризация , сокластеризация, также двухмодальная кластеризация — методика data mining, которая позволяет одновременную кластеризацию строк и столбцов матрицы. Термин был впервые предложен Mirkin, хотя сам метод был придуман гораздо раньше (J.A. Hartigan).

Принимая на вход набор m {displaystyle m} строк в n {displaystyle n} столбцах (матрица размера m × n {displaystyle m imes n} ), алгоритм бикластеризации генерирует бикластеры — подмножество строк, которые проявляют похожее поведение через подмножество столбцов.

История развития

Бикластеризация была впервые представлена J. A. Hartigan в 1972 году. Термин бикластеризация был позднее введен Mirkin. Этот алгоритм не был обобщён до 2000 года, когда Y. Cheng и G. M. Church предложили алгоритм бикластеризации, основанный на дисперсии, и применили его к биологическим данным по экспрессии генов. Их статья до сих пор остаётся одним из наиболее важных литературных материалов в области бикластеризации экспрессии генов.

В 2001 и 2003 годах I. S. Dhillon предложил два алгоритма, в которых бикластеризация применяется для файлов и слов. Одна из версий была основана на разделении двудольных спектральных графов. Вторая была основана на теории информации. Dhillon допустил, что потеря взаимной информации при бикластеризации равна KL (расстояние Кульбака-Лейблера) между P и Q. P означает распределение файлов и характеристических слов перед бикластеризацией. Q, в свою очередь, — распределение после кластеризации. KL-расстояние необходимо в качестве меры отличий между двумя случайными распределениями. KL = 0, когда два распределения одинаковы, и возрастает, если возрастает отличие. Таким образом, целью алгоритма являлась минимизация KL-расстояния между P и Q. В 2004 A. Banerjee использовал взвешенное расстояние Брегмана вместо KL-расстояния, чтобы разработать алгоритм бикластеризации, подходящий для любого типа матрицы, в отличие от KL алгоритма.

С целью кластеризовать более чем два типа объектов Bekkerman в 2005 году расширил взаимную информацию в теореме Dhillon от одной пары до множества пар.

Сложность задачи

Сложность задачи бикластеризации зависит от конкретной формулировки, в особенности от функции, используемой для оценки качества полученного бикластера. Наиболее интересные варианты этих задач являются NP-полными и требуют больших вычислительных мощностей или использования эвристических подходов.

Типы бикластеров

Различные алгоритмы бикластеризации имеют различные определения бикластера

Основные типы:

  • Бикластер с постоянными значениями (a),
  • Бикластер с постоянными значениями по строкам (b) или столбцам (c),
  • Бикластер со сцепленными значениями (d, e).

  • Похожие новости:

    Алгоритм Кнута — Морриса — Пратта

    Алгоритм Кнута — Морриса — Пратта
    Алгоритм Кнута — Морриса — Пратта (КМП-алгоритм) — эффективный алгоритм, осуществляющий поиск подстроки в строке. Время работы алгоритма линейно зависит от объёма входных данных, то есть разработать

    Функция Гёделя

    Функция Гёделя
    Функция Геделя — функция, применяющаяся в теории алгоритмов для облегчения нумерации множеств натуральных чисел. Определение Функцией Геделя Γ ( x

    Выразительность (программирование)

    Выразительность (программирование)
    Выразительность языка программирования — качество языка, показывающее, насколько разнообразны идеи, которые можно реализовать на этом языке, и насколько легко они читаются. Например, в Web Ontology

    Алгоритм заметающей прямой

    Алгоритм заметающей прямой
    Алгоритм заметающей прямой или алгоритм выметания плоскости — это алгоритмическая парадигма, которая использует умозрительную выметающую прямую или выметающую поверхность для решения различных задач
    Комментариев пока еще нет. Вы можете стать первым!

    Добавить комментарий!

    Ваше Имя:
    Ваш E-Mail:
    Введите два слова, показанных на изображении: *
    Популярные новости
    Недорогие печи Лиговъ - качественная российская продукция
    Недорогие печи Лиговъ - качественная российская продукция
    Оснащенные «подовым горением» печи-камины стала выпускать компания «Лиговъ». От «колосниковых»...
    Камины Астов (Astov) - российская продукция премиум-класса
    Камины Астов (Astov) - российская продукция премиум-класса
    Камины устанавливаются в загородных домах и квартирах все чаще. Ассоциации они вызывают обычно...
    Что стоит принять во внимание прежде, чем вступить в СРО строителей
    Что стоит принять во внимание прежде, чем вступить в СРО строителей
    Вступление в СРО строителей в наше время – дело необходимое. Членство поможет повысить качество...
    Виды окон ПВХ и их преимущества
    Виды окон ПВХ и их преимущества
    В конце девяностых годов прошлого века в нашей стране появились пластиковые окна. Они сразу же...
    Особенности проведения отделки балкона
    Особенности проведения отделки балкона
    Балкон — это особое пространство квартиры, которое отличается небольшими квадратными метрами и...
    Что такое предпроектная документация и для чего она нужна
    Что такое предпроектная документация и для чего она нужна
    Прединвестиционная стадия характеризуется возможностью создания конечного результата. Это не...
    Особенности мобильных офисных перегородок. Основы правильной организации рабочего пространства
    Особенности мобильных офисных перегородок. Основы правильной организации рабочего пространства
    Мобильные офисные перегородки — это современные решения, помогающие быстро и эффективно зонировать...
    Все новости