Share to: share facebook share twitter share wa share telegram print page

 

Objetivo de Dasgupta

En el estudio de agrupamiento jerárquico, el objetivo de Dasgupta es una medida de la calidad de una agrupación, definida a partir de una medida de similitud de los elementos a agrupar. Lleva el nombre de Sanjoy Dasgupta, quien lo formuló en 2016. [1]​ La propiedad clave es que, cuando la similitud proviene de un espacio ultramétrico, la agrupación óptima para esta medida de calidad sigue la estructura subyacente del espacio ultramétrico. En este sentido, se puede esperar que los métodos de agrupamiento que producen buenos agrupamientos para este objetivo se aproximen a la verdad básica subyacente a la medida de similitud dada. [2]

En la formulación de Dasgupta, el argumento en un problema de agrupamiento consiste en puntajes de similitud entre ciertos pares de elementos, representados como un grafo no dirigido . , con los elementos como sus vértices y con las similitudes como pesos reales no negativos en sus aristas. Los pesos grandes indican elementos que deben considerarse más similares entre sí, mientras que los pesos pequeños o los bordes faltantes indican pares de elementos que no son similares. Un agrupamiento jerárquico se puede describir como un árbol (no necesariamente un árbol binario) cuyas hojas son los elementos que se agruparán; los grupos son entonces los subconjuntos de elementos que descienden de cada nodo del árbol, y el tamaño de cualquier agrupación es su número de elementos. Para cada arista del grafo de entrada, sea el peso de la arista y sea el grupo más pequeño de una agrupación que contiene tanto a como a . Dasgupta define el costo de un agrupamiento como [1]

El agrupamiento óptimo para este objetivo es NP-difícil de encontrar. Sin embargo, es posible encontrar un agrupamiento que se aproxime al valor mínimo del objetivo en tiempo polinomial mediante un algoritmo de agrupamiento divisivo (de arriba hacia abajo) que subdivide repetidamente los elementos utilizando un algoritmo de aproximación para el problema de corte más disperso, el problema de encontrar un partición que minimiza la relación entre el peso total de las aristas cortadas y el número total de aristas cortadas. [1]​ De manera equivalente, con fines de aproximación, se puede minimizar la relación entre el peso total de las aristas cortadas y el número de elementos en el lado más pequeño del corte. Usando la mejor aproximación conocida para el problema de corte más disperso, la relación de aproximación de este enfoque es . [3]

Referencias

  1. a b c Dasgupta, Sanjoy (2016), «A cost function for similarity-based hierarchical clustering», Proceedings of the 48th Annual ACM SIGACT Symposium on Theory of Computing (STOC 2016), New York, New York: ACM, pp. 118-127, MR 3536559, arXiv:1510.05043, doi:10.1145/2897518.2897527 .
  2. Cohen-Addad, Vincent; Kanade, Varun; Mallmann-Trenn, Frederik; Mathieu, Claire (2018), «Hierarchical clustering: objective functions and algorithms», Proceedings of the Twenty-Ninth Annual ACM-SIAM Symposium on Discrete Algorithms (SODA 2018), Philadelphia, Pennsylvania: Society for Industrial and Applied Mathematics, pp. 378-397, MR 3775814, arXiv:1704.02147, doi:10.1137/1.9781611975031.26 .
  3. Arora, Sanjeev; Rao, Satish; Vazirani, Umesh (2009), «Expander flows, geometric embeddings and graph partitioning», Journal of the ACM 56 (2): A5:1-A5:37, MR 2535878, doi:10.1145/1502793.1502794 .
Kembali kehalaman sebelumnya


Index: pl ar de en es fr it arz nl ja pt ceb sv uk vi war zh ru af ast az bg zh-min-nan bn be ca cs cy da et el eo eu fa gl ko hi hr id he ka la lv lt hu mk ms min no nn ce uz kk ro simple sk sl sr sh fi ta tt th tg azb tr ur zh-yue hy my ace als am an hyw ban bjn map-bms ba be-tarask bcl bpy bar bs br cv nv eml hif fo fy ga gd gu hak ha hsb io ig ilo ia ie os is jv kn ht ku ckb ky mrj lb lij li lmo mai mg ml zh-classical mr xmf mzn cdo mn nap new ne frr oc mhr or as pa pnb ps pms nds crh qu sa sah sco sq scn si sd szl su sw tl shn te bug vec vo wa wuu yi yo diq bat-smg zu lad kbd ang smn ab roa-rup frp arc gn av ay bh bi bo bxr cbk-zam co za dag ary se pdc dv dsb myv ext fur gv gag inh ki glk gan guw xal haw rw kbp pam csb kw km kv koi kg gom ks gcr lo lbe ltg lez nia ln jbo lg mt mi tw mwl mdf mnw nqo fj nah na nds-nl nrm nov om pi pag pap pfl pcd krc kaa ksh rm rue sm sat sc trv stq nso sn cu so srn kab roa-tara tet tpi to chr tum tk tyv udm ug vep fiu-vro vls wo xh zea ty ak bm ch ny ee ff got iu ik kl mad cr pih ami pwn pnt dz rmy rn sg st tn ss ti din chy ts kcg ve 
Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9