Merge branch 'master' of http://www.iramuteq.org/git/iramuteq
[iramuteq] / Rscripts / simi.R
1 #from proxy package
2 #############################################################
3 #a, b, c, and d are the counts of all (TRUE, TRUE), (TRUE, FALSE), (FALSE, TRUE), and (FALSE, FALSE) 
4 # n <- a + b + c + d = nrow(x)
5
6 make.a <- function(x) {
7     a  <- t(x) %*% (x)
8     a
9 }
10
11 make.b <- function(x) {
12     b <- t(x) %*% (1 - x)
13     b
14 }
15
16 make.c <- function(x) {
17     c <- (1-t(x)) %*% x
18     c
19 }
20
21 make.d <- function(x, a, b, c) {
22 #??????????? ncol ?
23     d <- ncol(x) - a - b - c
24     d
25 }
26
27 ###########################################
28 #x, a
29 ###########################################
30 my.jaccard <- function(x) {
31     a <- make.a(x)
32     b <- make.b(x)
33     c <- make.c(x)
34     d <- make.d(x, a, b, c)
35     jac <- a / (a + b + c)
36     jac
37 }
38
39
40 prcooc <- function(x, a) {
41     prc <- (a / nrow(x)) 
42     prc
43 }
44
45 make.bin <- function(cs, a, i, j, nb) {
46     if (a[i, j] >= 1) {
47         ab <- a[i, j] - 1 
48         res <- binom.test(ab, nb, (cs[i]/nb) * (cs[j]/nb), "less")
49     } else {
50         res <- NULL
51         res$p.value <- 0
52     }
53     #res <- binom.test(ab, nb, (cs[i]/nb) * (cs[j]/nb), "less")
54     res$p.value
55     }
56
57 binom.sim <- function(x) {
58     a <- make.a(x)
59     n <- nrow(x)
60     cs <- colSums(x)
61     mat <- matrix(0,ncol(x),ncol(x))
62     colnames(mat)<-colnames(a)
63     rownames(mat)<-rownames(a)
64     for (i in 1:(ncol(x)-1)) {
65         for (j in (i+1):ncol(x)) {
66             mat[j,i] <- make.bin(cs, a, i, j , n)
67         }
68     }
69 #    print(mat)
70     mat
71 }
72
73
74 ############################################
75 # a, b, c
76 ############################################
77 # jaccard a, b, c   a / (a + b + c)
78 # Kulczynski1 a, b, c   a / (b + c)
79 # Kulczynski2 a, b, c   [a / (a + b) + a / (a + c)] / 2
80 # Mountford a, b, c    2a / (ab + ac + 2bc)
81 # Fager, McGowan a, b, c   a / sqrt((a + b)(a + c)) - 1 / 2 sqrt(a + c)
82 # Russel, Rao a (a/n)
83 # Dice, Czekanowski, Sorensen a, b, c   2a / (2a + b + c)
84 # Mozley, Margalef a, b, c  an / (a + b)(a + c)
85 # Ochiai a, b, c  a / sqrt[(a + b)(a + c)]
86 # Simpson a, b, c   a / min{(a + b), (a + c)}
87 # Braun-Blanquet a, b, c  a / max{(a + b), (a + c)}
88
89 #simple matching, Sokal/Michener a, b, c, d, ((a + d) /n)
90 # Hamman, a, b, c, d, ([a + d] - [b + c]) / n
91 # Faith , a, b, c, d, (a + d/2) / n
92 # Tanimoto, Rogers a, b, c, d, (a + d) / (a + 2b + 2c + d)
93 # Phi  a, b, c, d   (ad - bc) / sqrt[(a + b)(c + d)(a + c)(b + d)]
94 # Stiles a, b, c, d  log(n(|ad-bc| - 0.5n)^2 / [(a + b)(c + d)(a + c)(b + d)])
95 # Michael   a, b, c, d   4(ad - bc) / [(a + d)^2 + (b + c)^2]
96 # Yule a, b, c, d  (ad - bc) / (ad + bc)
97 # Yule2  a, b, c, d  (sqrt(ad) - sqrt(bc)) / (sqrt(ad) + sqrt(bc))
98
99 BuildProf01<-function(x,classes) {
100         #x : donnees en 0/1
101         #classes : classes de chaque lignes de x
102         dm<-cbind(x,cl=classes)
103         clnb=length(summary(as.data.frame(as.character(classes)),max=100))
104         print(clnb)
105         print(summary(as.data.frame(as.character(classes)),max=100))
106         mat<-matrix(0,ncol(x),clnb)
107         rownames(mat)<-colnames(x)
108         for (i in 1:clnb) {
109                 dtmp<-dm[which(dm$cl==i),]
110                 for (j in 1:(ncol(dtmp)-1)) {
111                         mat[j,i]<-sum(dtmp[,j])
112                 }
113         }
114         mat
115 }
116
117 do.simi <- function(x, method = 'cooc',seuil = NULL, p.type = 'tkplot',layout.type = 'frutch', max.tree = TRUE, coeff.vertex=NULL, coeff.edge = NULL, minmaxeff=c(NULL,NULL), vcexminmax= c(NULL,NULL), cex = 1, coords = NULL, communities = NULL, halo = FALSE) {
118         mat.simi <- x$mat
119     mat.eff <- x$eff
120     v.label <- colnames(mat.simi)
121         g1<-graph.adjacency(mat.simi,mode="lower",weighted=TRUE)
122         g.toplot<-g1
123         weori<-get.edge.attribute(g1,'weight')
124         if (max.tree) {
125         if (method == 'cooc') {
126                     invw <- 1 / weori
127         } else {
128             invw <- 1 - weori
129         }
130                 E(g1)$weight<-invw
131                 g.max<-minimum.spanning.tree(g1)
132         if (method == 'cooc') {
133                     E(g.max)$weight<-1 / E(g.max)$weight
134         } else {
135             E(g.max)$weight<-1 - E(g.max)$weight
136         }
137                 g.toplot<-g.max
138         }
139
140     if (!is.null(seuil)) {
141         if (seuil >= max(mat.simi)) seuil <- 0
142         vec<-vector()
143         w<-E(g.toplot)$weight
144         tovire <- which(w<=seuil)
145         g.toplot <- delete.edges(g.toplot,(tovire))
146         for (i in 1:(length(V(g.toplot)))) {
147             if (length(neighbors(g.toplot,i))==0) {
148                 vec<-append(vec,i)
149             }
150         }
151         g.toplot <- delete.vertices(g.toplot,vec)
152         v.label <- V(g.toplot)$name
153         if (!is.logical(vec)) mat.eff <- mat.eff[-(vec)]
154     } else {
155                 vec <- NULL
156         }
157
158         if (!is.null(minmaxeff[1])) {
159         eff<-norm.vec(mat.eff,minmaxeff[1],minmaxeff[2])
160     } else {
161         eff<-coeff.vertex
162     }
163     if (!is.null(vcexminmax[1])) {
164         label.cex = norm.vec(mat.eff, vcexminmax[1], vcexminmax[2])
165     } else {
166         label.cex = cex
167     }
168     if (!is.null(coeff.edge)) {
169         we.width <- norm.vec(abs(E(g.toplot)$weight), coeff.edge[1], coeff.edge[2]) 
170             #we.width <- abs((E(g.toplot)$weight/max(abs(E(g.toplot)$weight)))*coeff.edge)
171     } else {
172         we.width <- NULL
173     }
174     if (method != 'binom') {
175         we.label <- round(E(g.toplot)$weight,2)
176     } else {
177         we.label <- round(E(g.toplot)$weight,3)
178     }
179         if (p.type=='rgl' || p.type=='rglweb') {
180         nd<-3
181     } else {
182         nd<-2
183     }
184     if (is.null(coords)) {
185         if (layout.type == 'frutch')
186                 lo <- layout.fruchterman.reingold(g.toplot,dim=nd)#, weightsA=E(g.toplot)$weight)
187         if (layout.type == 'kawa')
188                 lo <- layout.kamada.kawai(g.toplot,dim=nd)
189         if (layout.type == 'random')
190                 lo <- layout.random(g.toplot,dim=nd)
191         if (layout.type == 'circle' & p.type != 'rgl')
192                 lo <- layout.circle(g.toplot)
193         if (layout.type == 'circle' & p.type == 'rgl')
194                 lo <- layout.sphere(g.toplot)
195         if (layout.type == 'graphopt')
196             lo <- layout.graphopt(g.toplot)
197     } else {
198         lo <- coords
199     }
200     if (!is.null(communities)) {
201         if (communities == 0 ){ #'edge.betweenness.community') {
202             com <- edge.betweenness.community(g.toplot)
203         } else if (communities == 1) {
204             com <- fastgreedy.community(g.toplot)
205         } else if (communities == 2) {
206             com <- label.propagation.community(g.toplot)
207         } else if (communities == 3) {
208             com <- leading.eigenvector.community(g.toplot)
209         } else if (communities == 4) {
210             com <- multilevel.community(g.toplot)
211         } else if (communities == 5) {
212             com <- optimal.community(g.toplot)
213         } else if (communities == 6) {
214             com <- spinglass.community(g.toplot)
215         } else if (communities == 7) {
216             com <- walktrap.community(g.toplot)
217         } 
218     } else {
219         com <- NULL
220     }
221     
222         out <- list(graph = g.toplot, mat.eff = mat.eff, eff = eff, mat = mat.simi, v.label = v.label, we.width = we.width, we.label=we.label, label.cex = label.cex, layout = lo, communities = com, halo = halo, elim=vec)
223 }
224         
225 plot.simi <- function(graph.simi, p.type = 'tkplot',filename=NULL, communities = NULL, vertex.col = 'red', edge.col = 'black', edge.label = TRUE, vertex.label=TRUE, vertex.label.color = 'black', vertex.label.cex= NULL, vertex.size=NULL, leg=NULL, width = 800, height = 800, alpha = 0.1, cexalpha = FALSE, movie = NULL, svg = FALSE) {
226         mat.simi <- graph.simi$mat
227         g.toplot <- graph.simi$graph
228     if (is.null(vertex.size)) {
229         vertex.size <- graph.simi$eff
230     } else {
231         vertex.size <- vertex.size
232     }
233         we.width <- graph.simi$we.width
234     if (vertex.label) {
235         #v.label <- vire.nonascii(graph.simi$v.label)
236         v.label <- graph.simi$v.label
237     } else {
238         v.label <- NA
239     }
240     if (edge.label) {
241         we.label <- graph.simi$we.label
242     } else {
243         we.label <- NA
244     }
245         lo <- graph.simi$layout
246     if (!is.null(vertex.label.cex)) {
247         label.cex<-vertex.label.cex
248     } else {
249         label.cex = graph.simi$label.cex
250     }
251     if (cexalpha) {
252         alphas <- norm.vec(label.cex, 0.5,1)
253         nvlc <- NULL
254         if (length(vertex.label.color) == 1) {
255             for (i in 1:length(alphas)) {
256              nvlc <- append(nvlc, adjustcolor(vertex.label.color, alpha=alphas[i]))
257             }
258         } else {
259             for (i in 1:length(alphas)) {
260                 nvlc <- append(nvlc, adjustcolor(vertex.label.color[i], alpha=alphas[i]))
261             }
262         }
263         vertex.label.color <- nvlc  
264     }
265     if (p.type=='nplot') {
266         #print('ATTENTION - PAS OPEN FILE')
267         open_file_graph(filename, width = width, height = height, svg = svg)
268         par(mar=c(2,2,2,2))
269         if (!is.null(leg)) {
270             layout(matrix(c(1,2),1,2, byrow=TRUE),widths=c(3,lcm(7)))
271             par(mar=c(2,2,1,0))
272         }
273         par(pch=' ')
274         if (is.null(graph.simi$com)) {
275             plot(g.toplot,vertex.label='', edge.width=we.width, vertex.size=vertex.size, vertex.color=vertex.col, vertex.label.color='white', edge.label=we.label, edge.label.cex=cex, edge.color=edge.col, vertex.label.cex = 0, layout=lo, edge.curved=FALSE)#, rescale = FALSE)
276         } else {
277             if (graph.simi$halo) {
278                 mark.groups <- communities(graph.simi$com)
279             } else {
280                 mark.groups <- NULL
281             }
282             plot(com, g.toplot,vertex.label='', edge.width=we.width, vertex.size=vertex.size, vertex.color=vertex.col, vertex.label.color='white', edge.label=we.label, edge.label.cex=cex, edge.color=edge.col, vertex.label.cex = 0, layout=lo, mark.groups = mark.groups, edge.curved=FALSE)
283         }
284         #txt.layout <- lo
285         txt.layout <- layout.norm(lo, -1, 1, -1, 1, -1, 1)
286         #txt.layout <- txt.layout[order(label.cex),]
287         #vertex.label.color <- vertex.label.color[order(label.cex)]
288         #v.label <- v.label[order(label.cex)]
289         #label.cex <- label.cex[order(label.cex)]
290         text(txt.layout[,1], txt.layout[,2], v.label, cex=label.cex, col=vertex.label.color)
291         if (!is.null(leg)) {
292             par(mar=c(0,0,0,0))
293             plot(0, axes = FALSE, pch = '')
294             legend(x = 'center' , leg$unetoile, fill = leg$gcol)
295         }
296         dev.off()
297         return(lo)
298     }
299         if (p.type=='tkplot') {
300                 id <- tkplot(g.toplot,vertex.label=v.label, edge.width=we.width, vertex.size=vertex.size, vertex.color=vertex.col, vertex.label.color=vertex.label.color, edge.label=we.label, edge.color=edge.col, layout=lo)
301         coords = tkplot.getcoords(id)
302         ok <- try(coords <- tkplot.getcoords(id), TRUE)
303                 while (is.matrix(ok)) {
304             ok <- try(coords <- tkplot.getcoords(id), TRUE)
305                         Sys.sleep(0.5)
306         }
307         tkplot.off()
308     return(coords)
309         }
310         
311         if (p.type == 'rgl' || p.type == 'rglweb') {
312                 library('rgl')
313         #rgl.open()
314         #par3d(cex=0.8)
315         lo <- layout.norm(lo, -10, 10, -10, 10, -10, 10)
316                 bg3d('white')
317                 rglplot(g.toplot,vertex.label='', edge.width=we.width/10, vertex.size=0.01, vertex.color=vertex.col, vertex.label.color="black", edge.color = edge.col, layout=lo, rescale = FALSE)
318         #los <- layout.norm(lo, -1, 1, -1, 1, -1, 1)
319                 text3d(lo[,1], lo[,2], lo[,3], vire.nonascii(v.label), col = vertex.label.color, alpha = 1, cex = vertex.label.cex)
320         rgl.spheres(lo, col = vertex.col, radius = vertex.size/100, alpha = alpha)
321         #rgl.bg(color = c('white','black'))
322         #bg3d('white')
323         if (!is.null(movie)) {
324             require(tcltk)
325             ReturnVal <- tkmessageBox(title="RGL 3 D",message="Cliquez pour commencer le film",icon="info",type="ok")
326
327             movie3d(spin3d(axis=c(0,1,0),rpm=6), movie = 'film_graph', frames = "tmpfilm", duration=10, clean=TRUE, top = TRUE, dir = movie)
328             ReturnVal <- tkmessageBox(title="RGL 3 D",message="Film fini !",icon="info",type="ok")
329         }
330         #play3d(spin3d(axis=c(0,1,0),rpm=6))
331         if (p.type == 'rglweb') {
332             writeWebGL(dir = filename, width = width, height= height)
333         } else {
334             require(tcltk)
335             ReturnVal <- tkmessageBox(title="RGL 3 D",message="Cliquez pour fermer",icon="info",type="ok")
336         }
337         rgl.close()
338         #       while (rgl.cur() != 0)
339         #               Sys.sleep(0.5)
340         } else if (p.type == 'web') {
341                 library(rgexf)
342                 simi.to.gexf(filename, graph.simi, nodes.attr = NULL)
343         }
344 }
345
346
347 graph.word <- function(mat.simi, index) {
348     nm <- matrix(0, ncol = ncol(mat.simi), nrow=nrow(mat.simi), dimnames=list(row.names(mat.simi), colnames(mat.simi)))
349     nm[,index] <- mat.simi[,index]
350     nm[index,] <- mat.simi[index,]
351     nm
352 }
353
354 #from : 
355 #http://gopalakrishna.palem.in/iGraphExport.html#GexfExport
356 # Converts the given igraph object to GEXF format and saves it at the given filepath location
357 #     g: input igraph object to be converted to gexf format
358 #     filepath: file location where the output gexf file should be saved
359 #
360 saveAsGEXF = function(g, filepath="converted_graph.gexf")
361 {
362   require(igraph)
363   require(rgexf)
364   
365   # gexf nodes require two column data frame (id, label)
366   # check if the input vertices has label already present
367   # if not, just have the ids themselves as the label
368   if(is.null(V(g)$label))
369     V(g)$label <- as.character(V(g))
370   
371   # similarily if edges does not have weight, add default 1 weight
372   if(is.null(E(g)$weight))
373     E(g)$weight <- rep.int(1, ecount(g))
374   
375   nodes <- data.frame(cbind(1:vcount(g), V(g)$label))
376   nodes[,1] <- as.character(nodes[,1])
377   nodes[,2] <- as.character(nodes[,2])
378   edges <- t(Vectorize(get.edge, vectorize.args='id')(g, 1:ecount(g)))
379   
380   # combine all node attributes into a matrix (and take care of & for xml)
381   vAttrNames <- setdiff(list.vertex.attributes(g), "label")
382   for (val in c("x","y","color")) {
383         vAttrNames <- setdiff(vAttrNames, val)
384   }
385   nodesAtt <- data.frame(sapply(vAttrNames, function(attr) sub("&", "&",get.vertex.attribute(g, attr))))
386   for (i in 1:ncol(nodesAtt)) {
387       nodesAtt[,i] <- as.character(nodesAtt[,i])
388   }
389   
390   # combine all edge attributes into a matrix (and take care of & for xml)
391   eAttrNames <- setdiff(list.edge.attributes(g), "weight") 
392   edgesAtt <- data.frame(sapply(eAttrNames, function(attr) sub("&", "&",get.edge.attribute(g, attr))))
393   
394   # combine all graph attributes into a meta-data
395   graphAtt <- sapply(list.graph.attributes(g), function(attr) sub("&", "&",get.graph.attribute(g, attr)))
396   ll <- length(V(g)$x)
397   cc <- t(sapply(V(g)$color, col2rgb, alpha=TRUE))
398   cc[,4] <- cc[,4]/255
399   # generate the gexf object
400   output <- write.gexf(nodes, edges, 
401                        edgesWeight=E(g)$weight,
402                        edgesAtt = edgesAtt,
403                        #edgesVizAtt = list(size=as.matrix(E(g)$weight)),
404                        nodesAtt = nodesAtt,
405                        nodesVizAtt=list(color=cc, position=cbind(V(g)$x,V(g)$y, rep(0,ll)), size=V(g)$weight),
406                        meta=c(list(creator="iramuteq", description="igraph -> gexf converted file", keywords="igraph, gexf, R, rgexf"), graphAtt))
407   
408   print(output, filepath, replace=T)
409 }