Textos

Entradas

R: Simulacion de Variables Correlacionadas

En muchas situaciones suele ser conveniente generar un conjunto de variables con una correlación deseada. Algunos paquetes ofrecen medios para este fin de producir fake data ; pero también es perfectamente posible obtenerlas a través de métodos como la factorización (descomposicion) de Cholesky o la Descomposicion del Valor Singular (SVD: Singular Value Decomposition ). En el paquete de base de R existen funciones para hacer estos cálculos. La factorización de Cholesky, es un método con el que una matriz definida positiva y simetrica, es descompuesta en el producto de dos matrices triangulares (triangular inferior o superior) A = LL' (L es una matriz triangular inferior) A = U'U (U es una matriz triangular superior) siendo U' la traspuesta de U Mientras que la SVD (descomposición de valor singular) es una factorización de la forma: A = UΣV , la cuál generaliza la descomposición de autovalores. La implementación consiste simplemente en obtener el producto entre un vector ...

Gráficos Likert: 3 posibilidades.

Explorando algunas de las maneras de graficar escalas Likert: que oscilan entre los extremos 'muy de acuerdo/muy en desacuerdo', uno encuentra que ggplot2, ofrece un camino expedito, siempre y cuando las barras estén sobre un eje del 0-100%; sin embargo, para el caso en que se pretenda graficar barras divergentes con valores negativos, la historia será distinta y solo será posible una aproximación a través de un atajo. Para hacer alguna ilustración, podemos servirnos de unos datos obtenidos de de allí seleccionamos 1 pregunta de una encuesta sobre el uso de Wikipedia en una universidad, para ver cómo se distribuyen las respuestas a través de sus distintas facultades. El código para cargar los datos: library(ggplot2) library(sjPlot) q Pretendemos graficar la opinión de las distintas facultades en relación con Wikipedia como un factor que facilita la adquisición de nuevas habilidades y dichas respuestas estarán a su vez divididas entre usuarios registrados y no registrado...

Warriors-Rockets: Efectividad en lanzamientos de 3 puntos

Es sabido, que desde hace algunos años, la importancia de los lanzamientos de 3 puntos, ha venido incrementandose. Podría decirse que todos los equipos han experimentado una mayor inclinación a favorecer este tipo de jugada, entre los más recurrentes cuando se habla de este aspecto, se encuentran Rockets y Warriors que resaltan por contar con diestros lanzadores de 3 puntos, como por ejemplo Harden por Houston o los splash brothers por Golden State. Frecuentemente, en conversaciones con amigos, surge el tema (a veces discusión) sobre cuál equipo ostenta mayor efectividad en este tipo de lanzamientos. A pesar de toda la información existente a ese respecto, y seguramente existirá un dictamen definitivo y oficial sobre el particular; en una tarde de ocio, facilmente puede emerger la idea de hacer un ejercicio para intentar comprobar, si existe alguna ventaja de un equipo sobre el otro; 'cometí' ese ejercicio recientemente y lo presento a continuación : - ]] Fue necesario dispone...

Extraccion de tablas de PDF con R tabulizer

No son extrañas las situaciones en las que los datos, que se desea analizar, se encuentran contenidos en tablas de archivos PDF. En general, desde hace tiempo, situaciones como esa no representan un obstaculo insalvable; existen herramientas eficaces para extraer la data y ponerla en disposición de ser procesada, en alguna forma que sea de interés. En R, existen varios paquetes, que ofrecen medios para extraer datos de documentos PDF: pdftools y tabulizer, son dos bastante conocidos y descargados muchas veces. Este ejercicio, involucra la extracción de los datos de una tabla, contenida en un PDF, además de el procesamiento correspondiente para disponer los datos, en una forma que resulte adecuada para efectuar operaciones en ellos: producir gráficos o agregados. Descargué un archivo contenido en la página: https://www.worldwater.org/water-data/ Concretamente la tabla 10, llamada: Bottled Water Consumption by Country, 1997 to 2004 library(tabulizer) library(magrittr) El comando tab...

Segmentación de Clientes de un Comercio On-line

En esta ocasión me propongo ilustrar un procedimiento para identificación de clusters, a través del método kmeans, contenido en el paquete 'base' del software R; aprovechando también al eficaz paquete data.table; que tiene una sintaxis similar a la usada en los data.frames. Los métodos de clustering , usualmente son útiles para hallar diferencias, que permitan agrupar elementos similares, según determinadas características. Mediante esas agrupaciones, se espera aumentar el conocimiento que se tiene de un área específica, desarrollar hipótesis o estrategías para abordar o tratar los elementos pertenecientes a esos conjuntos. El proceso de identificación de grupos, se realiza en función de características de interés, que estarán contenidas en los datos que se tengan disponibles. Los rasgos diferenciales entre agrupaciones, son muchas veces tenúes y, contrario a lo que cabría esperar, en ocasiones, no existen fronteras bien demarcadas entre elementos en un espacio multivariante...