Textos

Entradas

Mostrando entradas de octubre, 2020

R: Valores Faltantes en un Data Frame (Missing Values)

Son muy pocas las ocasiones en que las variables de un conjunto de datos están libres de observaciones faltantes ( NAs o missing values ). Es usual que al abordar una data nos interese saber la cantidad de ausencias, y también su caracterización, es decir, si esa ( no respuesta ) obedece a un patrón específico o es atribuible a causas aleatorías. El conteo de valores faltantes por variable, en un data frame, puede realizarse con pocas líneas de código como en el siguiente ejemplo, hecho con una data ficticia y funciones de la familia apply : # datos ficticios set.seed(4363) datos Luego el total de no respuesta por variable sería: datos El paquete magritr puede hacer más cómoda la escritura de códigos como este: library(magrittr)# pipeline datos %>% lapply(., function(x) sum(is.na(x))) %>% unlist() # o con la función más estricta vapply datos %>% vapply(., function(x) sum(is.na(x)), numeric(1)) # V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 # 18 18 1...

Curva ROC

La curva ROC (Receiver Operating Characteristic) pasó de los campos de batalla de la Segunda Guerra Mundial, donde fue usada para analizar las señales de radar, a formar parte importante de la teoría de detección de señales, y a ser usada en campos tan diversos como psicología, epidemiología, radiología, investigaciones médicas, aprendizaje automático ( machine learning ) y otros. Básicamente sirve para ilustrar el desempeño de un modelo o sistema de clasificación a través de una secuencia de umbrales. El área bajo la curva ( AUC ) es también usada para seleccionar modelos. En R (CRAN) existen muchos paquetes con los que se pueden obtener excelentes gráficos de la curva ROC; sin embargo, con la finalidad de indagar un poco acerca del procedimiento para su obtención, conviene intentar hacer los cálculos y el gráfico prescindiendo de paquetes. Es preciso disponer de las secuencias de tasas de verdaderos positivos y falsos positivos a lo largo de los umbrales impuestos por los pronósti...