La alopecia androgenética afecta al 50% de los hombres españoles en edad adulta y a un número creciente de mujeres, impactando profundamente su bienestar psicológico (Norwood, 1975). Actualmente, el seguimiento clínico depende de consultas presenciales esporádicas, dejando al paciente sin herramientas objetivas para evaluar la eficacia de tratamientos como el minoxidil o la dutasterida en tiempo real.
Para solventar este vacío, presentamos un sistema de visión artificial y regresión ordinal profunda capaz de estimar la severidad de la alopecia mediante fotografías móviles. El modelo, basado en la arquitectura MaxViT-T (Tu et al., 2022), alcanza una concordancia casi perfecta con la escala clínica (Quadratic Cohen’s Kappa de 0.95; MAE de 0.31), validada mediante bootstrapping. El código y una demo interactiva están disponibles en GitHub y Hugging Face (Valverde Romero, 2026a; 2026b).
El problema: Subjetividad, intermitencia y abandono terapéutico
El diagnóstico clínico de la alopecia androgenética se apoya en la escala de Norwood-Hamilton, un instrumento estandarizado de siete estadios que describe la progresión de la pérdida capilar en pacientes masculinos (Norwood, 1975). Aunque la escala es objetiva en su definición, su aplicación en la práctica está sujeta a dos fuentes de error sistemático que el sistema propuesto busca mitigar.
La primera es la percepción distorsionada del propio paciente. La evaluación ante un espejo está mediada por el estado emocional y los sesgos cognitivos del observador, lo que genera valoraciones inconsistentes entre sesiones. La segunda es la intermitencia del seguimiento: sin acceso a mediciones frecuentes y objetivas, el paciente no puede distinguir entre la variabilidad natural del cabello y un cambio real inducido por el tratamiento. Esta incertidumbre es una causa documentada de abandono terapéutico prematuro, precisamente en los periodos en los que el tratamiento aún no ha producido resultados visibles.
Desde una perspectiva de ciencia de datos, el problema se define como una regresión ordinal: los estadios de la escala no son categorías independientes, sino posiciones en un espectro continuo de pérdida de densidad capilar. Esta distinción tiene consecuencias directas en el diseño del modelo, como se desarrolla en la sección siguiente.
El sistema: Cuatro capas de un pipeline clínico
El diseño del sistema parte de una premisa de ingeniería: un modelo con excelentes métricas de laboratorio carece de valor clínico si no está integrado en un flujo de uso real. Por ello, la arquitectura del proyecto se articula en cuatro capas funcionales que van desde la captura de la imagen hasta la presentación del resultado al usuario.
Capa 1: Normalización geométrica mediante MTCNN
La variabilidad de las imágenes capturadas por usuarios no controlados —diferencias de ángulo, distancia, iluminación y encuadre— constituye la principal fuente de ruido del sistema. Para aislar la región de interés antes de cualquier inferencia, se integró MTCNN (Multi-task Cascaded Convolutional Networks) como primer estadio del pipeline. El detector identifica los hitos faciales y genera un recorte. cuadrado centrado en la cabeza del paciente, forzando un aspecto 1:1 antes del reescalado a la resolución de entrada del transformer (224×224 píxeles). Esta decisión elimina la deformación geométrica que se produciría al redimensionar directamente una imagen rectangular, preservando la morfología de las estructuras capilares que el modelo debe analizar.
La limitación conocida de este enfoque es su dependencia de la visibilidad del rostro: en capturas exclusivamente cenitales, el detector no activa el recorte y la imagen pasa directamente al modelo en su formato original.
Capa 2: Extracción de características con MaxViT y atención multieje
La elección del backbone es la decisión técnica central del sistema. Las redes convolucionales clásicas —ResNet, EfficientNet— extraen características locales con eficiencia demostrada, pero presentan limitaciones intrínsecas para capturar dependencias espaciales a larga distancia. En el análisis capilar, esto es un problema concreto: distinguir si una zona despoblada corresponde a la coronilla o a las entradas requiere integrar información de regiones distantes de la imagen simultáneamente.
MaxViT (Tu et al., 2022) resuelve esta tensión mediante un mecanismo de atención multieje que alterna dos tipos de operación dentro de cada bloque (véase Figura 1):
- Atención de bloque (Block Attention): divide la imagen en ventanas locales no solapadas y aplica autoatención dentro de cada una. Esto permite detectar texturas finas —presencia de folículos miniaturizados, calidad del cuero cabelludo en una zona concreta— con alta resolución espacial.
- Atención de rejilla (Grid Attention): Superpone una malla dispersa sobre la imagen completa y conecta píxeles lejanos entre sí, permitiendo al modelo razonar sobre la distribución global de la pérdida capilar con complejidad lineal O(N).

[Figura 1: Esquema del bloque de Multi-Axis Attention en MaxViT. El flujo integra MBConv seguido de block-attention (atención local en ventanas no solapadas) y grid-attention (atención global mediante rejilla dilatada), con conexiones residuales eficientes.]
La arquitectura jerárquica del modelo —cuatro etapas que comprimen progresivamente la resolución espacial mientras aumentan la profundidad de las representaciones— permite su ejecución en hardware de consumo. El entrenamiento completo se realizó en una GPU Nvidia RTX 3060 de 12 GB de VRAM, con un tiempo de entrenamiento de dos horas bajo precisión mixta FP16/FP32, frente a las cinco horas que requiere el entrenamiento en precisión completa.
Capa 3: Regresión ordinal y función de pérdida
El cabezal de clasificación original de MaxViT —diseñado para las 1.000 clases de ImageNet— fue sustituido por una única neurona con activación sigmoide, cuya salida escalar continua en [0, 1] se mapea a la escala de seis niveles mediante la transformación round(σ(x) · 6). Este diseño fuerza al modelo a aprender una representación jerárquica de la severidad, donde la distancia numérica entre valores refleja la progresión biológica de la afección.
Se evaluaron experimentalmente cuatro funciones de pérdida: Cross-Entropy, CORAL, CORN y L1 (Mean Absolute Error). Todos los experimentos fueron registrados en MLflow para garantizar la trazabilidad y comparabilidad. Los resultados mostraron métricas de validación similares entre configuraciones, pero la pérdida L1 presentó la menor divergencia entre validación y test, lo que la identifica como la opción más robusta ante datos no vistos. La elección de la función de pérdida se derivó del dato experimental, no de una preferencia a priori.
Capa 4: Interpretabilidad post-hoc y análisis de fallos
En el ámbito clínico, la opacidad de un modelo es un obstáculo tanto ético como práctico. Para auditar las decisiones del sistema, se generaron mapas de activación Grad-CAM (Gradient-weighted Class Activation Mapping) sobre la última capa convolucional de MaxViT (Selvaraju et al., 2017).
El análisis reveló un comportamiento dual y coherente con la lógica del problema (véase Figura 2): en grados bajos de severidad, el modelo muestra activaciones concentradas en las zonas de mayor densidad capilar —las entradas y la parte superior del cráneo—, emitiendo una puntuación baja tras “confirmar” la presencia de textura de cabello. En grados elevados, la ausencia de ese patrón actúa como evidencia negativa y satura la salida hacia el valor máximo. El modelo no ha aprendido a detectar calvicie directamente; ha aprendido a detectar cabello, y la ausencia de esa señal implica severidad alta.

[Figura 2: Mapa de activación EigenCAM generado para una imagen con perspectiva posterior y cenital.] La predicción corresponde a un grado 2.0 (severidad moderada), con un valor específico de 2.014. El mapa de calor concentra la mayor activación en la región del vértice (coronilla) y la zona superior posterior, identificando con precisión las áreas de menor densidad foliar que definen este nivel de progresión.]
El análisis de los casos de fallo es igualmente informativo. La iluminación insuficiente elimina el contraste entre cabello y cuero cabelludo, privando al modelo de la señal necesaria y llevándolo a sobreestimar la severidad por defecto de información. El exceso de iluminación produce el efecto contrario: los reflejos enmascaran zonas despobladas y el modelo las interpreta como zonas con cobertura capilar. Ambos patrones de fallo son sistemáticos y predecibles, lo que delimita el dominio de validez del sistema de forma operativa.
Resultados: Validación cuantitativa
La evaluación final se realizó sobre un conjunto de test aislado de 67 imágenes independientes, con significancia estadística garantizada mediante bootstrapping de 10.000 muestreos (véase Figura 3).

[Figura 3: Izquierda — Matriz de confusión en el conjunto de prueba, con alta concentración diagonal y errores predominantemente adyacentes en clases intermedias. Derecha — Distribución bootstrap del MAE, con media en ≈ 0.31 e intervalo de confianza del 95% entre ≈ 0.22 y ≈ 0.38.]
Métrica Valor medio (± EE) IC 95%
Accuracy 0.75 ± 0.05 [0.64 – 0.85]
MAE 0.31 ± 0.05 [0.20 – 0.41]
MAPE 11.40% ± 2.40% [7.03 – 16.39]
Quadratic Cohen’s Kappa 0.95 ± 0.02 [0.91 – 0.97]
El dato más relevante desde una perspectiva clínica es el kappa de 0.95. Un valor superior a 0.90 se considera concordancia casi perfecta según los criterios establecidos en la literatura de evaluación diagnóstica. Esto implica que, cuando el modelo comete un error, este es prácticamente siempre hacia una clase adyacente —predecir grado 3 en lugar de 2, por ejemplo—, evitando los errores catastróficos que invalidarían el sistema para uso clínico. El MAE de 0.31 refuerza esta lectura: en promedio, el modelo se desvía menos de un tercio de grado en la escala Norwood-Hamilton, una diferencia imperceptible incluso para el ojo experto.
Reproducibilidad y despliegue
El sistema completo ha sido contenerizado con Docker y Docker Compose, permitiendo su despliegue íntegro —incluyendo el servidor de MLflow y la interfaz Gradio— con un único comando. Esta decisión de ingeniería eleva el proyecto a estándares industriales de reproducibilidad: los resultados presentados son verificables en cualquier sistema compatible con Docker sin necesidad de gestión manual de dependencias.
La interfaz de usuario, desarrollada con Gradio, acepta entradas desde cámara en tiempo real, carga de archivos e imágenes del portapapeles, y es accesible tanto desde ordenadores de sobremesa como desde dispositivos móviles. Esta versatilidad es condición necesaria para el objetivo del sistema: que el paciente pueda realizar un seguimiento autónomo desde su entorno doméstico.
Conclusión
El sistema presentado demuestra que la brecha entre un experimento de laboratorio y un prototipo de uso clínico real puede cerrarse con decisiones de ingeniería deliberadas. La combinación de un backbone con inductive bias espacial adecuado al problema, una formulación de pérdida coherente con la estructura ordinal de los datos y un pipeline de producción reproducible produce un sistema con métricas clínicamente significativas —Kappa de 0.95, MAE de 0.31— y un dominio de validez bien caracterizado.
La siguiente frontera no es técnica, sino regulatoria y de datos: ampliar el dataset a mayor diversidad étnica y de condiciones de captura e integrar un detector de ROI que opere sobre capturas cenitales sin depender de la visibilidad facial. Con esas extensiones, el paso de prototipo a herramienta de apoyo al diagnóstico homologada es un camino viable.
Autor: Rubén Valverde





