Encuesta: SUS (System Usability Scale)

EvaluacióncuantitativoPrincipiante

TL; DR

La Escala de Usabilidad del Sistema (SUS) es una herramienta estandarizada de encuesta utilizada para medir la usabilidad percibida de un sistema. Fue desarrollada originalmente por John Brooke en 1996 como una escala "rápida y sucia" (quick and dirty), lo que significa que es una herramienta de bajo costo y fácil administración, pero efectiva.

Descripción detallada

Aquí tienes una descripción exhaustiva de la metodología SUS (System Usability Scale), basada en las fuentes proporcionadas.

Descripción general

La Escala de Usabilidad del Sistema (SUS) es una herramienta estandarizada de encuesta utilizada para medir la usabilidad percibida de un sistema. Fue desarrollada originalmente por John Brooke en 1996 como una escala "rápida y sucia" (quick and dirty), lo que significa que es una herramienta de bajo costo y fácil administración, pero efectiva.

A pesar de su descripción original como una herramienta rápida, ha demostrado ser extremadamente robusta y fiable. Es una escala simple de diez ítems que proporciona una visión global de las evaluaciones subjetivas de la usabilidad. Su fiabilidad ha sido validada en comparaciones con otros cuestionarios de usabilidad, donde a menudo se destaca por ofrecer los resultados más fiables. Además, está reconocida dentro de los estándares internacionales, como parte de la norma ISO 9241-11, que define la usabilidad.

Objetivo principal

El objetivo principal de la SUS es obtener una medición cuantitativa de la satisfacción subjetiva del usuario con el sistema o producto.

Pregunta de investigación que responde: Responde a la pregunta: "¿Cómo califica el usuario la usabilidad general del sistema?". Específicamente, evalúa la percepción global del usuario sobre la eficacia, eficiencia y satisfacción del producto, permitiendo saber si la usabilidad del sistema está por encima o por debajo del promedio,.

Momento óptimo de uso

Fase del proceso: Es una herramienta eminentemente sumativa. Se utiliza al final de una sesión de prueba de usabilidad, inmediatamente después de que el participante haya tenido la oportunidad de utilizar el sistema o producto para completar tareas,. Tipo de investigación: Es Evaluativa (validar). Sirve para evaluar la usabilidad percibida de un diseño existente o para comparar diferentes versiones de un diseño (pruebas A/B o comparativas). Nivel de fidelidad: Requiere un nivel de fidelidad suficiente (prototipo funcional o producto final) para que el usuario haya podido interactuar con él y formarse una opinión sólida sobre su uso.

Qué mide o captura

Tipo de datos: Genera datos Cuantitativos. Es una métrica autoinformada (self-reported metric) que resulta en una puntuación numérica única,. Actitudes vs. Comportamientos: Mide Actitudes (lo que dicen/sienten). Evalúa la percepción subjetiva de la usabilidad, no el rendimiento objetivo (como el tiempo de tarea o la tasa de errores), aunque a menudo se correlaciona con estas métricas de rendimiento. Métricas o insights típicos: Puntuación SUS (0 a 100): Un número único que representa la usabilidad global. Benchmarking: Permite comparar la puntuación obtenida con el promedio de la industria. Una puntuación SUS superior a 68 se considera por encima del promedio.

Cómo se ejecuta

El proceso estándar para implementar la SUS incluye los siguientes pasos:

  • Interacción: El participante realiza una serie de tareas con el sistema o producto.
  • Administración: Inmediatamente después de terminar las tareas, y antes de cualquier sesión de debriefing o discusión detallada, se le pide al usuario que complete el cuestionario SUS.
  • El Cuestionario: Consta de 10 ítems (afirmaciones). El usuario debe calificar cada ítem en una escala de Likert de 5 puntos (desde "Totalmente en desacuerdo" hasta "Totalmente de acuerdo"). Los ítems se alternan entre declaraciones positivas y negativas para reducir el sesgo de respuesta automática. Los ítems impares (1, 3, 5, 7, 9) son positivos, y los pares (2, 4, 6, 8, 10) son negativos.
  • Cálculo del Score (Algoritmo SUS): Para los ítems impares (1, 3, 5, 7, 9): Reste 1 a la respuesta del usuario (Posición en la escala - 1). Para los ítems pares (2, 4, 6, 8, 10): Reste la respuesta del usuario a 5 (5 - Posición en la escala). Sume los resultados de los 10 ítems. Multiplique la suma total por 2.5. Esto convierte el rango original (0-40) en un rango de 0 a 100.

    Ventajas

    Robustez y Fiabilidad: Ha demostrado ser una de las escalas más fiables, incluso en comparación con cuestionarios más complejos o comerciales. Eficiencia en muestras pequeñas: Es robusta y puede proporcionar resultados fiables con un número relativamente pequeño de participantes (p. ej., 8 a 10 usuarios). Gratuita y tecnológicamente agnóstica: Puede usarse libremente (citando la fuente) para cualquier tipo de tecnología, desde hardware hasta software, sitios web o aplicaciones móviles,. Comparabilidad: Al ser un estándar de la industria, permite comparar los resultados de un producto con una amplia base de datos de otros productos.

    Desventajas o limitaciones

    No es diagnóstica: La puntuación SUS dice qué tan usable es el sistema en general, pero no dice dónde están los problemas específicos ni cómo arreglarlos. Proporciona una visión de "alto nivel". Confusión con porcentajes: Aunque la escala va de 0 a 100, no es un porcentaje. Una puntuación de 55 no es una "F" (reprobado) ni un 55%, es simplemente una puntuación en una escala relativa donde 68 es el promedio. Cálculo complejo: El sistema de puntuación alternada (positiva/negativa) requiere un cálculo manual o mediante hoja de cálculo específico (restar 1 o restar a 5), lo que puede inducir a errores si no se automatiza.

    Tamaño de muestra recomendado

    A diferencia de muchas métricas cuantitativas que requieren muestras grandes, la SUS se destaca por ser robusta con grupos pequeños. Se pueden obtener resultados válidos y fiables con grupos de 8 a 10 participantes. Por supuesto, para estudios sumativos rigurosos o comparaciones estadísticas estrictas, se aplican las reglas generales de 30 a 50+ participantes, pero la SUS es notablemente estable con menos.

    Recursos necesarios

    Herramientas: El cuestionario impreso o digital (Google Forms, SurveyMonkey, etc.) y una hoja de cálculo (como Excel) configurada para realizar el cálculo de la puntuación automáticamente. Tiempo: Muy bajo. Los participantes tardan poco tiempo (1-2 minutos) en responder las 10 preguntas al final de la sesión. Expertise: Bajo para la recolección, medio para la interpretación (entender que no es un porcentaje y cómo compararlo con benchmarks).

    Metodologías complementarias

    La SUS rara vez se usa sola; es el complemento ideal para: Pruebas de Usabilidad (Cualitativas o Cuantitativas): La SUS proporciona la métrica de satisfacción subjetiva que complementa la observación del comportamiento y el rendimiento,. Métricas de Rendimiento (Performance Metrics): Se debe contrastar la puntuación SUS (lo que el usuario siente) con la tasa de éxito y el tiempo de tarea (lo que el usuario hizo). A veces los usuarios completan la tarea (éxito) pero odian el proceso (SUS bajo), o viceversa.

    Referencias bibliográficas

    Brooke, J. (1996). SUS: A quick and dirty usability scale. In P. W. Jordan, B. Thomas, B. A. Weerdmeester, & I. L. McClelland (Eds.), Usability Evaluation in Industry (pp. 189–194). Taylor & Francis., Tullis, T. S., & Stetson, J. N. (2004). A comparison of questionnaires for assessing website usability. In Proceedings of Usability Professional Association Conference (Vol. 1)., Tullis, T., & Albert, B. (2013). Measuring the User Experience: Collecting, Analyzing, and Presenting Usability Metrics (2nd ed.). Morgan Kaufmann.,, Savarit, E. (2020). Practical User Research. Apress.

  • Objetivo principal

    El objetivo principal de la SUS es obtener una medición cuantitativa de la satisfacción subjetiva del usuario con el sistema o producto.

    Nivel de esfuerzo

    Bajo

    Ventajas

    • **Robustez y Fiabilidad:** Ha demostrado ser una de las escalas más fiables, incluso en comparación con cuestionarios más complejos o comerciales.
    • **Eficiencia en muestras pequeñas:** Es robusta y puede proporcionar resultados fiables con un número relativamente pequeño de participantes (p. ej., 8 a 10 usuarios).
    • **Gratuita y tecnológicamente agnóstica:** Puede usarse libremente (citando la fuente) para cualquier tipo de tecnología, desde hardware hasta software, sitios web o aplicaciones móviles,.
    • **Comparabilidad:** Al ser un estándar de la industria, permite comparar los resultados de un producto con una amplia base de datos de otros productos.

    Desventajas

    • **No es diagnóstica:** La puntuación SUS dice *qué tan usable* es el sistema en general, pero no dice *dónde* están los problemas específicos ni cómo arreglarlos. Proporciona una visión de "alto nivel".
    • **Confusión con porcentajes:** Aunque la escala va de 0 a 100, **no es un porcentaje**. Una puntuación de 55 no es una "F" (reprobado) ni un 55%, es simplemente una puntuación en una escala relativa donde 68 es el promedio.
    • **Cálculo complejo:** El sistema de puntuación alternada (positiva/negativa) requiere un cálculo manual o mediante hoja de cálculo específico (restar 1 o restar a 5), lo que puede inducir a errores si no se automatiza.

    Herramienta gratuita de UXR — Consultoría de UX Research en Chile