Rumbos tecnológicos

APLICACIÓN DE TÉCNICAS DE BUSINESS INTELLIGENCE EN EL ÁMBITO DE LA SALUD PÚBLICA

539 Visitas

Rumbos Tecnológicos 11 • Octubre 2019 – Septiembre 2020

Fecha de recepción: 31 de Mayo de 2019 • Fecha aprobación: 11 de Septiembre de 2019

Fontana, Lucas*; Del Villar, Ramiro; Musanti, Joaquín; Schmidt, Nicole; Bigatti, Cristian; Moine, Juan M.

Universidad Tecnológica Nacional, Facultad Regional Rosario. Zeballos 1341 – Rosario – CP 2000 – Provincia de Santa Fe – Argentina.
*Autor a quien la correspondencia debe ser dirigida. Correo electrónico: lucasf014@gmail.com

Descargar pdf

Resumen

Actualmente en el ámbito de salud pública se dispone de una gran cantidad de información almacenada en los sistemas transaccionales, generalmente en medios de almacenamiento descentralizados y desincronizados. En el presente trabajo, se propone la implementación de técnicas de Inteligencia de Negocios para unificar toda la información de interés en un Data Warehouse, a fin de obtener análisis estadísticos mediante herramientas de explotación de datos que posibiliten la toma de decisiones basada en datos reales. Como consecuencia, se demuestra además, la importancia de la calidad de los datos ingresados en los sistemas transaccionales y su impacto en el análisis de la información.
Palabras Clave: salud pública, inteligencia de negocios, políticas de salud, almacén de datos.

Abstract

At the present time in the healthcare industry the amount of information stored by the transactional systems is overwhelming, and it is generally decentralized and desynchronized. With the present work, we propose the implementation of Business Intelligence techniques to unify all the information of interest in a Data Warehouse with the purpose of obtaining statistical analysis through data visualization tools that would allow real data-based decision making. At the same time, we pretend to demonstrate the importance of the quality of the data that serves as an input to the transactional systems, and its impact on data analysis.
Key-Words: public health, business intelligence, health policies, data warehouse.

 

INTRODUCCIÓN

La cantidad de información existente en los sistemas transaccionales utilizados en salud pública es abrumadora y analizarla es una tarea compleja. Más allá de los reportes convencionales, existen técnicas avanzadas de explotación de datos, que permiten organizar y estudiar la información almacenada desde diversas perspectivas.
Se define a la Inteligencia de Negocios como “el conjunto de metodologías, aplicaciones, prácticas y capacidades enfocadas a la creación y administración de información que permite tomar mejores decisiones a los usuarios de una organización” (Díaz J.C., 2012). En el ámbito de la salud pública argentina, el uso de este tipo de herramientas tiene poca difusión. Profesionales de la salud y quienes están encargados de tomar decisiones deben apreciar los beneficios que le brinda el uso de estas tecnologías emergentes en el ámbito (Karen, A. et al., 2017).
A raíz de la problemática anterior, presentamos un caso de estudio realizado en la Secretaría de Salud de un Municipio de la provincia de Santa Fe, en el cual se demuestra cómo la Inteligencia de Negocios permite encontrar información útil que ayude a la toma de decisiones, especialmente desde un punto de vista epidemiológico.
En base al análisis realizado de los requerimientos de información, algunas de las preguntas que debe poder responder la solución de inteligencia de negocios son:
• ¿Cuántas atenciones se realizaron por servicio en un rango de tiempo?
• ¿Cuáles son los centros de salud con más demanda?
• ¿Cuáles son los diagnósticos más frecuentes en la población?
• ¿Qué relación hay entre un diagnóstico y el sexo y/o edad del paciente?
• ¿Existe relación entre una enfermedad y el periodo del año?
El Municipio presta servicios de Atención Primaria de Salud mediante 4 Centros (CAPS), de los cuales se tomaron datos históricos de pacientes, atenciones y diagnósticos realizados. La información residente en los sistemas transaccionales de los centros de salud se encuentra descentralizada a causa de que cada CAPS posee su propia base de datos. Además, la información no es totalmente consistente entre dichas bases generando inconvenientes en la integración y redundancias.
La problemática del caso de estudio fue abordada realizando un proceso ETL (siglas en inglés de Extract, Transform, Load) para la integración, transformación y limpieza de datos, y una herramienta de explotación para la visualización y comprensión de la información.

OBJETIVOS

El objetivo del presente trabajo es mejorar la calidad de la toma de decisiones basadas en datos reales en el ámbito de la salud pública utilizando herramientas de Inteligencia de Negocios.

 

METODOLOGÍA

En esta investigación se han utilizado cuatro bases de datos correspondientes a los Centros de Atención Primaria de Salud  (CAPS) de un Municipio de la provincia de Santa Fe. La información suministrada para este trabajo fue totalmente anónima, ya que la Secretaría de Salud adoptó todas las medidas necesarias para mantener la confidencialidad del paciente.
La información transaccional disponible se detalla en la Tabla 1.

 

Tabla 1: Información disponible en los 4 CAPS.

Tabla 1: Información disponible en los 4 CAPS.

 

Para integrar toda la información de la Tabla 1, se propone la construcción de un Data Warehouse. Podemos definir un Data Warehouse basándonos en la definición de Bill Inmon, considerado el padre del Data Warehouse: “Es un conjunto de datos orientados por temas, integrados, variantes en el tiempo y no volátiles, que tienen por objetivo dar soporte a la toma de decisiones.” (Inmon, W.H., 1996). El mismo se construyó siguiendo un esquema tipo “estrella” (Kimball, R. y Ross, M., 2011), cuya tabla de “hechos”, es decir la tabla que contendrá indicadores y medidas de negocio, contiene las atenciones realizadas.
Como la información será explorada desde diversas perspectivas, la tabla central de “hechos” está asociada a dimensiones satélite, las cuales intentan describir los diferentes aspectos del negocio. En el presente caso de estudio, las tablas “dimensión” son las siguientes: pacientes, especialidades, diagnósticos y centros de salud. Además de estas 4 dimensiones, es importante mencionar que se creó la dimensión tiempo para modificar dinámicamente el nivel de granularidad con el que se desea analizar la información (Imhoff C. et al., 2003).

 

El Diagrama 1 muestra el esquema del Data Warehouse.

 

Para iniciar el proceso ETL, las cuatro bases de los sistemas transaccionales se alojaron en un mismo servidor MySQL versión 5.5.24 (Oracle Corporation, 2010), en el cual también se realizaron dos bases de datos nuevas: Staging (Data Staging Area) y Data Warehouse. La separación entre Staging y Data Warehouse mantiene el modelo de datos más ordenado, y más importante aún, brinda mayor flexibilidad y una carga de datos de mayor calidad. (Kimball, R et al., 2008).
El procedimiento ETL y validación se describe a continuación:
1) Extracción de los datos provenientes de las tablas fuente y carga en tablas Staging.
2) Limpieza de datos ausentes, datos con errores de tipeo, datos inconsistentes (por ejemplo: fechas de nacimiento inválidas, pacientes y registros duplicados, etc.).
Para los registros con atributos ausentes se consideró imputarlos con el valor “NA”(por sus siglas en inglés Not Available), mientras que en los casos más severos se determinó eliminar el registro entero.
Este proceso se realizó en forma iterativa, inclusive en la etapa de explotación de información.
3) Validación de la consistencia de los datos y carga en las tablas finales del Data Warehouse, primero a través de consultas directas a las tablas de la base y luego mediante una herramienta de explotación.
El proceso mencionado se efectuó utilizando la herramienta Visual Studio 2017 Community SQL Server Data Tools (Microsoft Corporation, 2017).
Con el objetivo de presentar de una manera clara y concisa la información alojada en el Data Warehouse, se determinó que la herramienta a utilizar sería Power BI Desktop de Microsoft (Microsoft Corporation, 2019).
Se decidió utilizar estos Softwares por su potencialidad y además porque poseen versiones comunitarias gratuitas. Visual Studio Community es gratuito para estudiantes, investigadores y para pequeñas organizaciones. Por su parte PowerBI Desktop es gratuita y posee todas las posibilidades de análisis detalladas en este trabajo, permitiendo que su implementación en el sector público sea factible.

RESULTADOS

Como resultado del proceso ETL, el Data Warehouse fue cargado con 289.917 registros de atenciones, 43.614 registros de pacientes, 37 especialidades, 2131 diagnósticos comprendidos entre los años 2010 a 2018.
Los datos residentes en el Data Warehouse fueron analizados con la herramienta de explotación Power BI, obteniendo los siguientes gráficos:
• Cantidad de pacientes atendidos por trimestre y por año, agrupado por sexo (Gráfico de barras apiladas). Métrica utilizada: cantidad de pacientes.
• Total atenciones por año por especialidad por centro de salud (Gráfico de barras apiladas). Métrica utilizada: cantidad de atenciones.
• Cantidad de atenciones por grupo etario y centro de salud (Gráfico de barras agrupadas). Métrica utilizada: cantidad de atenciones.
• Ranking de diagnósticos para una especialidad, para todos los centros de salud (Gráfico de barras). Métrica utilizada: cantidad de pacientes.
• Evolución de un diagnóstico a través del tiempo (Gráfico de barras y líneas). Métrica utilizada: cantidad de pacientes.
Todos estos gráficos fueron analizados haciendo uso de las ventajas que proporciona la herramienta de explotación, como filtrado de datos, cambio dinámico de ejes y el desglose de la información (drill down – roll up).
Luego de una primera visión de los datos se decidió realizar el estudio con los registros disponibles desde el año 2015 hasta el año 2017, debido a que la información anterior disponible no era de buena calidad, principalmente por la gran cantidad de registros incompletos. Aquí se puede evidenciar el impacto que tiene la carga de datos fuente, en todo el proceso de Inteligencia de Negocios. El siguiente análisis hubiera sido invalidado con datos erróneos o de mala calidad.
Con la herramienta, se llevaron a cabo una serie de análisis de las atenciones a través del tiempo, segmentadas por las dimensiones disponibles, como sexo del paciente, CAPS al cual pertenece, rango etario, especialidades más demandadas, cantidad de atenciones de acuerdo al día de la semana o a la estación del año, etc. Se realizaron en total 10 gráficos de los cuales se tomaron los 3 más representativos como ejemplo para el presente trabajo.
A continuación, en el Gráfico 1, se detalla el primero de los análisis realizados para la especialidad “Clínica” según la cantidad de atenciones por centros de atención médica a través del tiempo.

 

Gráfico 1: Gráfico de demanda de atenciones para Clínica por año y centros médicos.

Gráfico 1: Gráfico de demanda de atenciones para Clínica por año y centros médicos.

 

Posteriormente se generó el ranking de diagnósticos para esta especialidad, donde se observa que las “Enfermedades Respiratorias” encabezan el diagnóstico más frecuente, luego de “Consultas o control de salud”.

 

Gráfico 2: Gráfico de cantidad de pacientes por diagnóstico

Gráfico 2: Gráfico de cantidad de pacientes por diagnóstico

 

Prosiguiendo con un análisis en mayor profundidad de este grupo, podemos ver cómo estas patologías se distribuyen por trimestre durante el período 2015 – 2017.

 

Gráfico 3: Gráfico de total de pacientes para enfermedades respiratorias por trimestre y año agrupados por sexo

Gráfico 3: Gráfico de total de pacientes para enfermedades respiratorias por trimestre y año agrupados por sexo.

 

En este gráfico se ve claramente que el periodo de mayor incidencia de las enfermedades respiratorias es durante los trimestres 2 y 3 de cada año, es decir época invernal en Argentina. Este y otros patrones pueden resultar sumamente útiles para que los centros tomen acciones preventivas y correctivas en el ámbito de la salud pública.

CONCLUSIONES

En el presente trabajo se ha expuesto cómo las técnicas de Inteligencia de negocios y explotación de datos pueden colaborar a la toma de decisiones en el ámbito de la salud pública basándose en un gran volumen de datos reales.
Estas mismas herramientas pueden ser utilizadas por profesionales de la salud para abordar temáticas o estudios más complejos obteniendo así un máximo aprovechamiento de los datos y colaborando en mayor medida a la toma de decisiones. Podrán acceder de forma sencilla a información depurada, integrada y consistente, generando nuevo conocimiento y ofreciendo una visión más precisa en todas las áreas de Salud Pública.
Los resultados de esta investigación constituyen los primeros pasos en el análisis de la información disponible y se pondrán a disposición de la Secretaría de Salud del Municipio para su evaluación e implementación.

A su vez, se ha podido evidenciar la importancia del proceso de carga de datos, que nos lleva a concientizar acerca del valor de la información presente en los sistemas transaccionales. Datos bien cargados conducen a análisis más exactos, confiables y de los cuales se pueden extraer importantes conclusiones, obteniendo un estudio de mayor calidad.
Perspectivas a Futuro
Se pretende continuar el estudio en otras áreas relevantes de Salud Pública, como la gestión de turnos y salidas de ambulancia.
Este trabajo fue realizado en el marco del Proyecto de Investigación y Desarrollo: “Big Data y Salud: Un análisis interdisciplinar para la construcción de insumos en el marco de políticas públicas para el desarrollo”. PID UTN FA 5093.

REFERENCIAS

DÍAZ, Josep Curto. Introducción al business intelligence. Editorial UOC, 2012.

Health Care Information Systems: A Practical Approach for Health Care Managemen 4th edition – By Karen A. Wager, Frances W. Lee, John P. Glaser – 2017

IMHOFF, C., GALEMMO, N. AND GEIGER, J.G., 2003. Mastering data warehouse design: relational and dimensional techniques. John Wiley & Sons.

INMON W. H., Building the data warehouse, 2nd edition, John Wiley and Sons, Canada, ISBN: 0471-14161-5, 1996.

KIMBALL, R. AND ROSS, M., 2011. The data warehouse toolkit: the complete guide to dimensional modeling. John Wiley & Sons.

KIMBALL, R., ROSS, M., THORNTHWAITE, W., MUNDY, J. AND BECKER, B., 2008. The data warehouse lifecycle toolkit. John Wiley & Sons.

Comments are closed.