En septiembre de 2025, Nature publicó un editorial que subraya un vacío llamativo: hasta ahora, ningún Modelo extenso de lenguaje (Large Language Model, LLM) ampliamente utilizado había atravesado un proceso formal de revisión por pares en revistas científicas. El lanzamiento de DeepSeek-R1, recientemente sometido a este escrutinio, representa un precedente de enorme relevancia. Para la comunidad científica, médica y académica, el debate no se limita a cuestiones técnicas: involucra la transparencia, la reproducibilidad y la legitimidad de una tecnología que ya permea la investigación biomédica, la docencia universitaria y la práctica clínica .
La revisión por pares, piedra angular de la ciencia moderna, aporta claridad metodológica y permite contrastar afirmaciones con evidencias verificables. Sin ella, los LLM corren el riesgo de consolidarse como “cajas negras” adoptadas de forma masiva sin un análisis riguroso de sus limitaciones y sesgos.
LLM y el impacto en la ciencia biomédica
El interés por los Modelos extensos de lenguaje (LLM) no es meramente informático. Estudios recientes han demostrado que estos modelos se emplean en la búsqueda de literatura biomédica, en el diseño de ensayos clínicos y hasta en la redacción de informes regulatorios (Singhal et al., 2023). Sin embargo, la fiabilidad de tales aplicaciones depende de conocer con precisión los métodos de entrenamiento, los datos empleados y los mecanismos de evaluación. La ausencia de revisión independiente erosiona la confianza en su uso para diagnósticos, farmacovigilancia o políticas sanitarias.
La Organización Mundial de la Salud ha advertido en repetidas ocasiones que las tecnologías emergentes deben regirse por principios de transparencia, equidad y responsabilidad (WHO, 2021). La publicación revisada por pares de un LLM alinea la inteligencia artificial con esos principios, favoreciendo su integración ética en contextos sensibles como hospitales, agencias regulatorias y universidades.
Entre la innovación y la rendición de cuentas
El caso de DeepSeek-R1
El modelo DeepSeek-R1 se distingue porque sus desarrolladores decidieron exponer su arquitectura y resultados al escrutinio de revisores independientes. Este gesto no solo legitima el avance tecnológico, sino que también impulsa a la comunidad global a exigir estándares equivalentes a otros gigantes tecnológicos. La práctica recuerda que la innovación sin rendición de cuentas puede socavar la credibilidad del campo entero.
Riesgos de la opacidad
Los LLM pueden amplificar sesgos presentes en los datos de entrenamiento, producir respuestas con apariencia de certeza pero sin sustento, e incluso reproducir errores en cascada cuando son integrados en sistemas médicos o gubernamentales. En ausencia de revisión externa, tales riesgos permanecen invisibles hasta que generan consecuencias en el mundo real: diagnósticos erróneos, fallos en traducciones médicas críticas o recomendaciones inadecuadas para pacientes.
Implicaciones para la medicina y la política científica
En el ámbito farmacéutico, un LLM sometido a revisión por pares podría convertirse en una herramienta confiable para acelerar la identificación de moléculas, analizar interacciones de fármacos o sistematizar datos de ensayos clínicos. Para la academia, representa la posibilidad de integrar IA en procesos de enseñanza y escritura científica sin comprometer los estándares de calidad editorial. Y para los gobiernos, abre la puerta a regular la IA con base en evidencia publicada, en lugar de depender de comunicados corporativos.
La revisión por pares no garantiza perfección, pero sí un control de calidad mínimo y transparente. De la misma manera que un artículo científico gana legitimidad al ser publicado en Nature o The Lancet, un Modelo extenso de lenguaje (LLM) revisado gana credibilidad para ser empleado en investigación biomédica o en entornos hospitalarios.
Hacia una cultura de ciencia abierta en IA
La llamada de Nature a “traer sus LLM” al terreno de la revisión por pares plantea un desafío mayor: integrar la inteligencia artificial en la cultura de la ciencia abierta. Esto implica compartir no solo resultados, sino también datos de entrenamiento, métricas de evaluación y protocolos de seguridad. De este modo, la comunidad global puede replicar, contrastar y mejorar los hallazgos.
En este contexto, América Latina y Europa tienen un papel crucial. La primera por su dinamismo en políticas de acceso abierto y la segunda por su marco regulatorio en IA, actualmente uno de los más avanzados del mundo. Si ambas regiones adoptan como estándar la publicación revisada por pares de LLM, el efecto dominó podría extenderse a la investigación biomédica global.
Reflexiones finales
El caso de DeepSeek-R1 inaugura un camino que otros desarrolladores de Modelos extensos de lenguaje (LLM) deben recorrer. Para los profesionales de la medicina, la investigación y la política pública, este hito redefine la relación entre innovación tecnológica y validación científica. En un mundo donde los LLM ya redactan protocolos clínicos, traducen documentos regulatorios y sintetizan literatura médica, exigir revisión por pares no es un formalismo académico, sino una condición de seguridad, ética y confianza.
La oportunidad está abierta: integrar la inteligencia artificial a la ciencia con la misma disciplina que rige a los descubrimientos biomédicos. En Scienslate, creemos que la comunicación clara y la traducción especializada son claves para que estas tecnologías beneficien a la salud y el conocimiento global. Conozca cómo nuestros servicios de traducción médica pueden apoyar su próximo proyecto de investigación internacional.
Referencias
Singhal, K., Azizi, S., Tu, T., et al. (2023). Large language models encode clinical knowledge. Nature, 620(7972), 172–180. https://doi.org/10.1038/s41586-023-06291-2
World Health Organization. (2021). Ethics and governance of artificial intelligence for health: WHO guidance. https://www.who.int/publications/i/item/9789240029200
Nature Editorial. (2025, September 17). Bring us your LLMs: why peer review is good for AI models. Nature, 645, 559. https://doi.org/10.1038/d41586-025-02979-9



