El plagio se ha disparado en la era Covid-19. A medida que aumenta el número de personas que trabajan desde casa y asisten a clases a través de Zoom, sin supervisión directa en persona, la tentación de cooptar el trabajo de otra persona ha crecido exponencialmente, al igual que las formas cada vez más sofisticadas de copiar el trabajo de otra persona.
Trucos como la sustitución de una letra como la “o” por un carácter de aspecto similar en un alfabeto no latino o el uso de texto “invisible” resaltado en blanco para burlar los programas actuales de detección de derechos de autor se han convertido en algo habitual.
El porcentaje medio de plagio antes y después de Covid aumentó del 26% al 45% en los Países Bajos, del 37% al 49% en Francia y del 42% al 53% en la India, según una encuesta realizada por el fabricante de software antiplagio CopyLeaks a 51.000 estudiantes universitarios y de secundaria.
La solución no es más de lo mismo -un software que comprueba una base de datos en busca de palabras y párrafos copiados-, sino el uso de inteligencia artificial (IA) que no sólo compara palabras con palabras, sino también “significado por significado”, explica Alon Yamin, director general de CopyLeaks.
Esta empresa israelí es utilizada por escuelas y organizaciones de todo el mundo, como la editorial Macmillan, la Universidad de Stanford, la BBC, Medium, la National Space Society, las Naciones Unidas, Cisco y Accenture, así como por estudiantes, blogueros y periodistas.
La extensa lista de clientes de CopyLeaks revela no sólo la amplitud del uso de su software, sino también lo extendido que está el problema del plagio.
Las escuelas pueden ser el principal caso de uso de las herramientas antiplagio, pero las publicaciones y los editores de libros también pueden utilizar CopyLeaks para asegurarse de que sus escritores no se han apropiado indebidamente -incluso accidentalmente- del trabajo de otra persona (los periodistas, por ejemplo, a menudo parafrasearán el texto de otro artículo, asumiendo que han hecho suficientes cambios para hacerlo suyo; si no es así, la publicación podría ser objeto de acciones legales).
Uso indebido de contenidos
Las empresas que desarrollan sitios web corporativos son otra fuente de clientes potenciales para empresas como CopyLeaks. En este caso, el beneficio es a la inversa: ¿ha copiado alguien su trabajo?
Así es como el cofundador y CTO de CopyLeaks, Yehonatan Bitton, encontró su vocación en el espacio antiplagio.
En 2013, Bitton estaba desarrollando contenido para un sitio web familiar cuando descubrió que estaba siendo copiado por sitios de la competencia. El robo era frustrante, pero lo que es peor, estas múltiples fuentes de contenido idéntico estaban haciendo bajar el ranking de búsqueda del sitio, impactando negativamente en las ventas.
Bitton buscó una solución de software para detectar ese uso indebido de los contenidos, pero no encontró ninguna. A continuación, le propuso a Yamin, su entonces compañero de trabajo y de la unidad de inteligencia de señales 8200 de las Fuerzas de Defensa de Israel, la idea de crear algo que pudiera resolver su problema.
Yamin desempeñó un papel decisivo en el desarrollo de algoritmos basados en la IA y el aprendizaje automático para la inteligencia del ejército israelí; fue esa tecnología la que se convirtió en la base de CopyLeaks.
Promover la autenticidad
La tecnología de CopyLeaks descubrió unos 70 millones de casos de infracción de derechos de autor a partir de 75 millones de páginas escaneadas y 58 millones de documentos comparados.
CopyLeaks utiliza la IA para entender la “voz” de un escritor. Eso va más allá de las palabras, ya que las herramientas automatizadas “pueden jugar con el texto, cambiar las palabras y su orden, lo que facilita enmascarar el plagio”, explica Yamin a ISRAEL21c.
“Aunque no haya ni una sola palabra idéntica, podemos detectar si el significado o la estructura de la frase son muy parecidos”.
Eso no está fuera de la capacidad de los lectores humanos, “pero podemos hacerlo de forma automatizada a un volumen muy alto”.
Y en un número creciente de idiomas: CopyLeaks admite actualmente más de 100 lenguas, entre ellas el hebreo y el hindi.
CopyLeaks puede ayudar a las escuelas y a las publicaciones a evitar las infracciones intencionadas o accidentales de los derechos de autor, pero también es una forma “de autentificarse, de asegurarse de que has parafraseado lo suficiente, de que has atribuido todas tus citas correctamente. Nuestro objetivo es promover la autenticidad”, dice Yamin.
La interfaz muestra comparaciones entre el texto original, a la izquierda, y el texto marcado, a la derecha, con enlaces a la fuente de la que se ha extraído. Los informes pueden descargarse en formato PDF.
“Un análisis de CopyLeaks [en busca de plagio] puede durar desde unos segundos hasta unos minutos, dependiendo de factores como el tamaño del documento o el número de resultados”, dice Yamin.
A la carta o siempre a la vista
CopyLeaks puede utilizarse como una licencia de sitio adquirida por una escuela, institución o publicación; por escritores individuales que pagan en función del número de palabras y páginas comprobadas; o integrado en un LMS (sistema de gestión del aprendizaje) existente.
La tecnología funciona con la mayoría de los principales LMS, como Moodle, Blackboard, Canvas, Brightspace y Schoology, que cubren alrededor del 90% de las instituciones académicas. El software puede ejecutarse bajo demanda (cargar un archivo y hacer clic en “escanear”) o ejecutarse constantemente en segundo plano.
Los precios van desde 10 dólares al mes para 1.200 páginas al año o 300.000 palabras hasta 566 dólares al mes para 120.000 páginas al año y 30 millones de palabras. Los precios para las grandes instituciones se adaptan a sus necesidades específicas. También hay una prueba gratuita, en la que los usuarios pueden probar unas 10 páginas al mes.
CopyLeaks admite 25 tipos de archivos, incluidos los de imagen, en los que los algoritmos de reconocimiento óptico de caracteres (OCR) eliminan cualquier contenido ofensivo. Incluso puede escanear el código informático que los programadores escriben como parte del desarrollo de aplicaciones.
Los clientes pueden establecer el grado de sensibilidad que desean que tenga el software; hay seis niveles diferentes. “Algunos clientes sólo se preocupan por el plagio de tipo copy/paste. Por tanto, la sensibilidad será muy baja. Otros se preocupan por todo lo que pueda ser similar, por lo que el nivel de sensibilidad será muy alto. Puedes jugar con eso y ver qué resultados son relevantes para ti en tu caso de uso”, dice Yamin.
CopyLeaks introdujo recientemente una nueva herramienta: calificar los ensayos escritos utilizando la IA.
“Hicimos un piloto con el Ministerio de Educación de Israel. Sólo nos separaba un punto de 100 puntos en comparación con los calificadores humanos. Es muy preciso y rápido: podemos hacerlo en sólo cinco minutos. Y es completamente imparcial”, dice Yamin.
Un problema global
CopyLeaks no es la única herramienta de detección de plagio que tiene en vilo a los escritores. El gorila de 800 libras en el espacio es Turn It In, que fue adquirido por 1.700 millones de dólares por Advance Publications en 2019.
Turn it In, a su vez, ha estado ocupado adquiriendo competidores más pequeños, lo que lleva a un enfrentamiento del tipo David contra Goliat para CopyLeaks, que tiene solo 25 personas en sus dos oficinas (Kiryat Shemona en Israel para la I + D y Stamford, Connecticut para las ventas y el marketing).
Y aunque está lejos de los casi 2.000 millones de dólares que recibió Turn It In, CopyLeaks acaba de recaudar una ronda de serie A de 6 millones de dólares, además de 1,8 millones de dólares en 2018 de Connecticut Innovations (de ahí la razón de que la sede esté en Stamford).
Yamin señala que CopyLeaks cuenta con más de 200.000 individuos que lo utilizan cada mes y otros cientos de clientes B2B (business-to-business), como editoriales y escuelas.
¿Qué hay de las fábricas de ensayos que suelen encontrarse en las fraternidades de los campus universitarios? ¿Conseguirá CopyLeaks quebrarlas? Si se paga a alguien para que escriba un contenido completamente original, será difícil de detectar, admite Yamin, pero si el mismo estudiante envía un ensayo que ha escrito de forma independiente, CopyLeaks puede comparar la “voz” para ver si es la misma.
De momento, CopyLeaks se centra en el texto y las imágenes, pero Yamin afirma que en el futuro se escanearán otros medios, incluidos los vídeos con derechos de autor publicados en sitios de intercambio de archivos.
¿Hay alguna geografía que sea especialmente atroz en cuanto a la violación de los derechos de autor? Yamin dice que no. “Realmente es un problema global. Ocurre en todas partes”.
Cómo detectar el texto plagiado
Puede que los programas informáticos sean la mejor manera de detectar el texto plagiado, pero el ojo humano puede detectar algunas de las sustracciones más atroces. Estas son las principales áreas que hay que vigilar, según CopyLeaks:
- Incoherencia en el estilo de escritura o cambios repentinos en los patrones de escritura.
- Variación del estilo de escritura de una palabra a otra o en diferentes párrafos.
- Si el documento no se relaciona con el tema dado.
- Referencias o fuentes no recomendadas en clase.
- Derivas y cambios de tema.
- Diferentes métodos de citación.
- Variación del estilo y tamaño de letra entre párrafos.
- Múltiples fuentes mencionadas sin ninguna cita.
- No hay citas pero sí fuentes citadas ampliadas.