Etiqueta: GitHub

  • Nueva IA de Netflix permite eliminar objetos y modificar escenas en videos

    Nueva IA de Netflix permite eliminar objetos y modificar escenas en videos

    Netflix presentó VOID, un nuevo modelo de inteligencia artificial capaz de eliminar objetos en movimiento dentro de videos y modificar las interacciones asociadas a estos elementos mediante técnicas avanzadas de reconstrucción.

    La herramienta surge como una evolución frente a métodos tradicionales, que solo rellenan el fondo tras eliminar un objeto, pero que suelen fallar cuando existen interacciones complejas, generando resultados poco realistas.

    VOID, basado en la arquitectura CogVideoX, introduce un sistema más sofisticado mediante una máscara de cuatro valores que identifica el objeto a eliminar, las zonas superpuestas, las interacciones y el fondo.

    Este enfoque permite que el modelo procese primero la eliminación completa del objeto junto con sus interacciones y, en caso de errores, ejecute una segunda pasada para estabilizar el resultado y mejorar la coherencia visual.

    El desarrollo fue realizado en conjunto con la Universidad de Sofía, utilizando datasets especializados como HUMOTO, centrado en interacciones humanas, y Kubric, orientado a interacciones entre objetos.

    Al ser un modelo de código abierto, VOID está disponible en plataformas como GitHub y Hugging Face, lo que permite a desarrolladores, investigadores y creadores experimentar con esta tecnología de forma gratuita.

    Entre sus capacidades destaca la posibilidad de modificar escenas de manera más realista, como eliminar un objeto sin alterar de forma incorrecta los elementos que interactúan con él.

    Un ejemplo presentado muestra cómo VOID elimina una prensa que aplasta un objeto, pero reconstruye correctamente el estado original del elemento afectado, a diferencia de otros modelos que mantienen la deformación.

    No obstante, expertos advierten que esta tecnología también implica riesgos, ya que podría ser utilizada para manipular contenido audiovisual y facilitar la desinformación.

    El avance refleja el creciente impacto de la inteligencia artificial en la edición de video, abriendo nuevas posibilidades creativas, pero también desafíos éticos sobre el uso de estas herramientas.

     

  • Elon Musk cumple su anuncio y publica el algoritmo de X en código abierto

    Elon Musk cumple su anuncio y publica el algoritmo de X en código abierto

    El magnate y propietario de X (antes Twitter), Elon Musk, publicó en código abierto el algoritmo de recomendación de la red social, tal y como anunció el pasado 10 de enero.

    Tras la creciente serie de polémicas que han involucrado a la plataforma relacionadas con la generación de imágenes explícitas con inteligencia artificial a petición de los usuarios, entre ellas desnudos de menores de edad, Musk tomó la medida de publicar el algoritmo de X en código abierto en un intento de hacerla más transparente.

    Aunque anunció que publicaría el algoritmo la semana pasada, finalmente se ha hecho público este martes en la plataforma para desarrolladores Github, en la que se puede redistribuir, modificar y usar el código abierto.

    En un mensaje en la red social, Musk ha anunciado la publicación del algoritmo, al que ha calificado de «tonto» y ha afirmado que necesita «mejoras masivas». «Al menos puedes ver que nos esforzamos por mejorarlo en tiempo real y con transparencia.

    Ninguna red social hace esto», ha dicho. No obstante, no es la primera vez que el magnate trata de hacer público el código de X, ya que en 2023, meses después de asumir el mando de la plataforma, publicó el código del ‘feed’ de ‘Para ti’ en GitHub.

    El ‘feed’ ‘Para ti’ recomienda contenidos a partir del uso de dos fuentes principales: las cuentas seguidas por el usuario (Thunder) y otras publicaciones encontradas en la plataforma (Phoenix).

    Las publicaciones con puntuaciones más altas tienen más probabilidades de ser recomendadas al usuario. Este diseño elimina el método tradicional de extracción manual de características y, en su lugar, utiliza un enfoque de aprendizaje de extremo a extremo para predecir los intereses del usuario.