Cómo usar la inteligencia artificial y el aprendizaje automático para la generación de objetos 3D. Aprovechando un enfoque innovador, Microsoft TRELLIS permite producir modelos tridimensionales de alta calidad, tanto en términos de formas como de texturas.
La generación de recursos 3D, que ha experimentado un enorme crecimiento en los últimos años, es un campo en rápida evolución gracias al avance de las tecnologías de inteligencia artificial y aprendizaje automático. Un proyecto que muestra las potencialidades de estas tecnologías es TRELLIS, un modelo para la generación de objetos 3D desarrollado por Microsoft que se basa en un concepto innovador llamado Structured Latent (SLAT). Este enfoque permite producir modelos 3D de alta calidad con detalles precisos tanto en la forma como en las texturas, tanto a partir de descripciones textuales como de imágenes bidimensionales.
¿Qué es TRELLIS y cómo funciona?
TRELLIS es un modelo avanzado de generación de recursos 3D que, a diferencia de otras técnicas de generación que utilizan una sola representación latente, SLAT permite la decodificación en diferentes formatos de salida.
El corazón de TRELLIS está constituido por los Rectified Flow Transformers, diseñados específicamente para trabajar con la representación SLAT. Estos transformers permiten generar recursos 3D de manera escalable, permitiendo gestionar conjuntos de datos enormes (como el conjunto de datos de 500.000 objetos 3D utilizado para el entrenamiento) y producir modelos de alta calidad.
Los modelos generados por TRELLIS son ricos en detalles, no solo en las formas, sino también en las texturas, que son cruciales para aplicaciones avanzadas en los sectores del gaming, la realidad aumentada (AR) y la realidad virtual (VR).
Modificación local de los recursos 3D
Un aspecto innovador de TRELLIS es la posibilidad de realizar modificaciones locales en los recursos 3D generados. Por ejemplo, se pueden crear variantes del mismo objeto o hacer modificaciones localizadas para mejorar o personalizar partes específicas del objeto 3D. Esta función es particularmente útil en ámbitos como el diseño de objetos para gaming o la personalización de modelos para simulaciones AR.
TRELLIS ofrece modelos pre-entrenados en un vasto conjunto de datos de recursos 3D con un número máximo de 2 mil millones de parámetros. Estos modelos están disponibles para su uso directamente a través de la plataforma Hugging Face y se pueden utilizar para generar recursos 3D sin necesidad de entrenar el modelo desde cero.
Cómo probar TRELLIS y generar un objeto 3D
La manera más simple e inmediata de experimentar las habilidades de TRELLIS consiste en acceder a esta página y subir una imagen. Con un clic en Generar, se obtiene una representación tridimensional del objeto a partir de la imagen cargada. Con un clic en Extraer GLB, se obtiene un archivo que incluso se puede pasar a una impresora 3D o a cualquier aplicación compatible. Hemos hablado de esto en el artículo dedicado a los modelos 3D.
El modelo ofrece un renderizado de video en tiempo real de las diferentes representaciones 3D generadas. En el ejemplo de la figura, hemos creado un modelo 3D con Trellis y descargado el archivo GLB correspondiente a partir de esta simple imagen publicada en Unsplash.
Instalación y configuración local
Aparte de la demo disponible en Hugging Face, los desarrolladores de Microsoft han desarrollado TRELLIS para funcionar en Linux apoyándose en el uso de una tarjeta NVIDIA con al menos 16 GB de memoria (VRAM) a bordo. La empresa de Redmond recomienda al menos el uso de GPU A100 o A6000, CUDA Toolkit, Python 3.8 o versiones posteriores, Conda para la gestión de las dependencias.
El proceso de instalación incluye la clonación del repositorio de TRELLIS y la ejecución de un script setup.sh para configurar el entorno y las dependencias necesarias. La instalación puede requerir tiempo debido al elevado número de dependencias, pero una vez completada, el sistema está listo para generar recursos 3D:
git clone --recurse-submodules https://github.com/microsoft/TRELLIS.git
cd TRELLIS
./setup.sh --new-env --basic --xformers --flash-attn --diffoctreerast --spconv --mipgaussian --kaolin --nvdiffrast
TRELLIS está diseñado para ser fácil de usar: este ejemplo mínimo permite a los usuarios crear objetos 3D a partir de imágenes. En este caso, la imagen se transforma en un recurso 3D, que luego se puede exportar en formatos como GLB para su uso en aplicaciones de realidad virtual o aumentada.
Próximos desarrollos y aplicaciones futuras
TRELLIS es un proyecto aún en evolución: Microsoft prevé lanzar más modelos y funciones. También se habla de la publicación del código para el entrenamiento y de los datos utilizados para entrenar los modelos. Los usuarios también pueden esperar mejoras en la calidad y la versatilidad de la modificación local.
La posibilidad de generar recursos 3D en varios formatos, combinada con la capacidad de modificarlos localmente, conlleva una amplia gama de campos de aplicación. Generar objetos 3D realistas y detallados de forma escalable se convierte en una oportunidad que aprovechar para todas aquellas entidades interesadas en implementar entornos interactivos de alta calidad.