La difusión estable es unaModelo de difusión latente (LDM)Modelo de texto a imagen de aprendizaje profundo. A diferencia de los modelos tradicionales que operan en el espacio de píxeles, opera en dimensiones bajas.Espacio latenteLa operación de eliminación de ruido se realiza en el proceso, lo que reduce en gran medida la demanda de potencia informática de la computadora. Sus componentes principales incluyen codificadores automáticos variacionales (VAE), redes de eliminación de ruido U-Net y codificadores de texto (como CLIP).
| Versión | Descripción de la característica |
|---|---|
| v1.5 | La versión básica más popular, el ecosistema de código abierto es el más maduro y tiene muchos modelos de ajuste fino de terceros. |
| v2.1 | Soporte de resolución de imagen mejorado y control mejorado de mensajes negativos. |
| SDXL | Aumenta significativamente la cantidad de parámetros, tiene mayores capacidades de composición y realismo y admite una resolución nativa de 1024x1024. |
| SD3 | Al adoptar un nuevo diseño arquitectónico, mejora significativamente las capacidades de representación de texto y el cumplimiento de instrucciones complejas. |
La ejecución de Stable Diffusion depende principalmente de la tarjeta gráficaUnidad de procesamiento de gráficos (GPU)yRAM de vídeo (VRAM). Generalmente se recomienda tener una tarjeta gráfica NVIDIA con al menos 8 GB de VRAM para una mejor velocidad y estabilidad de generación. Para ejecutar localmente, las interfaces de operación comunes incluyenAutomatic1111 (WebUI)、ComfyUIoForge。
En comparación con las herramientas de dibujo de IA de código cerrado, la ventaja de Stable Diffusion es queAltamente personalizableyEjecución totalmente localizada. Los usuarios pueden entrenar modelos y ajustar los parámetros subyacentes por sí mismos, y el contenido generado no está sujeto a restricciones de censura en la plataforma en la nube, lo que la convierte en la herramienta preferida para creadores profesionales y desarrolladores de tecnología.
Este es un modelo basado en SD 1.5 con amplios ajustes para múltiples especies. Corrige errores comunes en las articulaciones y la lógica de conexión de las extremidades al generar cuadrúpedos con modelos generales, y mejora especialmente la densidad del cabello en los mamíferos y las capas de plumas de las aves. Es la primera opción para generar criaturas muy realistas.
Residencia enSDXLDesarrollo de arquitectura, con altísima resolución y capacidades de integración del entorno. Este modelo es bueno para manejar la interacción entre animales salvajes y fondos naturales (como selvas tropicales, desiertos y mares profundos) y puede generar imágenes con la textura de la fotografía ecológica. Su ventaja radica en el delicado tratamiento del reflejo de luces y sombras sobre la piel o el pelaje, evitando una excesiva sensación plástica artificial.
Modelos livianos diseñados para mascotas específicas o criaturas raras (por ejemplo, corgis, ocelotes, camaleones). Este tipo de modelo suele ser entrenado por el creador utilizando decenas de fotografías de razas específicas. Puede restaurar con precisión la distribución del patrón único de la raza, la forma de la oreja y las características de la pupila. A menudo se utiliza junto con modelos grandes realistas para mejorar la precisión.
Modelos especialmente diseñados para dragones, unicornios, grifos y otras criaturas míticas. Este tipo de modelo combina las características anatómicas de una variedad de animales vivos y puede generar criaturas ficticias con una estructura razonable y una belleza artística. Hay optimizaciones especiales en el manejo de escamas, protuberancias óseas y textura de la membrana del ala.
Esto es actualmenteSDXLUno de los mejores modelos realistas de la arquitectura. Destaca en el procesamiento de escenas de la naturaleza y fotografía macro, reproduciendo con precisión las texturas sutiles de las plantas, como las venas de las hojas, la translucidez de los pétalos y el rocío de la mañana. Su ventaja radica en sus potentes capacidades de captura de luces y sombras, que pueden generar imágenes de bosques o jardines con una fuerte sensación de espacio.
Para uso habitualSD 1.5Para los usuarios, este es un modelo grande realista clásico. Es perfecto para generar fotografías de plantas en macetas, plantas de interior o jardinería doméstica. El tono de imagen que genera es más realista, sin excesivas modificaciones artificiales, y puede simular perfectamente la textura de una cámara de un solo objetivo.
Este no es un único modelo grande, sino uno específico paraIlustración de plantaPesas para entrenamiento de estilo. Montarlo bajo el modelo general puede producir imágenes similares al estilo de dibujo científico del siglo XVIII o XIX. Enfatiza las características estructurales biológicas de las plantas, a menudo acompañadas de un fondo de pergamino y un delicado escaneo de líneas, y es adecuado para diseño artístico o con fines educativos.
Este modelo se centra en lo último en reproducción de colores naturales. Proporciona un tono verde muy equilibrado al generar plantas, evitando el verde fluorescente o los problemas de sobresaturación comunes en la IA. Esta es una opción muy estable para crear imágenes de estilo documental de paisajes al aire libre, selvas tropicales o ecología natural.