Sección Blueprint - Cllama (llama.cpp)
Modelo sin conexión
Cllama está implementado basado en llama.cpp y es compatible con el uso offline de modelos de inferencia de IA.
Debido a que estamos trabajando sin conexión, es necesario preparar previamente los archivos del modelo, como descargar el modelo fuera de línea desde el sitio web de HuggingFace: Qwen1.5-1.8B-Chat-Q8_0.gguf
Coloca el modelo en una carpeta específica, por ejemplo, en el directorio Content/LLAMA del proyecto de juego.
Una vez que tengamos el archivo del modelo sin conexión, podemos utilizar Cllama para realizar chats de inteligencia artificial.
Conversación de texto
Utilice Cllama para chatear por texto.
En el diagrama, haz clic derecho para crear un nodo llamado Enviar solicitud de chat de Cllama
.
Crear un nodo de Options y establecer Stream=true, ModelPath="E:\UE\projects\FP_Test1\Content\LLAMA\qwen1.5-1_8b-chat-q8_0.gguf"
Crea mensajes, agrega un mensaje del sistema y un mensaje de usuario.
Crear un delegado que reciba la información de salida del modelo y la imprima en la pantalla.
El diseño completo se ve así, ejecuta el diseño y podrás ver en la pantalla del juego el mensaje devuelto al imprimir el gran modelo.
Generador de texto de imagen.
Cllama también experimentó apoyando la biblioteca llava, brindando la capacidad de Vision.
Por favor, asegúrate de tener listo el archivo del modelo offline multimodal, como por ejemplo Moondream (moondream2-text-model-f16.gguf, moondream2-mmproj-f16.gguf)或者 Qwen2-VL(Qwen2-VL-7B-Instruct-Q8_0.gguf, mmproj-Qwen2-VL-7B-Instruct-f16.ggufO cualquier otro modelo multimodal compatible con llama.cpp.
Crear un nodo de opciones, configurando los parámetros "Model Path" y "MMProject Model Path" con los archivos del modelo multimodal correspondiente.
Crear un nodo para leer el archivo de imagen flower.png y configurar los mensajes.
Crear finalmente el nodo, recibir la información devuelta y mostrarla en pantalla, el diseño completo se vería así:
Ejecutar el diagrama de flujo para visualizar el texto devuelto.
El archivo llama.cpp utiliza la GPU.
Añadir la opción de solicitud de chat "Cllama Chat Request Options" con el parámetro "Num Gpu Layer", que permite configurar la carga de GPU en llama.cpp, lo que controla el número de capas que se deben calcular en la GPU. Referirse a la imagen.
Manipular archivos de modelos en el archivo .Pak después de empaquetar.
Una vez que se inicia el empaquetado Pak, todos los archivos de recursos del proyecto se colocarán en el archivo .Pak, incluidos los archivos de modelo fuera de línea gguf.
Debido a que llama.cpp no puede leer directamente los archivos .Pak, es necesario copiar los archivos de modelos sin conexión del archivo .Pak al sistema de archivos.
AIChatPlus ofrece una función que automáticamente copia y procesa los archivos de modelos en .Pak, colocándolos en la carpeta Saved.
O también puedes gestionar los archivos de modelo en .Pak tú mismo, la clave es copiar los archivos porque llama.cpp no puede leer correctamente .Pak.
Nodo de funcionalidad.
Cllama proporciona algunos nodos funcionales para acceder fácilmente al estado actual del entorno.
"Cllama Is Valid": Verificar si Cllama está correctamente inicializado en llama.cpp.
"Cllama Is Support Gpu":Determinar si llama.cpp es compatible con el backend de GPU en el entorno actual.
"Obtener Soporte Backends de llamada": Obtener todos los backends compatibles con llama.cpp en uso actual.
"Cllama Prepare ModelFile In Pak": Copia automáticamente los archivos de modelo de Pak al sistema de archivos.
Original: https://wiki.disenone.site/es
This post is protected by CC BY-NC-SA 4.0 agreement, should be reproduced with attribution.
Visitors. Total Visits. Page Visits.
Este mensaje ha sido traducido utilizando ChatGPT, por favor déjenos sus comentarios en FeedbackSeñale cualquier omisión.