Blueprint chapter - Cllama (llama.cpp)
Offline-Modell
Cllama wurde basierend auf llama.cpp entwickelt und unterstützt die Verwendung von KI-Inferenzmodellen offline.
Da die Verbindung getrennt ist, müssen wir zunächst die Modelldateien vorbereiten, zum Beispiel ein Offline-Modell von der HuggingFace-Website herunterladen: Qwen1.5-1.8B-Chat-Q8_0.gguf
Platzieren Sie das Modell in einem bestimmten Ordner, zum Beispiel im Verzeichnis Content/LLAMA des Spielprojekts.
Nachdem wir die Offline-Modelldatei haben, können wir mit Cllama AI-Chats durchführen.
Textnachrichten
Verwenden Sie Cllama für Text-Chats.
In der Blaupause mit der rechten Maustaste einen Knoten namens Send Cllama Chat Request
erstellen.
Erstellen Sie den Options-Knoten und legen Sie Stream=true, ModelPath="E:\UE\projects\FP_Test1\Content\LLAMA\qwen1.5-1_8b-chat-q8_0.gguf"
fest.
Erstellen Sie Nachrichten, fügen Sie jeweils eine Systemnachricht und eine Benutzernachricht hinzu.
Erstellen Sie einen Delegierten, um die Ausgabedaten des Modells zu empfangen und auf dem Bildschirm anzuzeigen.
Die vollständige Blaupause sieht so aus. Wenn du die Blaupause ausführst, siehst du die Nachrichten, die das Spiel auf dem Bildschirm ausgibt.
Erzeugung von Text aus Bildern llava
Cllama hat auch experimentelle Unterstützung für die llava-Bibliothek hinzugefügt, die die Fähigkeit von Vision bietet.
Bereiten Sie zunächst die Multimodal Offline-Modelldatei vor, z. B. Moondream (moondream2-text-model-f16.gguf, moondream2-mmproj-f16.gguf)或者 Qwen2-VL(Qwen2-VL-7B-Instruct-Q8_0.gguf, mmproj-Qwen2-VL-7B-Instruct-f16.gguf)oder ein anderes von llama.cpp unterstütztes Multimodal-Modell.
Erstellen Sie den Options-Knoten und setzen Sie die Parameter "Model Path" und "MMProject Model Path" auf die entsprechenden Multimodal-Modelldateien.
Erstellen Sie einen Knoten zum Lesen der Bilddatei flower.png und setzen Sie die Nachrichten.
Schließlich wird die erstellte Node die zurückgegebenen Informationen empfangen und auf dem Bildschirm ausgeben. Das vollständige Blueprint sieht dann wie folgt aus:
Führen Sie die Blaupause aus, um den zurückgegebenen Text anzuzeigen.
llama.cpp verwendet die GPU.
"Füge dem Parameter 'Num Gpu Layer' in den 'Cllama Chat Request Options' hinzu, um das GPU-Payload in der 'llama.cpp' zu konfigurieren. Dadurch lässt sich die Anzahl der Ebenen festlegen, die auf der GPU berechnet werden sollen. Siehe Abbildung."
Behandlung von Modelldateien in einer .Pak-Datei nach dem Verpacken.
Nachdem das Pak-Paket erstellt wurde, werden alle Ressourcen des Projekts in der .Pak-Datei gespeichert, einschließlich der Offline-Modelldatei gguf.
Aufgrund der Unfähigkeit von llama.cpp, .Pak-Dateien direkt zu lesen, müssen die Offline-Modelldateien aus der .Pak-Datei ins Dateisystem kopiert werden.
AIChatPlus bietet eine Funktion, die automatisch Modelldateien aus der .Pak kopiert und in den Ordner "Saved" platziert.
Alternativ kannst du die Modelldateien in der .Pak-Datei selbst bearbeiten, das Wichtige ist, die Dateien herauszukopieren, weil llama.cpp die .Pak-Datei nicht korrekt lesen kann.
Funktionsknoten
Cllama bietet einige Funktionen, um den aktuellen Status in der Umgebung abzurufen.
"Cllama Is Valid":Verify if Cllama llama.cpp is properly initialized.
"Cllama unterstützt GPU": Überprüfen, ob die Datei llama.cpp in der aktuellen Umgebung das GPU-Backend unterstützt.
"Holen Sie sich Support-Backends von Llama": Fetch all backends supported by the current llama.cpp.
"Cllama Prepare ModelFile In Pak": Kopiert automatisch die Modelldatei(en) aus dem Pak in das Dateisystem.
Original: https://wiki.disenone.site/de
This post is protected by CC BY-NC-SA 4.0 agreement, should be reproduced with attribution.
Visitors. Total Visits. Page Visits.
Dieser Beitrag wurde mit ChatGPT übersetzt. Bitte gib uns dein FeedbackBitte weisen Sie auf etwaige Auslassungen hin.