KI-Alltag - LLMs lokal hosten und nutzen

In weniger als 30 Minuten zum eigenen GPT: Lokales LLM mit Web-Interface

Willkommen zurück! Seit Llama3.1 verfügbar ist, habe ich erst verstanden, dass man viele LLMs legal und kostenlos herunter laden kann. Was mich lange abgeschreckt hat, war, dass man sich mit GitHub, HugginFace auskennen und auch programmieren können muss um LLMs nutzbar zu machen.

Bis ich ein Tool fand, dass das deutlich einfacher kann! Heute zeige ich euch, wie ihr in wenigen Schritten euer eigenes Chat-GPT-ähnliches System auf eurem lokalen Rechner einrichten könnt. Wir verwenden dafür das Llama 3.1 Modell und erstellen ein einfaches Web-Interface.

Was ihr braucht:

  • Ein leistungsfähiger Computer (am besten mit einer guten GPU)
  • LM Studio
  • Python-Code (erstellen wir mit Claude 3.5)
  • HTML- und JavaScript-Code (erstellen wir mit Claude 3.5)

Schritt 1: LLM-Server einrichten

  1. Ladet und installiert LM Studio von der offiziellen Website.
  2. Startet LM Studio und wählt das Llama 3.1 Modell aus. Es kann natürlich auch jedes andere LLM ausgewählt werden.
  3. Startet das LLM als Server auf Port 8080.


    Hinweis: man kann auch direkt in LM-Studio mit dem GPT kommunizieren, Presets und Temperatur einrichten. Aber ich wollte ein separates Interface.

Schritt 2: Flask-Server erstellen

Die Python-Datei dient als Backend-Server und kommuniziert mit dem LLM in LM-Studio.

Tipps: 
  • darauf achten, dass die LLM-URL auf den richtigen Port zeigt (im LM-Studio prüfen) und auf V1/chat/completions zeigt.
  • Den timeout direkt auf 60 setzen, sonst bricht das Python-Programm ab bevor der GPT fertig mit seiner Antwort ist.
  • Ich habe den Ausgabeport auf 5001 gesetzt, dieser kann aber beliebig gewählt werden.



Schritt 3: HTML-Interface erstellen

  1. Erstellt einen Ordner templates im gleichen Verzeichnis wie app.py.
  2. Erstellt eine Datei index.html im templates-Ordner.
  3. die HTML-Datei muss auf den gleichen Port wie der Python-Backend lauschen
Diese Datei dient als Front-End, dort tippt man also seine Prompts ein und liest die Antworten des GPTs.

Schritt 5: Alles zusammen starten

  1. Stellt sicher, dass der LLM-Server in LM Studio läuft.
  2. Öffnet ein Terminal (Windows --> cmd) im Projektverzeichnis und führt python app.py aus.
  3. Öffnet einen Webbrowser und geht zu http://localhost:5001.

Voilà! Ihr habt nun euer eigenes lokales Chat-GPT-System.

Viel Spaß beim Chatten mit eurem persönlichen KI-Assistenten!




Beliebte Posts aus diesem Blog

KI-Alltag - AnythingLLM: ein vielseitiges LLM-Tool mit Agents und RAG

KI-Alltag - LLMs lokal hosten - 1337!