Interadictos Blog Programación y sistemas LM Studio: ejecutar modelos de IA LLM en un portátil o pc y offline para crear tu chatbot local
Programación y sistemas

LM Studio: ejecutar modelos de IA LLM en un portátil o pc y offline para crear tu chatbot local

LM Studio es una aplicación que nos permite probar en local diferentes modelos LLM (Large Language Model) de una forma muy sencilla. Además de su sencillez, estos modelos no transmiten ningún tipo de información a otros servidores, con lo que puedes crear tu propia IA y configurarla como consideres.

LM Studio dispone de versiones para Windows, MacOS X y Linux.

Instalación

Lo primero que tendrás que hacer será descargar la aplicación para tu SO: https://lmstudio.ai/

En el caso de Linux, se descargará un fichero de extensión appImage, el cual hay que darle permisos de ejecución (si no los tiene ya), y con eso ya funcionará.

Descargar un modelo

Una vez instalada la aplicación, ábrela, verás la siguiente pantalla:

Vamos a descargar el modelo llamado «LLama 3 8B Instruct» (el primero que aparece en la captura) que se publicó el 19 de abril de 2024. Para ello vamos a pulsar en el icono de la lupa al lado del nombre del modelo. Nos aparecerá la siguiente pantalla:

El nombre del modelo tiene varias partes que hay que explicar:

  • Meta LLama 3, es el nombre del modelo propiamente dicho. Es un modelo LLM de Meta (Facebook), es la versión 3 del mismo, y es el más pequeño de los modelos de esta versión.
  • 8B: es el número de parámetros con los que ha sido entrenado. En este caso ocho mil millones de parámetros. Para esta versión existen los modelos 70B y 400B (que aun está siendo entrenado).
  • Instruct: se refiere al «Fine Tunning» que se le ha realizado. En este caso se ha entrenado para que ejecute las acciones que se le indiquen. Si en vez de «Insctruct» fuera «Chat«, pues habría sido entrenado para responder preguntas.

La parte importante de la captura anterior está en el listado de ficheros disponible. Como habrás observado hay cinco ficheros con un tamaño bastante diferente. Esto es debido a la «Quantización» que se les ha aplicado. Podríamos definir «Quantización» como una especie de compresión que reduce el tamaño del modelo, pero también lo hace más tonto. La «Quantización» aplicada en el modelo se puede ver en la etiqueta «Q4_K_M«, «Q5_K_M«, «Q6_K«, etc. Cuanto más alta sea la quantización mejor será el modelo, claro que también ocupará más espacio.

El tamaño del fichero es muy importante, porque este también será la cantidad de VRAM que el modelo necesita para poder funcionar. Cuanta más VRAM tenga tu tarjeta gráfica mejor.

Para elegir qué fichero descargar tienes que tener en cuenta la tarjeta gráfica que tengas, sobre todo su VRAM. Si tienes una gráfica de 8GB, posiblemente el fichero de 8GB no te funcione, y tendrás que descargar el de 6GB o el de 5GB. Tienes que entender que tu SO también consume una parte de la VRAM. Aun así, LM Studio nos da ciertas configuraciones para poder ejecutar parte del modelo en la GPU y parte en la CPU, pero se ejecutará mucho más lentamente.

Cuando hayas decidido qué fichero es el mejor para ti pulsa en el botón «Download» del fichero. Al pulsarlo se iniciará la descarga, que podrás seguir en la parte inferior de la pantalla:

Y si pulsas sobre la barra de progreso podrás ver el listado de descargas:

Probando el modelo

Cuando termine de descargar y validar el fichero descargado podrás probar el modelo.

Para ello pulsa en el icono de la burbuja de dialogo con tres puntos del menú de la izquierda:

Esta opción nos mostrará un chat como el de chatGPT. Arriba, en «Select a model to load», despliégalo y seleccionar el modelo que acabas de descargar.

Si al seleccionarlo te aparece este mensaje, simplemente pulsa en «Accept New System Prompt»:

En todo momento podrás ver la cantidad de RAM que consume el modelo y el uso de CPU que está realizando:

Abajo tienes un campo de texto para interacturar con el modelo. Escríbele algo:

Al cargar por primera vez el modelo y escribirle en español, quizás tenga alguna confusión con el idioma. Para corregirlo tenemos que indicarle cómo debe comportarse. Para ello, a la derecha tenemos un listado de opciones que nos permiten configurar diferentes aspectos del modelo:

En este caso la opción que nos interesa es el «System Prompt». Además del texto introducido, le indicamos también «Speak spanish»:

Si le volvemos a saludar ahora responderá correctamente:

Con esta pequeña configuración ya puedes interactuar con el modelo.

Modificar la personalidad del modelo

Aunque lo ideal es que pruebes por ti el modelo, puedes seguir modificando el «System Prompt», por ejemplo indicando que hable como Peppa Pig:

Salir de la versión móvil