Asistente de IA con Raspberry Pi: proyectos reales, hardware y guía práctica

  • Raspberry Pi 4/5 permiten asistentes de voz y lenguaje con VOSK, faster‑whisper y LLMs ligeros.
  • El AI Kit con Hailo‑8L aporta 13 TOPS y se integra en Raspberry Pi OS (libcamera/picamera2).
  • Arquitecturas híbridas: transcripción local y LLM remoto vía Ollama/Meshnet para equilibrio rendimiento‑privacidad.

Asistente de IA con Raspberry Pi

Si estás pensando en montar un asistente de IA con Raspberry Pi, estás en buen sitio: hoy la combinación de voz, visión y modelos de lenguaje ya es viable en estas pequeñas SBC, tanto con la Raspberry Pi 4 como con la más potente Raspberry Pi 5. Hay proyectos reales que lo demuestran y, además, existen accesorios oficiales que llevan la aceleración de IA a bordo para ir un paso más allá.

En este artículo vas a encontrar una panorámica muy completa: desde un asistente casero activado por voz basado en Pi 4 y herramientas como VOSK y Ollama, hasta una Pi 5 que ejecuta wake word, transcripción e inferencia local con modelos compactos como Qwen3:1.7b o Gemma3:1b. También verás cómo el AI Kit con NPU Hailo‑8L encaja en la Pi 5, qué librerías emplear para reconocimiento y TTS, y por qué es clave cuidar la seguridad en casa y en empresa.

Por qué montar un asistente de IA con Raspberry Pi

información sobre domótica
Artículo relacionado:
Información sobre domótica: guía práctica, usos y tendencias

Un asistente inteligente en una Raspberry Pi te permite controlar dispositivos, responder preguntas y automatizar rutinas con un coste contenido y un consumo eléctrico mínimo; dicho de otra forma, es una plataforma ideal para aprender, prototipar y desplegar funciones de voz y lenguaje sin depender siempre de la nube.

Con una Pi puedes integrar micrófonos, cámaras y pantallas pequeñas, además de programar en Python, Java o C++; esto abre la puerta a proyectos que van desde un panel de estado con voz hasta un control de acceso con reconocimiento facial, pasando por un bot doméstico que escucha, interpreta y actúa según tus órdenes.

Raspberry Pi 4 vs Raspberry Pi 5: potencia y posibilidades

La Raspberry Pi 4 demostró que un asistente de voz local es posible si eliges bien el stack; sin embargo, la Raspberry Pi 5 no solo acelera CPU y GPU, también añade conectividad PCIe para accesorios de alto rendimiento y mejora puertos y ancho de banda, por lo que la experiencia global se vuelve más fluida.

Entre las especificaciones de la Pi 5 destacan su ARM Cortex‑A76 hasta 2,4 GHz, hasta 8 GB de RAM LPDDR4X, Wi‑Fi 5, Bluetooth 5.0/BLE y doble micro‑HDMI con salida 4K a 60 Hz. Unido a un buen conjunto de sensores, esto permite que el asistente gestione tareas concurrentes sin despeinarse y mantenga baja latencia en la interacción por voz.

ASRAI: un proyecto real con Pi 4 que apuesta por privacidad y control

Un maker ingenioso creó ASRAI, un asistente activado por voz montado en una Raspberry Pi 4 Modelo B con una pantalla GPIO de 3,5 pulgadas y una cámara Sony PlayStation Eye. El detalle jugoso está en la PlayStation Eye: incluye una matriz de cuatro micrófonos que se puede desmontar fácilmente para la Pi y, en el mercado de segunda mano, se encuentra por unas pocas monedas, así que es un chollo para captación de audio con formación de haz básica.

En el proyecto, la Pi 4 ejecuta localmente VOSK para reconocimiento de voz offline y se conecta por red a un LLM hospedado en un PC del propio autor mediante un punto API compatible con OpenAI a través de Ollama. Para hacer que esa conexión funcione desde cualquier sitio, el creador habilitó Meshnet de NordVPN, logrando así un enlace privado y ubicuo sin exponer servicios a Internet de forma directa.

La idea es descargar en la Pi la captura, wake word y transcripción local con VOSK, mientras que la generación de lenguaje la atiende un modelo más potente en otro equipo mediante una API tipo OpenAI expuesta por Ollama y accesible gracias a Meshnet; de esta manera, se equilibra rendimiento y privacidad.

Para el toque “humano”, el proyecto incluye imágenes para estado dormido o escuchando en la pantallita. Si te animas a replicarlo, el creador comparte los recursos necesarios, y conviene tener a mano una impresora 3D y un soldador para el montaje y el ajuste de la matriz de micrófonos.

La iniciativa fue destacada por medios especializados y recuerda a otras aproximaciones tipo Rhasspy en filosofía de diseño: reconocimiento local y orquestación modular. Incluso se mencionan experiencias cercanas de colaboradores que convirtieron su Pi en asistente de IA y analizaron el rendimiento de distintas IAs en Raspberry Pi 5 para orientar a quienes estén valorando dar el salto de generación.

AI Kit oficial para Raspberry Pi 5: la vía rápida a la aceleración

Si prefieres subir de nivel, el AI Kit para Raspberry Pi 5 añade una NPU Hailo‑8L sobre una M.2 2242 preinstalada que se acopla a la M.2 HAT+. Esta combinación aporta hasta 13 TOPS para inferencia eficiente en el borde, liberando a la CPU de cargas intensivas y permitiendo que el asistente ejecute modelos de visión o audio con menor latencia y consumo.

El paquete viene completo: cabezal GPIO apilable, espaciadores, tornillos, una cinta flexible para conectar la placa AI al bus PCIe de la Pi 5 y un disipador adecuado para mantener a raya la temperatura. La instalación física es sencilla y, después, el software se despliega por apt en Raspberry Pi OS.

  • Módulo Hailo AI con NPU Hailo‑8L
  • Raspberry Pi M.2 HAT+ para la Raspberry Pi 5
  • Almohadilla térmica preinstalada entre módulo y HAT+
  • Kit de montaje con espaciadores y tornillería
  • Conector GPIO apilable de 16 mm y cable plano para PCIe

La integración del dispositivo Hailo en el entorno Raspberry Pi OS está madura: funciona con libcamera, rpicam‑apps y picamera2 y el ecosistema de software (controladores Hailo, HailoRT y HailoTappas) se instala directamente mediante el gestor de paquetes. Con este camino, la base para un asistente con visión por computador (por ejemplo, detección de caras o gestos) queda lista con mínima fricción.

Casos de uso: del control del hogar al asistente conversacional

Con una Pi 5 y el AI Kit puedes montar desde un control de acceso con reconocimiento facial hasta un asistente doméstico conversacional “manos libres”. También es factible un robot sencillo con navegación básica que reciba instrucciones por voz y responda con síntesis de voz a través de un altavoz.

Si no quieres aceleradores, también es viable un enfoque híbrido como en ASRAI (procesado de voz local y LLM remoto) o un full‑local con modelos compactos de última hornada. La clave es ajustar el tamaño del modelo, la cuantización y el pipeline de audio para que la experiencia sea ágil y estable en el hardware disponible.

Software clave para voz y lenguaje en Raspberry Pi

Para el reconocimiento de voz offline, VOSK es una apuesta segura en Raspberry. Alternativas como PocketSphinx también son útiles, y si prefieres servicios cloud, hay integraciones con motores tipo Google Speech Recognition; sin embargo, muchos proyectos priorizan privacidad y baja latencia, así que la transcripción local gana enteros.

Para la síntesis de voz en local, pyttsx3 facilita un TTS básico y sin dependencias externas. En cuanto a la parte de LLM, Ollama simplifica el servir modelos con endpoint “compatible OpenAI”, lo que hace sencillo conectar scripts propios o clientes existentes. Con este enfoque, tu Pi puede orquestar el pipeline y delegar o no la generación en un equipo más potente.

Un miniagente 100% en la Pi 5: wake word, transcripción e inferencia local

Un entusiasta ha demostrado que una Raspberry Pi 5 con 16 GB es capaz de ejecutar todo el ciclo: detección de palabra de activación con VOSK, transcripción con faster‑whisper e inferencia con LLMs compactos como Qwen3:1.7b y Gemma3:1b, todo en local. Es un reto de optimización, pero se puede; el repositorio y la entrada de blog que lo documentan son una mina para aprender sobre ajustes finos y gestión de recursos.

La lección que deja este ejemplo es clara: con modelos bien elegidos, cuantización y un pipeline ajustado, la Pi 5 responde con tiempos razonables. Si el proyecto requiere más músculo, siempre cabe la opción de utilizar la Hailo‑8L para tareas de percepciones (visión, audio) y mantener un LLM ligero local o apoyarse en un servidor remoto compatible.

Cómo empezar: sistema operativo, librerías y estructura del proyecto

Para maximizar recursos, muchos creadores recomiendan Raspbian (Raspberry Pi OS) en su variante Lite, que reduce servicios y memoria de base. Desde ahí, instala las librerías de voz, TTS y orquestación que vayas a necesitar; con Python es sencillo levantar un prototipo funcional y escalable con módulos bien separados.

Una receta de arranque habitual incluye:

  1. Instalar Raspberry Pi OS Lite y aplicar actualizaciones del sistema.
  2. Configurar audio (micrófonos y altavoz), cámara si procede, y probar con arecord/aplay.
  3. Instalar paquetes como SpeechRecognition (si vas a usar servicios cloud) o VOSK/PocketSphinx para offline, y pyttsx3 para TTS local.
  4. Elegir el backend de LLM: local con Ollama y modelos pequeños, o remoto compatible.
  5. Codificar el bucle principal en Python: escucha, transcribe, interpreta (NLP) y ejecuta acciones.

En la capa de NLP, puedes comenzar con intents sencillos y reglas, e ir incorporando LLM conforme avances. Para la ejecución de comandos, define adaptadores por dispositivo o servicio (por ejemplo, luces, climatización, recordatorios), de modo que el asistente mantenga un núcleo limpio y extensible.

Conectividad y orquestación: todo encaja con buena red

La Pi cuenta con Wi‑Fi 5 y Bluetooth 5.0/BLE, así que puede hablar con bombillas, altavoces y sensores sin cables. Cuando intervienen servicios externos o varias máquinas, un tejido de red privado como Meshnet de NordVPN simplifica que la Pi “vea” un servidor de modelos fuera de casa sin exponer puertos al mundo, manteniendo control y seguridad.

Si vas a desplegar el asistente en distintos entornos, considera contenedores para los componentes de inferencia o pipelines multimedia. Una estructura con servicios separados (ASR, TTS, LLM, orquestador) te permitirá escalar piezas y mover cargas a otro nodo con impacto mínimo en el resto del sistema.

Seguridad: buenas prácticas y vulnerabilidades a vigilar

Un asistente siempre está escuchando el entorno y habla con otros dispositivos, por lo que la ciberseguridad es crítica. Empieza por mantener el sistema y librerías al día para mitigar exploits conocidos, y activa cifrado en todas las comunicaciones entre dispositivos; separar la red IoT del resto de la casa es una medida barata y efectiva.

Merece la pena revisar avisos sobre IoT y middleware, y tomar nota de vulnerabilidades públicas como CVE‑2021‑22945 o CVE‑2021‑22946 entre otras, que sirven como recordatorio de auditar dependencias y aplicar parches rápido. El objetivo es que tu asistente sea útil sin convertirse en un vector de riesgo.

Integración con cámara y visión por computador

Si tu asistente incorpora cámara, la Pi 5 se lleva bien con libcamera y rpicam‑apps; además, picamera2 facilita el acceso programático a flujos de vídeo. Con Hailo‑8L, tareas como detección de objetos o reconocimiento facial ganan velocidad y eficiencia, permitiendo escenarios de control de acceso o domótica sensible al contexto.

Un enfoque habitual es mantener la visión en la Pi y delegar al LLM la interpretación de alto nivel (“si reconoces X, pregúntame si abro la puerta”). Al compartir solo metadatos o resultados, no imágenes crudas, mejoras privacidad y reduces el ancho de banda necesario.

Ejemplos prácticos que funcionan

– ASRAI en Pi 4: microfonía de la PlayStation Eye (4 micrófonos), pantalla GPIO de 3,5 pulgadas, VOSK local, LLM remoto vía Ollama y conectividad a cualquier parte con Meshnet. Requiere impresión 3D y un poco de soldadura, pero el resultado es un asistente ágil y discreto.

– Pi 5 “todo en uno”: wake word con VOSK, transcripción con faster‑whisper e inferencia local con Qwen3:1.7b y Gemma3:1b. La clave es la optimización y capar el tamaño de los modelos para mantener latencias razonables; el repositorio asociado es una guía viva para ajustar tu proyecto.

– Pi 5 con AI Kit: reconocimiento facial para acceso, reacción contextual con modelos de visión acelerados y un LLM ligero para la conversación; drivers Hailo, HailoRT y HailoTappas instalables por apt y compatibilidad con libcamera y picamera2 integrados en el propio Raspberry Pi OS.

Buenas prácticas de desarrollo y mantenimiento

Estructura el código en módulos: captura de audio, ASR, NLP, ejecución, TTS y, si procede, visión. Añade logs útiles y un modo depuración para trazar cuellos de botella. Automatiza pruebas básicas (por ejemplo, intents predefinidos) para no romper regresiones al añadir nuevas funciones.

En la parte de hardware, cuida la alimentación y la ventilación, sobre todo si añades una NPU o trabajas con cargas intensas. Un buen disipador y un flujo de aire decente evitan thermal throttling y mantienen estable la experiencia de conversación continua.

Comunidad y normas: comparte bien tus proyectos

Si vas a publicar tu asistente en comunidades de Raspberry Pi, recuerda que se valora explicar cómo lo has hecho, no solo mostrar el resultado. Evita el spam y cualquier comportamiento abusivo, y por supuesto nada de prácticas inseguras con electricidad; además de aprender más, mantendrás un ambiente sano y útil para todos.

Cuando compartas, documenta hardware, pasos clave, dependencias, configuraciones de audio y modelos usados. Esto ayuda a otros a reproducir tu trabajo y a que te den feedback de calidad; a la larga, esa colaboración acelera tu proyecto más que cualquier truco aislado.

Qué esperar en rendimiento y cómo decidir tu arquitectura

– Si buscas privacidad y control total, apuesta por ASR y TTS locales, y un LLM compacto en la Pi 5 o servido por Ollama en tu red privada con Meshnet. Así operas “edge‑first” y mantienes los datos de voz bajo tu techo.

– Si necesitas respuestas más ricas y no te importa salir a la nube, el LLM remoto despeja el cuello de botella. La Pi queda como cerebro orquestador que controla sensores y actuadores y gestiona la sesión de voz con latencia asumible.

– Si tu asistente debe “ver”, el AI Kit con Hailo‑8L es la opción ganadora: 13 TOPS para visión ligera en el borde, drivers por apt y ecosistema soportado por Raspberry Pi OS. Si combinas esto con un LLM mediano fuera de la Pi, tendrás una experiencia redonda y equilibrada.

– Si optas por un full‑local, elige modelos ajustados (Qwen3:1.7b, Gemma3:1b u otros equivalentes) y cuida la ruta de audio; el uso de faster‑whisper para transcripción y VOSK para wake word ya ha probado ser un camino viable en Pi 5 con 16 GB.

Al final, montar un asistente de IA con Raspberry Pi combina piezas que ya están al alcance: hardware barato como la PlayStation Eye reciclada, software como VOSK o faster‑whisper, endpoints compatibles con OpenAI vía Ollama y, si lo necesitas, la ayuda extra de Hailo‑8L en la Pi 5. Con atención a la seguridad (actualizaciones, redes separadas, cifrado) y documentación clara, es sencillo pasar de la idea a un asistente funcional que responde bien en el salón o en la oficina.