Adam Chip: Edge AI Agent for Interactive Art Installations
A Jetson-Orin and ESP32-S3 system combining local AI inference, voice, vision, sensors, and motor control for exhibition agents.
1. Overview
Adam-Chip is a local edge AI agent system for interactive art installations. The project aims to create an exhibition AI agent that interacts with viewers as a character, perceives the surrounding space, speaks through voice output, and controls a motor layer. The repository describes the system as being built around an NVIDIA Jetson Orin NX Super 16 GB and an ESP32-S3 N16R8 WROOM CAM peripheral controller.
The value of the project is not just that it runs AI models. Its stronger point is that it connects local AI inference, physical device control, media input/output, memory, logging, and exhibition operation into one system flow. The Jetson side includes the FastAPI orchestrator, llama.cpp LLM, VILA VLM, WhisperX ASR, WebRTC VAD, Silero TTS, GStreamer video, ALSA audio, SQLite/JSONL episodic memory, dialogue filtering, and hot-reloadable tuning.
2. Structure and Flow
Viewer
↓
Voice / visual / sensor input
↓
ESP32-S3 peripheral node
Camera / microphones / speaker / sensors / PCA9685 PWM / W5500
↓
Jetson Orin NX inference node
ASR / VLM / LLM / TTS / Memory / FastAPI Orchestrator
↓
Voice response / motor action / event logsThe ESP32-S3 firmware, AdamsServer, exposes MJPEG video from OV5640, audio uplink from two INMP441 microphones, playback through PCM5102A, sensor telemetry, and PCA9685 16-channel PWM control. It automatically selects the network path in this order: W5500 Ethernet over SPI, Wi-Fi STA, and AP fallback.
In this structure, W5500 is not an AI accelerator or inference component. It is a wired Ethernet infrastructure component for the ESP32-S3 peripheral node. WIZnet describes W5500 as a Hardwired TCP/IP stack internet controller chip that connects an external MCU to Ethernet through SPI and integrates 10/100 Ethernet MAC and PHY.
3. Technical Assessment
Adam-Chip has a clear architectural direction: heavy AI inference is placed on Jetson, while device-facing tasks are handled by ESP32-S3. That separation is reasonable for an exhibition system because AI services and peripheral control have different failure modes and timing requirements.
However, the project should not be described as a finished, plug-and-play exhibition AI system. Its actual quality would depend heavily on audio stability, response latency, network reliability, actuator safety, and recovery through logs. The runbook also makes an important correction: for production exhibition use, the preferred video input is a CSI or USB/UVC camera connected directly to Jetson, and the preferred ASR input is a USB microphone or microphone array connected directly to Jetson. ESP32 media endpoints are classified as diagnostic or fallback only.
So Adam-Chip is best understood as a referenceable structure for combining local AI inference with physical device control in an exhibition agent. W5500 supports that structure by improving the wired network path of the ESP32-S3 peripheral node, but it is not the central innovation of the AI system.
Adam Chip: Edge AI Agent for Interactive Art Installations
전시 공간을 위한 로컬 엣지 AI 에이전트 시스템
1. 개요
Adam-Chip은 전시 공간에서 관객과 상호작용하는 로컬 엣지 AI 에이전트 시스템이다. 저장소는 이 프로젝트를 로컬 edge 환경을 위한 예술·연구용 에이전트 시스템으로 설명하며, 관객과 상호작용하고 공간을 인식하며 음성으로 말하고 모터 계층을 제어하는 전시용 AI 에이전트를 목표로 한다. 하드웨어는 NVIDIA Jetson Orin NX Super 16GB와 ESP32-S3 N16R8 WROOM CAM을 중심으로 구성된다.
핵심은 AI 모델 하나가 아니라, AI 추론과 물리 장치 제어를 하나의 전시 운영 흐름으로 묶은 구조에 있다. Jetson은 FastAPI orchestrator, LLM, VLM, ASR, TTS, 메모리, 로그 처리를 담당하고, ESP32-S3는 카메라, 마이크, 스피커, 센서, PWM 제어 같은 주변장치 계층을 담당한다.
2. 구조와 흐름
관객
↓
음성 / 시각 / 센서 입력
↓
ESP32-S3 주변장치 노드
카메라 / 마이크 / 스피커 / 센서 / PCA9685 PWM / W5500
↓
Jetson Orin NX 추론 노드
ASR / VLM / LLM / TTS / Memory / FastAPI Orchestrator
↓
음성 응답 / 모터 동작 / 이벤트 로그ESP32-S3 펌웨어인 AdamsServer는 OV5640 기반 MJPEG 비디오, INMP441 마이크 2개를 통한 오디오 업링크, PCM5102A 기반 재생, 센서 텔레메트리, PCA9685 16채널 PWM 제어를 제공한다. 네트워크는 W5500 Ethernet over SPI, Wi-Fi STA, AP fallback 순서로 자동 선택된다.
W5500은 이 구조에서 ESP32-S3 주변장치 노드를 유선 Ethernet으로 연결하는 인프라 부품이다. WIZnet 문서 기준 W5500은 SPI 인터페이스를 통해 외부 MCU에 인터넷 연결을 제공하는 Hardwired TCP/IP Ethernet controller이며, 10/100 Ethernet MAC/PHY를 내장한다.
다만 W5500은 AI 추론 성능을 높이는 부품이 아니다. Adam-Chip에서 W5500의 의미는 전시 환경에서 ESP32-S3 주변장치 노드의 네트워크 연결을 더 안정적으로 확보하는 것이다.
3. 기술 판단
Adam-Chip의 설계 방향은 타당하다. 계산량이 큰 AI 추론은 Jetson에 두고, 센서·오디오·PWM 같은 장치 제어는 ESP32-S3로 분리했다. 이 구조는 전시 환경에서 유리하다. AI 서비스가 느려지거나 재시작되더라도 주변장치 계층을 독립적으로 다룰 수 있기 때문이다.
하지만 이 프로젝트를 “완성형 전시 AI 시스템”으로 과장하면 안 된다. 실제 전시 품질은 모델 성능만으로 결정되지 않는다. 오디오 입력 안정성, 응답 지연, 네트워크 연결, 모터 fail-safe, 로그 기반 복구성이 더 직접적인 영향을 줄 수 있다.
특히 미디어 경로는 조심해서 설명해야 한다. Runbook은 전시 운영 기준에서 Jetson에 직접 연결된 CSI 또는 USB/UVC 카메라를 선호하고, ASR 입력도 Jetson에 직접 연결된 USB 마이크나 마이크 배열을 선호한다고 적고 있다. ESP32 media endpoint는 진단 또는 fallback 용도로 분류된다.
따라서 Adam-Chip은 단순한 챗봇이나 IoT 데모가 아니라, 로컬 AI 추론과 물리 장치 제어를 결합한 전시형 에이전트 구조를 참고할 수 있는 프로젝트로 보는 것이 가장 정확하다. W5500은 이 안에서 주인공이 아니라, ESP32-S3 주변장치 노드의 연결 안정성을 보조하는 현실적인 네트워크 구성 요소다.
4. 저자 / 저장소 정보
- Repository Owner: 7teenzzz
- GitHub Display Name: R XVII
- Repository: 7teenzzz/Adam-Chip
- Repository Description: AI Agent for intelectual interective art installations
- 공개 프로필 기준 확인 사항: GitHub 프로필에는
7teenzzz, 표시명R XVII, 상태 문구Working from home이 표시된다. 실명, 소속 회사, 상세 경력 정보는 공개 프로필 기준으로 확인되지 않는다.
