S.H.I.F.T. — MKI

Première version expérimentale

← Retour au projet global

Historique des versions

Logo

Version Finale

Changements :
Détection renforcée du mot-clé : Implémente un système anti-faux positifs strict qui exige l'accumulation de 3 frames positives consécutives avant de s'activer, couplé à un délai d'ignorance (cooldown) juste après une prise de parole.

VAD de niveau Deep Learning : Utilise Silero VAD pour découper l'audio en sous-blocs de 512 échantillons afin de détecter précisément le début et la fin de la parole, limitant les déclenchements dus aux bruits ambiants.

Conversation continue (Multi-turn) : Après avoir répondu, SHIFT maintient la session active pendant 2 secondes. Si tu reprends la parole durant ce laps de temps, il t'écoute à nouveau sans que tu aies besoin de répéter le mot-clé.

Streaming LLM-to-TTS par Thread : La génération du texte tourne dans un thread séparé et remplit une file d'attente (queue). Le script découpe le texte dès qu'il croise une ponctuation (., ?, !) pour envoyer la phrase à Piper sans attendre la fin complète de la génération.

Signaux audio systèmes : Joue des fichiers audio locaux (start.wav, ready.wav) pour t'indiquer visuellement et auditivement que l'assistant est prêt.