Jeder Skill durchläuft automatisch einen 3-stufigen Prüfprozess: Inhaltsabruf, heuristische Musteranalyse und optionale KI-Tiefenanalyse. Alle 11 Prüfmuster und 7 Berechtigungskategorien sind hier vollständig dokumentiert.
Die SKILL.md-Datei wird direkt von GitHub abgerufen. Dabei werden 5 mögliche Pfade geprüft (main/master, skills/-Unterverzeichnis, Root). Timeout: 8 Sekunden. Mindestlänge: 50 Zeichen.
11 Angriffsmuster in 6 Kategorien werden per Regex zeilenweise geprüft. Jeder Treffer erhöht den Risiko-Score. Kritische Befunde setzen das Level sofort auf GEFAHR.
Ein LLM analysiert den Skill-Inhalt auf semantische Risiken, die Regex nicht erkennt: verschleierte Absichten, soziale Manipulation, ungewöhnliche Berechtigungskombinationen.
Keine verdächtigen Muster gefunden. Kein kritischer oder hoher Befund.
Einzelne mittlere oder niedrige Befunde. Manuelle Prüfung empfohlen.
Kritische oder mehrere hohe Befunde. Installation nicht empfohlen.
env:read+network:writeDie Kombination aus Umgebungsvariablen-Zugriff und Netzwerk-Schreibzugriff ist das häufigste Muster bei Credential-Diebstahl-Angriffen.
credentials:access+network:writeZugriff auf Credentials kombiniert mit der Fähigkeit, Daten zu senden, deutet stark auf einen Exfiltrationsversuch hin.
Erkennt Anweisungen, die den Agenten dazu bringen, .env-Dateien, API-Keys oder Tokens aus Umgebungsvariablen zu lesen.
.env-Datei lesenprocess.env$API_KEYcredentials.jsonsecrets.jsonErkennt Zugriffe auf ~/.aws/credentials, ~/.ssh/id_*, ~/.config/ und andere versteckte Konfigurationsdateien im Home-Verzeichnis.
~/.aws/credentials~/.ssh/id_rsa$HOME/.*~/.clawdbotErkennt bekannte Exfiltrations-Dienste wie webhook.site, requestbin, pipedream.net oder ngrok sowie unbekannte POST-Ziele.
webhook.siterequestbinpipedream.netngrok.iocurl -d <URL>Erkennt Netzwerkanfragen, bei denen Passwörter, API-Keys oder Credentials als Parameter übergeben werden.
curl $API_KEYfetch Authorization BearerPOST passwordupload privateErkennt klassische Prompt-Injection-Muster, die versuchen, frühere Anweisungen zu überschreiben oder den Agenten umzuprogrammieren.
ignore previous instructionsdisregard aboveforget your rolenew system prompt[INST]###overrideErkennt Versuche, den Agenten in eine andere Rolle zu zwingen oder Sicherheitsbeschränkungen zu umgehen.
act as hackerpretend no restrictionsbypass safetyDAN modeErkennt Anweisungen zur Ausführung von eval(), exec(), subprocess oder Shell-Befehlen via Backtick- oder $()-Substitution.
eval()exec()subprocess.os.systemshell=True`cmd`$(cmd)Erkennt Schreiboperationen auf /etc/, chmod 777, chown root oder destruktive rm -rf-Befehle.
write /etc/chmod 777chown rootrm -rfErkennt Lesezugriffe auf /etc/passwd, /etc/shadow, /var/log oder private Schlüsseldateien.
/etc/passwd/etc/shadow/var/logread private keyErkennt base64-Dekodierung, atob(), Hex-Escape-Sequenzen und String.fromCharCode als mögliche Verschleierungsversuche.
base64 decodeatob()\x41\x42\u0041String.fromCharCodeErkennt direkte IP-Adressen, .onion-Adressen sowie bekannte Paste-Dienste wie pastebin.com.
http://192.168.x.x*.onion/pastebin.comhastebin.comNeben den Angriffsmustern extrahiert die Engine automatisch alle Berechtigungen, die ein Skill beansprucht. Diese werden im Sicherheits-Tab jedes Skills angezeigt und helfen, den tatsächlichen Zugriffsumfang zu verstehen.
Die KI-Analyse ergänzt die heuristische Prüfung um semantisches Verständnis. Das LLM bewertet den Skill-Inhalt auf 6 Risikoklassen und gibt eine strukturierte JSON-Antwort zurück, die mit den heuristischen Befunden zusammengeführt wird. Der finale Risiko-Score ist das Maximum beider Methoden.