Transparente Sicherheitsprüfung

Wie wir Skills prüfen

Jeder Skill durchläuft automatisch einen 3-stufigen Prüfprozess: Inhaltsabruf, heuristische Musteranalyse und optionale KI-Tiefenanalyse. Alle 11 Prüfmuster und 7 Berechtigungskategorien sind hier vollständig dokumentiert.

3-stufiger Prüfprozess

Stufe 01
Inhaltsabruf

Die SKILL.md-Datei wird direkt von GitHub abgerufen. Dabei werden 5 mögliche Pfade geprüft (main/master, skills/-Unterverzeichnis, Root). Timeout: 8 Sekunden. Mindestlänge: 50 Zeichen.

5 GitHub-Pfade · 8s Timeout · raw.githubusercontent.com
Stufe 02
Heuristische Analyse

11 Angriffsmuster in 6 Kategorien werden per Regex zeilenweise geprüft. Jeder Treffer erhöht den Risiko-Score. Kritische Befunde setzen das Level sofort auf GEFAHR.

11 Muster · 6 Kategorien · Zeilen-genaue Fundstellen
Stufe 03
KI-Tiefenanalyse

Ein LLM analysiert den Skill-Inhalt auf semantische Risiken, die Regex nicht erkennt: verschleierte Absichten, soziale Manipulation, ungewöhnliche Berechtigungskombinationen.

Manuell auslösbar · JSON Schema · Heuristik als Fallback

Risiko-Scoring

SICHER
0–19 Punkte

Keine verdächtigen Muster gefunden. Kein kritischer oder hoher Befund.

WARNUNG
20–49 Punkte

Einzelne mittlere oder niedrige Befunde. Manuelle Prüfung empfohlen.

GEFAHR
≥50 Punkte oder kritischer Befund

Kritische oder mehrere hohe Befunde. Installation nicht empfohlen.

Risikokombinationen (automatisch erkannt)
Klassisches Exfiltrationsmuster+20 Punkte
env:read+network:write

Die Kombination aus Umgebungsvariablen-Zugriff und Netzwerk-Schreibzugriff ist das häufigste Muster bei Credential-Diebstahl-Angriffen.

Credential-Exfiltration+20 Punkte
credentials:access+network:write

Zugriff auf Credentials kombiniert mit der Fähigkeit, Daten zu senden, deutet stark auf einen Exfiltrationsversuch hin.

11 Heuristische Prüfmuster

Kritisch (3)
Umgebungsvariablen & .env-DateienKritisch
Credential Exfiltration · +40 Risikopunkte

Erkennt Anweisungen, die den Agenten dazu bringen, .env-Dateien, API-Keys oder Tokens aus Umgebungsvariablen zu lesen.

.env-Datei lesenprocess.env$API_KEYcredentials.jsonsecrets.json
Home-Verzeichnis & versteckte KonfigurationenKritisch
Credential Exfiltration · +45 Risikopunkte

Erkennt Zugriffe auf ~/.aws/credentials, ~/.ssh/id_*, ~/.config/ und andere versteckte Konfigurationsdateien im Home-Verzeichnis.

~/.aws/credentials~/.ssh/id_rsa$HOME/.*~/.clawdbot
Webhook & externe DatenübertragungKritisch
Datenexfiltration · +50 Risikopunkte

Erkennt bekannte Exfiltrations-Dienste wie webhook.site, requestbin, pipedream.net oder ngrok sowie unbekannte POST-Ziele.

webhook.siterequestbinpipedream.netngrok.iocurl -d <URL>
Hoch (4)
Netzwerkanfragen mit sensiblen DatenHoch
Datenexfiltration · +35 Risikopunkte

Erkennt Netzwerkanfragen, bei denen Passwörter, API-Keys oder Credentials als Parameter übergeben werden.

curl $API_KEYfetch Authorization BearerPOST passwordupload private
Prompt-Injection-AnweisungenHoch
Prompt Injection · +30 Risikopunkte

Erkennt klassische Prompt-Injection-Muster, die versuchen, frühere Anweisungen zu überschreiben oder den Agenten umzuprogrammieren.

ignore previous instructionsdisregard aboveforget your rolenew system prompt[INST]###override
Rollen- & IdentitätsübernahmeHoch
Prompt Injection · +25 Risikopunkte

Erkennt Versuche, den Agenten in eine andere Rolle zu zwingen oder Sicherheitsbeschränkungen zu umgehen.

act as hackerpretend no restrictionsbypass safetyDAN mode
Beliebige Code- und Shell-AusführungHoch
Code-Ausführung · +30 Risikopunkte

Erkennt Anweisungen zur Ausführung von eval(), exec(), subprocess oder Shell-Befehlen via Backtick- oder $()-Substitution.

eval()exec()subprocess.os.systemshell=True`cmd`$(cmd)
Mittel (3)
Schreibzugriff auf SystemdateienMittel
Dateisystem · +20 Risikopunkte

Erkennt Schreiboperationen auf /etc/, chmod 777, chown root oder destruktive rm -rf-Befehle.

write /etc/chmod 777chown rootrm -rf
Lesen sensibler SystemdateienMittel
Dateisystem · +20 Risikopunkte

Erkennt Lesezugriffe auf /etc/passwd, /etc/shadow, /var/log oder private Schlüsseldateien.

/etc/passwd/etc/shadow/var/logread private key
VerschleierungstechnikenMittel
Verschleierung · +15 Risikopunkte

Erkennt base64-Dekodierung, atob(), Hex-Escape-Sequenzen und String.fromCharCode als mögliche Verschleierungsversuche.

base64 decodeatob()\x41\x42\u0041String.fromCharCode
Niedrig (1)
Verdächtige NetzwerkadressenNiedrig
Netzwerk · +10 Risikopunkte

Erkennt direkte IP-Adressen, .onion-Adressen sowie bekannte Paste-Dienste wie pastebin.com.

http://192.168.x.x*.onion/pastebin.comhastebin.com

7 Berechtigungskategorien

Neben den Angriffsmustern extrahiert die Engine automatisch alle Berechtigungen, die ein Skill beansprucht. Diese werden im Sicherheits-Tab jedes Skills angezeigt und helfen, den tatsächlichen Zugriffsumfang zu verstehen.

filesystem:read
Dateisystem lesen
Liest Dateien vom lokalen System
filesystem:write
Dateisystem schreiben
Schreibt oder erstellt Dateien
network:read
Netzwerk lesen
Führt HTTP-GET-Anfragen durch
network:write
Netzwerk schreiben
Sendet Daten an externe Server
env:read
Umgebungsvariablen
Liest process.env oder .env-Dateien
shell:exec
Shell-Ausführung
Führt Bash- oder Shell-Befehle aus
credentials:access
Credential-Zugriff
Greift auf API-Keys, Passwörter oder Tokens zu

KI-Tiefenanalyse

Die KI-Analyse ergänzt die heuristische Prüfung um semantisches Verständnis. Das LLM bewertet den Skill-Inhalt auf 6 Risikoklassen und gibt eine strukturierte JSON-Antwort zurück, die mit den heuristischen Befunden zusammengeführt wird. Der finale Risiko-Score ist das Maximum beider Methoden.

Prompt-Injection-Angriffe (semantisch)
Credential-Exfiltration (verschleiert)
Supply-Chain-Missbrauch
Übermäßige Berechtigungen
Verschleierte Anweisungen
Legitime, aber riskante Operationen
Heuristik als Fallback bei KI-Fehler
Streng typisiertes JSON Schema
Max. 4000 Zeichen Skill-Inhalt

Grenzen der Analyse

Skills aus privaten Repositories können nicht abgerufen und analysiert werden.
Hochgradig verschleierter Code kann die heuristische Analyse umgehen — der KI-Scan ist hier robuster.
Die Analyse prüft nur den SKILL.md-Inhalt, nicht den ausführbaren Code im Repository.
Ein 'Sicher'-Ergebnis ist keine Garantie — es bedeutet, dass keine bekannten Angriffsmuster gefunden wurden.
Skills können nach dem Scan aktualisiert werden. Ergebnisse werden 24 Stunden gecacht.