Transparente Sicherheitsprüfung

Wie wir Skills prüfen

Jeder Skill durchläuft automatisch einen 3-stufigen Prüfprozess: Inhaltsabruf, heuristische Musteranalyse und optionale KI-Tiefenanalyse. Alle 11 Prüfmuster und 7 Berechtigungskategorien sind hier vollständig dokumentiert.

3-stufiger Prüfprozess

Stufe 01

Inhaltsabruf

Die SKILL.md-Datei wird direkt von GitHub abgerufen. Dabei werden 5 mögliche Pfade geprüft (main/master, skills/-Unterverzeichnis, Root). Timeout: 8 Sekunden. Mindestlänge: 50 Zeichen.

5 GitHub-Pfade · 8s Timeout · raw.githubusercontent.com

Stufe 02

Heuristische Analyse

11 Angriffsmuster in 6 Kategorien werden per Regex zeilenweise geprüft. Jeder Treffer erhöht den Risiko-Score. Kritische Befunde setzen das Level sofort auf GEFAHR.

11 Muster · 6 Kategorien · Zeilen-genaue Fundstellen

Stufe 03

KI-Tiefenanalyse

Ein LLM analysiert den Skill-Inhalt auf semantische Risiken, die Regex nicht erkennt: verschleierte Absichten, soziale Manipulation, ungewöhnliche Berechtigungskombinationen.

Manuell auslösbar · JSON Schema · Heuristik als Fallback

Risiko-Scoring

SICHER

0–19 Punkte

Keine verdächtigen Muster gefunden. Kein kritischer oder hoher Befund.

WARNUNG

20–49 Punkte

Einzelne mittlere oder niedrige Befunde. Manuelle Prüfung empfohlen.

GEFAHR

≥50 Punkte oder kritischer Befund

Kritische oder mehrere hohe Befunde. Installation nicht empfohlen.

Risikokombinationen (automatisch erkannt)

Klassisches Exfiltrationsmuster+20 Punkte

env:read+network:write

Die Kombination aus Umgebungsvariablen-Zugriff und Netzwerk-Schreibzugriff ist das häufigste Muster bei Credential-Diebstahl-Angriffen.

Credential-Exfiltration+20 Punkte

credentials:access+network:write

Zugriff auf Credentials kombiniert mit der Fähigkeit, Daten zu senden, deutet stark auf einen Exfiltrationsversuch hin.

11 Heuristische Prüfmuster

Kritisch (3)

Umgebungsvariablen & .env-DateienKritisch

Credential Exfiltration · +40 Risikopunkte

Erkennt Anweisungen, die den Agenten dazu bringen, .env-Dateien, API-Keys oder Tokens aus Umgebungsvariablen zu lesen.

.env-Datei lesenprocess.env$API_KEYcredentials.jsonsecrets.json

Home-Verzeichnis & versteckte KonfigurationenKritisch

Credential Exfiltration · +45 Risikopunkte

Erkennt Zugriffe auf ~/.aws/credentials, ~/.ssh/id_*, ~/.config/ und andere versteckte Konfigurationsdateien im Home-Verzeichnis.

~/.aws/credentials~/.ssh/id_rsa$HOME/.*~/.clawdbot

Webhook & externe DatenübertragungKritisch

Datenexfiltration · +50 Risikopunkte

Erkennt bekannte Exfiltrations-Dienste wie webhook.site, requestbin, pipedream.net oder ngrok sowie unbekannte POST-Ziele.

webhook.siterequestbinpipedream.netngrok.iocurl -d <URL>

Hoch (4)

Netzwerkanfragen mit sensiblen DatenHoch

Datenexfiltration · +35 Risikopunkte

Erkennt Netzwerkanfragen, bei denen Passwörter, API-Keys oder Credentials als Parameter übergeben werden.

curl $API_KEYfetch Authorization BearerPOST passwordupload private

Prompt-Injection-AnweisungenHoch

Prompt Injection · +30 Risikopunkte

Erkennt klassische Prompt-Injection-Muster, die versuchen, frühere Anweisungen zu überschreiben oder den Agenten umzuprogrammieren.

ignore previous instructionsdisregard aboveforget your rolenew system prompt[INST]###override

Rollen- & IdentitätsübernahmeHoch

Prompt Injection · +25 Risikopunkte

Erkennt Versuche, den Agenten in eine andere Rolle zu zwingen oder Sicherheitsbeschränkungen zu umgehen.

act as hackerpretend no restrictionsbypass safetyDAN mode

Beliebige Code- und Shell-AusführungHoch

Code-Ausführung · +30 Risikopunkte

Erkennt Anweisungen zur Ausführung von eval(), exec(), subprocess oder Shell-Befehlen via Backtick- oder $()-Substitution.

eval()exec()subprocess.os.systemshell=True`cmd`$(cmd)

Mittel (3)

Schreibzugriff auf SystemdateienMittel

Dateisystem · +20 Risikopunkte

Erkennt Schreiboperationen auf /etc/, chmod 777, chown root oder destruktive rm -rf-Befehle.

write /etc/chmod 777chown rootrm -rf

Lesen sensibler SystemdateienMittel

Dateisystem · +20 Risikopunkte

Erkennt Lesezugriffe auf /etc/passwd, /etc/shadow, /var/log oder private Schlüsseldateien.

/etc/passwd/etc/shadow/var/logread private key

VerschleierungstechnikenMittel

Verschleierung · +15 Risikopunkte

Erkennt base64-Dekodierung, atob(), Hex-Escape-Sequenzen und String.fromCharCode als mögliche Verschleierungsversuche.

base64 decodeatob()\x41\x42\u0041String.fromCharCode

Niedrig (1)

Verdächtige NetzwerkadressenNiedrig

Netzwerk · +10 Risikopunkte

Erkennt direkte IP-Adressen, .onion-Adressen sowie bekannte Paste-Dienste wie pastebin.com.

http://192.168.x.x*.onion/pastebin.comhastebin.com

7 Berechtigungskategorien

Neben den Angriffsmustern extrahiert die Engine automatisch alle Berechtigungen, die ein Skill beansprucht. Diese werden im Sicherheits-Tab jedes Skills angezeigt und helfen, den tatsächlichen Zugriffsumfang zu verstehen.

filesystem:read

Dateisystem lesen

Liest Dateien vom lokalen System

filesystem:write

Dateisystem schreiben

Schreibt oder erstellt Dateien

network:read

Netzwerk lesen

Führt HTTP-GET-Anfragen durch

network:write

Netzwerk schreiben

Sendet Daten an externe Server

env:read

Umgebungsvariablen

Liest process.env oder .env-Dateien

shell:exec

Shell-Ausführung

Führt Bash- oder Shell-Befehle aus

credentials:access

Credential-Zugriff

Greift auf API-Keys, Passwörter oder Tokens zu

KI-Tiefenanalyse

Die KI-Analyse ergänzt die heuristische Prüfung um semantisches Verständnis. Das LLM bewertet den Skill-Inhalt auf 6 Risikoklassen und gibt eine strukturierte JSON-Antwort zurück, die mit den heuristischen Befunden zusammengeführt wird. Der finale Risiko-Score ist das Maximum beider Methoden.

Prompt-Injection-Angriffe (semantisch)

Credential-Exfiltration (verschleiert)

Supply-Chain-Missbrauch

Übermäßige Berechtigungen

Verschleierte Anweisungen

Legitime, aber riskante Operationen

Heuristik als Fallback bei KI-Fehler

Streng typisiertes JSON Schema

Max. 4000 Zeichen Skill-Inhalt

Grenzen der Analyse

Skills aus privaten Repositories können nicht abgerufen und analysiert werden.

Hochgradig verschleierter Code kann die heuristische Analyse umgehen — der KI-Scan ist hier robuster.

Die Analyse prüft nur den SKILL.md-Inhalt, nicht den ausführbaren Code im Repository.

Ein 'Sicher'-Ergebnis ist keine Garantie — es bedeutet, dass keine bekannten Angriffsmuster gefunden wurden.

Skills können nach dem Scan aktualisiert werden. Ergebnisse werden 24 Stunden gecacht.

← Zurück zu SafeSkills