Repository logo
 
Loading...
Thumbnail Image
Publication

Analysis of the Capability and Training of Chat Bots in the Generation of Rules for Firewall or Intrusion Detection System

Use this identifier to reference this record.
Name:Description:Size:Format: 
10987_26729.pdf723.86 KBAdobe PDF Download

Abstract(s)

Chat bots have a lot of potential to complement human knowledge or help fill a lack of it in various technical areas, like cybersecurity, by providing a tool that could generate specialized rules for computer security systems, such as Intrusion Detection Systems (IDSs) and firewalls, from instructions in natural language. The preliminary evaluation conducted within the scope of this work proved that currently available chat bots are limited when it comes to generating correct and efficient rules and that extra attention is needed if their outputs are to be deployed in production systems, as the consequences can be severe. The chat bots evaluated were Microsoft 365 Copilot, ChatGPT 3.5, Gemini 1.5 Pro, LLaMA 2 7B, Mistral 7B, GPT4All Falcon, Nous-Hermes and Wizard. This document explores four fine-tuning approaches to address some of these limitations, with each of them achieving some degree of success on their different objectives. Approach #1 had a success rate of 89% and assessed if the knowledge obtained was still outputted when the question was arranged differently. Approach #2 had a success rate of 61% and assessed if the model could link knowledge between two different prompt-response pairs. Approach #3 had a success rate of 79% and assessed if the model could create complex rule from learning simpler and generic rules. Approach #4 assessed if the model could identify rules through a multiple choice question, in which it achieved 48% and 89% success rate depending on the order of the choices. From this work it can be concluded that fine-tuning is successful in improving the generation of firewall and IDS rules in chat bots and the results suggest that with some improvements and considerations, a specialized model can be achieved.
A recente evolução dos Grandes Modelos de Linguagem (designados em inglês por Large Language Model(LLM)) trouxe consigo um grande interesse pela Inteligência Artificial (designada em inglês por Artificial Intelligence (AI)). A capacidade dos LLM de gerarem texto encontra aplicabilidade em vários cenários, também devido à sua fácil acessibilidade, e revelam potencial para complementar o conhecimento humano ou ajudar a colmatar a sua falta em várias áreas técnicas, nomeadamente na informática, onde são muito utilizados na assistência ao desenvolvimento de código. Estes modelos, capazes de manter uma conversa com substância, são também capazes de criar informação falsa ou fictícia, cujas consequências variam consoante o cenário onde são aplicados. Os LLM foram treinados com base num conjunto muito extenso de dados, o que lhes permite compreender e responder a várias questões e tarefas. Isto inclui a capacidade de traduzir linguagem natural em linguagens de programação, scripts ou configurações para ferramentas de cibersegurança. Por exemplo, pode ser pedido a um chat bot que gere uma regra iptables para evitar um ciberataque específico, dando apenas o nome do ataque e confiando na capacidade do chat bot para extrapolar a informação necessária para produzir uma regra, uma vez que são encontrados exemplos em fóruns especializados na Internet e que, consequentemente, poderão ter sido utilizados para o treinar. A regra pode até parecer sintaticamente correta, o que torna muito mais difícil avaliar se é apropriada ou útil. No entanto, os chat bots atualmente disponíveis não foram explicitamente treinados em cibersegurança, e muito menos em algo ainda mais específico nesta área, como a geração de firewalls e Sistemas de Deteção de Intrusões (designados em inglês por Intrusion Detection Systems (IDS)), e as suas respostas podem não ser exatamente ideais para os objetivos de segurança pretendidos, uma vez que são um desafio mesmo para administradores de sistemas experientes, pois são específicas de uma área técnica que está sempre a mudar. O risco de gerar regras subóptimas ou erradas levanta preocupações sobre a fiabilidade da utilização de chat bots em contextos práticos de segurança. Inicialmente motivada por estas dúvidas, neste projeto foi realizada uma análise humana para explorar a capacidade dos chat bots atuais de escrever regras de firewall e IDS e, em seguida, contemplar a possibilidade de dar fine-tune a esses mesmos chat bots para esta tarefa específica. Os chat bots analisados neste trabalho foram o Microsoft 365 Copilot, o ChatGPT 3.5, o Gemini 1.5 Pro, o LLaMA 2 7B, o Mistral 7B, o GPT4All Falcon, o Nous-Hermes e o Wizard. O problema abordado neste trabalho é a possível falta de capacidade dos chat bots atualmente disponíveis para traduzir pedidos em linguagem natural para regras de firewall ou IDS. Na sequência das notícias contínuas sobre informações imprecisas ou inventadas, há interesse em avaliar a capacidade dos chat bots atuais para traduzir pedidos em linguagem natural para regras de firewall e de IDS e analisar a sua capacidade de resposta a pedidos que seriam possivelmente feitos por pessoas com diferentes formações e níveis de conhecimento. Em seguida, esperando que os resultados não sejam assim tão bons, tentar-se-á dar fine-tune a um chat bot para se especializar na escrita de regras de firewall e IDS e, com isso, criar uma ferramenta que possa ajudar a proteger muitas pessoas (particulares ou, e.g., administradores de sistemas) que possivelmente não teriam os conhecimentos necessários para se protegerem a si próprias e também avaliar se o fine-tuning é uma forma viável de criar um chat bot com um objetivo realmente específico. Os principais objetivos desta dissertação serão, portanto: 1. A análise da capacidade dos chat bots na geração de regras para firewall e IDS a partir de linguagem natural; 2. O fine-tuning de um chat bot; 3. A comparação da capacidade entre os chat bots antes e após fine-tuning; 4. A criação de um conjunto de dados que será utilizado para efeitos de teste e fine-tuning; 5. O fine-tuning de um chat bot com diferentes abordagens e a criação de um ou vários modelos que possam ser usados como suporte para gerar regras de firewall e IDS. A abordagem adotada para atingir os objetivos definidos anteriormente começou pela recolha de diferentes ataques que podem ser evitados por firewall ou IDS. Após esta recolha, foram preparados alguns prompts (nesta dissertação e dado o seu contexto, um prompt é uma instrução, escrita tipicamente em linguagem humana, para um chat bot com um LLM) para apresentar aos chat bots, tendo em consideração que foram feitos múltiplos prompts para o mesmo ataque, como se pessoas de diferentes níveis de conhecimento os escrevessem. Foi analisada, de seguida, a capacidade dos diferentes chat bots, não olhando apenas para a taxa de sucesso, mas também analisando mais detalhadamente os resultados dos diferentes tipos de prompts e softwares quando comparados uns com os outros. Para além disto, foram analisadas as diferentes abordagens de fine-tuning de acordo com a taxa de sucesso e foi feita uma análise mais profunda para verificar se as respostas corretas e erradas seguiam algum tipo de padrão. Por último, foram analisados e comparados os diferentes chat bots antes e após os processos de fine-tuning de acordo com a taxa de sucesso e outras métricas. As principais contribuições desta dissertação serão: • Um estudo sistemático da capacidade dos chat bots atualmente disponíveis para gerar regras de firewall e IDS; • Aumentar a sensibilização para a utilização de chat bots para a geração automática de definições de segurança e para o facto de estes poderem fornecer informações erradas, devendo ser utilizados com o máximo cuidado e sempre sob supervisão; • Um dataset de um conjunto de prompts que descrevem ataques e as regras correspondentes para iptables e Snort; • Uma análise de diferentes abordagens ao fine-tuning com comparações e conclusões; • Uma análise da diferença entre modelos antes e após fine-tuning com comparações e conclusões; • Conclusão sobre se os modelos podem ser fine-tuned e obter resultados agradáveis; • Um ou vários modelos que possam ser utilizados para ajudar os profissionais e os utilizadores de sistemas informáticos com diferentes formações e conhecimentos técnicos; • A maioria das contribuições anteriores foi publicada num artigo científico com o objetivo de partilhar esses resultados com a comunidade. O capítulo do estado da arte divide-se em conceitos e terminologias preliminares e em trabalhos relacionados. O capítulo do estado da arte começa com a introdução de conceitos com os quais é pertinente estar familiarizado e todas as tecnologias importantes que foram usadas ao longo da dissertação. Esta secção ajuda a dar uma compreensão preliminar a tudo o que será discutido nos capítulos que o seguem. No que diz respeito aos trabalhos relacionados, é mencionado que embora não tenham sido encontradas abordagens equivalentes específicas na literatura, o SecBot mostra uma inspiração relacionável, embora seguindo uma abordagem diferente e com objectivos finais diferentes (mas relacionáveis). O CyberBench e o CyberIntruct são duas ferramentas inovadoras, e que foram concebidas para melhorar a utilização de LLM no domínio da cibersegurança, embora não abordem as regras de firewall e de IDS como este trabalho o faz. Também foram analisadas técnicas de fine-tuning utilizadas para personalizar chat bots em diferentes domínios, mostrando a validade desta abordagem para melhorar a sua aplicabilidade em áreas específicas. Por último, foi feita uma pesquisa mais alargada para compreender como os chat bots estão a ser utilizados em diferentes contextos de segurança. Esse capítulo identifica e explora vários trabalhos que reflectem a investigação nesta área, destacando as oportunidades que estas novas abordagens trazem e mencionam que chat bots e LLM podem ser ferramentas úteis para a cibersegurança, mas que a utilidade dos mesmos tem de ser cuidadosamente ponderada à luz dos potenciais problemas que podem surgir de uma utilização indevida ou de resultados incorretos. O capítulo do método introduz o método utilizado durante a dissertação, dando uma melhor ideia do que teve de ser feito para a completar, uma melhor compreensão do que cada decisão tomada ao longo do estudo estava a tentar alcançar e uma melhor ideia do que fazer se alguém quiser replicar este método. O capítulo dos resultados apresenta os resultados obtidos durante a dissertação. Este trabalho explorou quatro abordagens de fine-tuning, tendo cada uma delas alcançado algum grau de sucesso nos seus diferentes objectivos. A abordagem #1 teve uma taxa de sucesso de 89% e avaliou se o conhecimento obtido continuava a ser emitido quando a pergunta era organizada de forma diferente. A abordagem #2 teve uma taxa de sucesso de 61% e avaliou se o modelo conseguia ligar os conhecimentos entre dois pares diferentes de perguntas-respostas. A abordagem #3 teve uma taxa de sucesso de 79% e avaliou se o modelo conseguia gerar regras complexas a partir da aprendizagem de regras mais simples e genéricas. A abordagem #4 avaliou se o modelo conseguia identificar regras através de uma pergunta de escolha múltipla e obteve uma taxa de sucesso de 48% e 89%, consoante a ordem das escolhas. Estes resultados evidenciam o potencial de dar fine-tune a um modelo e o mesmo é apoiado pela métrica ROUGE, que também é provado neste capítulo. O capítulo da conclusão e trabalho futuro enfatiza a incapacidade dos chat bots atuais de gerar regras e a melhora conseguida pelos modelos que foram fine-tuned. Para trabalho futuro é mencionado que mais testes têm de ser feitos, o número de ataques e sistemas tem de ser aumentado, terá de haver uma exploração maior de diferentes parâmetros de fine-tuning, poderão ser criados mais datasets para colmatar as regras que mais falham e expandir esta metodologia para outras áreas da cibersegurança.

Description

Keywords

Chat Bots Chatgpt 3.5 Cibersecurity Firewall Gemini 1.5 Pro Gpt4all Falcon Intrusion Detection System (Ids) Large Language Models (Llms) Llama 2 7b Microsoft 365 Copilot Mistral 7b Nous-Hermes Wizard

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue