[2022.11.18] [CCS 2022] SymLM: Predicting Function Names in Stripped Binaries via Context-Sensitive Execution-Aware Code Embeddings – GoSec@CS.SJTU – Department of Computer Science & Engineering, Shanghai Jiao Tong University

作者：Xin Jin, Kexin Pei, Jun Yeon Won, Zhiqiang Lin
单位：The Ohio State University, Columbia University
出处：CCS 2022
原文：https://dl.acm.org/doi/pdf/10.1145/3548606.3560612
Contributor: FRH
笔记：https://jbox.sjtu.edu.cn/l/h14FR3

预测被去除符号信息的二进制文件(stripped binary)中的函数名对许多具体的安全应用都有帮助，包括恶意软件分析、漏洞识别、二进制代码加固等。作为具体的例子，Mandiant等安全公司投入大量资源开发各种逆向工具用于符号恢复、函数标注、二进制代码匹配等，从而帮助开发人员更高效地分析恶意软件的功能，并进一步追溯其来源。然而，构建有意义的函数名是非常有挑战的任务。函数名提供了函数行为的高层次总结，预测函数名需要理解函数的具体操作，并将其组合、映射到自然语言中。然而，不同的编译器方言(idioms)、优化、混淆以及不同操作系统的ABIs、不同架构的硬件规格导致相同语义的代码存在多样的二进制表示，为预测带来困难。这篇文章中，作者提出SYMLM(Symbol name prediction and binary Language Modeling)这一框架，利用神经网络技术，通过对调用上下文和指令的联合建模来理解函数语义，最终实现预测。作者在27个流行开源项目(1,431,169个函数)上针对4种不同的架构(x64、x86、ARM和MIPS)、4种优化(O0-O3)、4种混淆进行实验。SYMLM相较于SOTA工具在精度、召回率和F1-score上分别有15.4%、59.6%和35.0%的提升。同时，作者的消融实验证明其框架各个组件的必要性。最后，作者进行案例分析，进一步证明了SYMLM可以用于分析实际的固件。