llvm pass 初探
kw17 发表于 北京 二进制安全 167浏览 · 2024-12-05 04:04

一.基础概念

LLVM最初是Low Level Virtual Machine的缩写,定位是一个比较底层的虚拟机。但是LLVM本身并不是一个完整的编译器,LLVM是一个编译器基础架构(infrastructure,把很多编译器需要的功能以可调用的模块形式实现出来并包装成库,供其他编译器实现者可以根据自己的需要选择使用或者扩展。主要聚焦于编译器后端功能,如代码生成、代码优化、JIT等。

目前常见的编译器都分为了三个部分,前端(Frontend),优化层(Optimizeation)以及后端(Backend),每一部分都承担了不同的功能:

  • 前端:负责将高级源语言代码转换为 LLVM 的中间表示(IR),为后续的编译阶段打下基础。
  • 优化层:对生成的中间表示 IR 进行深入分析和优化,提升代码的性能和效率。
  • 后端:将优化后的中间表示 IR 转换成目标机器的特定语言,确保代码能够在特定硬件上高效运行。

这种分层的方法不仅提高了编译过程的模块化,还使得编译器能够更灵活地适应不同的编程语言和目标平台。同理,LLVM 也是按照这一结构设计进行架构设计:

二.环境配置

可以参考llvm官方文档https://llvm.gnu.ac.cn/docs/

首先先下载llvm的源码,这里用的是llvm 18.1.8 (使用新版pass manager,与旧版差别比较大,可以参考官方文档说的,:与旧版 Pass 管理器下的 Pass 不同,旧版 Pass 管理器通过继承定义 Pass 接口,新 Pass 管理器下的 Pass 依赖于基于概念的多态性,这意味着没有显式接口(有关更多详细信息,请参阅 PassManager.h 中的注释)。所有 LLVM Pass 都继承自 CRTP 混合类 PassInfoMixin<PassT>。Pass 应该有一个 run() 方法,该方法返回一个 PreservedAnalyses 并接收一些 IR 单元以及一个分析管理器。例如,函数 Pass 将具有 PreservedAnalyses run(Function &F, FunctionAnalysisManager &AM); 方法),在github上下载源码,解压到虚拟机上

即source code

然后根据文档要求下载对应环境并进行编译

sudo apt-get install g++
sudo apt-get install make
sudo apt-get install cmake
sudo apt install ninja-build



cd llvm-project
sudo cmake -S llvm -B build -G Ninja -DCMAKE_BUILD_TYPE=Release -DLLVM_ENABLE_PROJECTS="clang"
cd build
ninja -j8

然后把源码导入clion并进行编译

找到llvm目录下的CMakeLists.txt打开

然后设置编译参数

进入settings,然后CMake里点击+会添加Release版本,我们需要在CMake options里填上我们之前编译时用的命令

-G Ninja -DCMAKE_BUILD_TYPE=Release -DLLVM_ENABLE_PROJECTS="clang" -DBUILD_SHARED_LIBS=ON

发现会多出cmake -build-release和cmake-build-debug两个目录

然后直接进入release目录ninja -6,因为clion自己编译很慢

三.正式开始

首先入门可以查看官方文档,根据官方文档进行llvm pass的编写(因为现存的关于新版管理器的资料比较少,并没有旧版那么多且新版对管道进行了优化,在此我们参考官方文档)

可以发现其实官方文档所写的helloworld.h已经被创建了,那么我们根据他再在该文件夹中创建一个encode.h

写出如下代码:

#ifndef LLVM_TRANSFORMS_UTILS_ENCODE_H
#define LLVM_TRANSFORMS_UTILS_ENCODE_H

#include "llvm/IR/PassManager.h"

namespace llvm {

class EncodePass : public PassInfoMixin<EncodePass> {
public:
  PreservedAnalyses run(Function &F, FunctionAnalysisManager &AM);
};

} // namespace llvm

#endif // LLVM_TRANSFORMS_UTILS_ENCODE_H

这段代码写完可能会有run标红,不用管,否则编译opt的时候会报错

然后再在llvm/lib/Transforms/Utils中创建Encode.cpp,代码如下

#include "llvm/Transforms/Utils/Encode.h"
using namespace llvm;
PreservedAnalyses EncodePass::run(Function &F,
                                      FunctionAnalysisManager &AM) {
  errs() << F.getName() << "\n";
  return PreservedAnalyses::all();
}

然后在llvm/lib/Transforms/Utils的Cmakelists.txt中添加一个Encode.cpp

写完后在llvm/lib/Passes/PassRegistry.def中添加如下

FUNCTION_PASS("encode",EncodePass())

在llvm/lib/Passes/PassBuilder.cpp添加

#include "llvm/Transforms/Utils/Encode.h"

然后在clion中重新编译

选择重新加载cmake项目

然后进入cmake-build-release文件夹重新编译

ninja -j2 opt

不过编译过程中我莫名其妙跳出来一个循环依赖问题

不过解决也很容易,只要在clion中进入lib/support/BLAKE3/里面的cmakelists.txt,把最后一行和Encode.cpp有关的内容删除即可(虽然我还不知道有什么影响,不过好像没什么影响)

后来发现出现循环的原因是clion中新建.cpp文件的时候会有一个添加到目标,默认值就是lib/support/BLAKE3/

正好是出现循环依赖中的一环(只探究到这里了,再深还没有什么发现)

然后编译完成就可以使用opt将pass用于我们的IR代码上啦

四.使用pass

先浅浅的写一个c语言的代码,创建成hello_clang.c

#include<stdio.h>

void test_hello1(){

  printf("test_hello1\n");
  return ;
}
void test_hello2(){

  printf("test_hello2\n");

  return ;
}
int main(int argc ,char const *argv[]){

  printf("hello clang\n");

  return 0;
}

比如这样子,然后用clang进行编译,命令如下

clang -O3 -emit-llvm hello_clang.c -S -o hello_clang.ll

注意这个-O3一定要加上,它对.ll文件进行了优化,如果不加上,面临的就是

就是不管怎么样你编译出来的东西都没有办法被可爱的F.getname()识别,不管怎么样都抓耳挠腮但是官方给的.ll却可以正常运行让你怀疑你是不是有问题

总之当时被困了蛮久的,后来是在知乎上的某篇文章启发了我

然后后面就是正常的啦

用了两种方式去运行了pass,一种是官方文档描述的

还有一种是老版的就是搞个.so文件(不过说实话感觉有点没有必要)

总结

llvm pass是很好用的作用于中间层IR的一种工具,ollvm也正是应用了这种性质实现各种操作,比如使用分发器实现控制流平坦化以及虚假控制流,对程序实现混淆或者提取IR中的信息,比起自己写一个脚本或者插件,基于llvm框架的项目显然更容易实现,因为它本身也规定了程序调用的某些api。

0 条评论
某人
表情
可输入 255