avx黑科技

avx 是一组并行计算的指令

最多可支持 8 个 long long 同时计算，并且洛谷支持使用，~~可以用来抢最优解或者卡常~~。

需要比较新的 CPU，CCF 估计不支持。

1. 头文件

#include <immintrin.h>

2. 基本类型

__m256i 是 256 位容器，__m512i 是 512 位容器。

可以使用 loadu 或者 set 这个加载到容器，storeu 存回内存中（见下文）。

3. 计算

除了除法、取模以外，大部分运算都可以加速。（浮点运算似乎支持除法，但是也不推荐使用，速度很慢）

部分函数名格式：_mm + 位数(256/512) + _ + ((可选)mask_/maskz_/空)+ 运算类型(add/sub/mul/div/cmp/min/max 等) + _ + 数字类型(epi8/epi16/epi32/epi64/epu8/epu16/epu32/epu64/pd/ps/ph)

mask 表示掩码，详见文档。pd=double，ps=float，ph=16位浮点数

比如 _mm512_add_epi64，_mm512_sub_epi32，_mm256_mask_add_epi32。可以将速度提高好几倍。不一定所有组合都有，请以官方文档为准。

4. 例题

~~这种东西竟然还有例题~~

[WC2017] 挑战

任务一：基数排序，不细说

我个人认为基数排序用 avx 没有太大的提升空间

（我似乎找到了关于寻址的函数 _mm512_i32gather_epi32 _mm512_i32scatter_epi32，但是没有实际测试过）

任务二：

对于字符串处理，avx 基本无敌，因为可以将速度提高 64 倍，从而碾压标程。

这里列出了一些需要用到的函数：

_mm512_loadu_si512 加载 512 位数据

_mm512_set1_epi8 用一个 8 位数据填充整个 512 位寄存器，相当于 memset

_mm512_cmpeq_epu8_mask 比较 512 位数据，返回 64 位掩码

_mm_popcnt_u64 或 __builtin_popcountll 统计 64 位整数内 1 的个数

任务三：

用 _mm512_add_epi32 优化 dp 转移，速度 * 16，应该能过。

跑得飞快的代码：

不使用 AVX：TLE

使用 AVX 256：总时长 8.67s

使用 AVX 512：总时长 8.35s

#include<bits/stdc++.h>
#include<immintrin.h>
#define AVX 512

typedef unsigned int u32;
typedef unsigned long long u64;
using std::cin;
using std::cout;
using std::endl;
using std::min;
using std::max;

inline u32 next_integer(u32 x) {
	x ^= x << 13;
	x ^= x >> 17;
	x ^= x << 5;
	return x;
}

inline void output_arr(u32 *a, int blocks) {
	u32 ret = blocks << 2;
	u32 x = 23333333;
	for(u32 i = 0; i < blocks; ++i) {
		ret = ret ^ (a[i] + x);
		x ^= x << 13;
		x ^= x >> 17;
		x ^= x << 5;
	}
	printf("%u\n", ret);
}

// ===== header ======

namespace Sorting {
	u32 cnt11[2049], cnt22[2049], cnt32[1025]; // 大约 20 KB，能进入一级缓存
	void init_data(u32 *a, int n, u32 seed) {
		for(int i=0; i<n; i++) {
			seed=next_integer(seed), a[i]=seed;
			++cnt11[(a[i]&2047)+1], ++cnt22[((a[i]>>11)&2047)+1], ++cnt32[(a[i]>>22)+1];
		}
	}
	// 32 = 11+11+10
	void main() {
		int n;
		u32 seed;
		scanf("%d%u", &n, &seed);

		u32 *a = new u32[n+1];
		u32 *b = new u32[n+1];

		init_data(a, n, seed);

		for(u32 *i=cnt11+2; i<cnt11+2048; ++i) *i += *(i-1);
		for(u32 *i=cnt22+2; i<cnt22+2048; ++i) *i += *(i-1);
		for(u32 *i=cnt32+2; i<cnt32+1024; ++i) *i += *(i-1);
		for(u32 i=0; i<n; ++i) b[++cnt11[a[i]&2047]]=a[i]; // 后缀++ 改成 前缀++，提高速度，结果数组从 1 开始
		for(u32 i=1; i<=n; ++i) a[++cnt22[(b[i]>>11)&2047]]=b[i];
		for(u32 i=1; i<=n; ++i) b[++cnt32[a[i]>>22]]=a[i];

		output_arr(b+1, n);
	}
}

namespace Game {
	void main() {
		int n, q;
		scanf("%d%d", &n, &q);

		char *s1 = new char[n + 1];
		char *s2 = new char[n + 1];
		scanf("%s%s", s1, s2);

		u32 *anss = new u32[q];

		for(int i=0, x, y, l; i < q; i++) {
			scanf("%d%d%d", &x, &y, &l);
			int j=0;
			anss[i]=0;
#if AVX == 512
			for(; j+63<l; j+=64) {
				__m512i sub = _mm512_sub_epi8(_mm512_loadu_si512(s2+y+j), _mm512_loadu_si512(s1+x+j));
				anss[i] += _mm_popcnt_u64(_mm512_cmpeq_epu8_mask(sub, _mm512_set1_epi8(1)) | _mm512_cmpeq_epu8_mask(sub, _mm512_set1_epi8(-2)));
			}
#else
#if AVX == 256
			for(; j+31<l; j+=32) {
				__m256i sub = _mm256_sub_epi8(_mm256_loadu_si256((__m256i*)(s2+y+j)), _mm256_loadu_si256((__m256i*)(s1+x+j)));
				anss[i] += _mm_popcnt_u32(_mm256_movemask_epi8(_mm256_cmpeq_epi8(sub, _mm256_set1_epi8(1))) | _mm256_movemask_epi8(_mm256_cmpeq_epi8(sub, _mm256_set1_epi8(-2))));
			}
#endif
#endif
			for(; j<l; j++) {
				anss[i] += s1[x+j]=='0' && s2[y+j]=='1' || s1[x+j]=='1' && s2[y+j]=='2' || s1[x+j]=='2' && s2[y+j]=='0';
			}
		}

		output_arr(anss, q);
	}
}

namespace Parentheses {
	void main() {
		int n;
		scanf("%d", &n);

		char *s = new char[n + 1];
		scanf("%s", s);

		u32 *dp = new u32[3*n];
		dp+=n;
		dp[0]=1;
		for(int i=0; i<n; i++) {
			if(s[i]=='(') {
				dp--;
			} else if(s[i]==')') {
				dp++;
			} else {
				dp--;
				int j=0, lim=min(i+1, n-i-1);
#if AVX == 512
				for(; j+15<=lim; j+=16) _mm512_storeu_si512(dp+j, _mm512_add_epi32(_mm512_loadu_si512(dp+j), _mm512_loadu_si512(dp+j+2)));
#else
#if AVX == 256
				for(; j+7<=lim; j+=8) _mm256_storeu_si256((__m256i*)(dp+j), _mm256_add_epi32(_mm256_loadu_si256((__m256i*)(dp+j)), _mm256_loadu_si256((__m256i*)(dp+j+2))));
#endif
#endif
				for(; j<=lim; j++) dp[j]+=dp[j+2];
			}
			dp[-1]=0;
		}

		printf("%u\n", dp[0]);
	}
}

int main() {
	int task_id;
	scanf("%d", &task_id);

	switch(task_id) {
		case 1:
			Sorting::main();
			break;
		case 2:
			Game::main();
			break;
		case 3:
			Parentheses::main();
			break;
	}

	return 0;
}

洛谷：【模板】线段树 1

可以用 avx 快速计算区间加和区间和，由于值域都是 long long，只能提高 8 倍速，相对前一题，比较极限。

5. 文档

官方文档：https://www.intel.com/content/www/us/en/docs/intrinsics-guide/index.html

翻译后文档：https://avx.fanplus.top

chenbs 发布于 2024-08-22

最后更新于 2024-09-28