Use zend_simd.h as a wrapper for neon

SakiTakamachi · SakiTakamachi · commit b471a90f4f9d · 2025-04-28T20:50:15.000+09:00
diff --git a/Zend/zend_simd.h b/Zend/zend_simd.h
@@ -23,72 +23,40 @@
 #include <emmintrin.h>
 #define ZEND_HAVE_VECTOR_128
 
-typedef __m128i zend_vec_8x16_t;
-typedef __m128i zend_vec_16x8_t;
-typedef __m128i zend_vec_32x4_t;
-typedef __m128i zend_vec_64x2_t;
-
-#define zend_vec_setzero_8x16() _mm_setzero_si128()
-#define zend_vec_set_8x16(x) _mm_set1_epi8(x)
-#define zend_vec_set_8x16_from_16x8(x0, x1, x2, x3, x4, x5, x6, x7) _mm_set_epi16(x0, x1, x2, x3, x4, x5, x6, x7)
-#define zend_vec_set_8x16_from_32x4(x0, x1, x2, x3) _mm_set_epi32(x0, x1, x2, x3)
-#define zend_vec_set_8x16_from_64x2(x0, x1) _mm_set_epi64(x0, x1)
-#define zend_vec_load_8x16(x) _mm_load_si128((const __m128i *) (x))
-#define zend_vec_loadu_8x16(x) _mm_loadu_si128((const __m128i *) (x))
-#define zend_vec_store_8x16(to, x) _mm_store_si128((__m128i *) (to), x)
-#define zend_vec_storeu_8x16(to, x) _mm_storeu_si128((__m128i *) (to), x)
-
-#define zend_vec_or_8x16(a, b) _mm_or_si128(a, b)
-#define zend_vec_xor_8x16(a, b) _mm_xor_si128(a, b)
-#define zend_vec_and_8x16(a, b) _mm_and_si128(a, b)
-#define zend_vec_rshift_128_from_8x16(x, bytes) _mm_srli_si128(x, bytes)
-#define zend_vec_lshift_128_from_8x16(x, bytes) _mm_slli_si128(x, bytes)
-
-#define zend_vec_add_8x16(a, b) _mm_add_epi8(a, b)
-
-#define zend_vec_cmpeq_8x16(a, b) _mm_cmpeq_epi8(a, b)
-#define zend_vec_cmplt_8x16(a, b) _mm_cmplt_epi8(a, b)
-#define zend_vec_cmpgt_8x16(a, b) _mm_cmpgt_epi8(a, b)
-
-#define zend_vec_movemask_8x16(x) _mm_movemask_epi8(x)
-
 
 #elif defined(__aarch64__) || defined(_M_ARM64)
 #include <arm_neon.h>
 #define ZEND_HAVE_VECTOR_128
 
-typedef int8x16_t zend_vec_8x16_t;
-typedef int16x8_t zend_vec_16x8_t;
-typedef int32x4_t zend_vec_32x4_t;
-typedef int64x2_t zend_vec_64x2_t;
+typedef int8x16_t __m128i;
 
-#define zend_vec_setzero_8x16() vdupq_n_s8(0)
-#define zend_vec_set_8x16(x) vdupq_n_s8(x)
-#define zend_vec_set_8x16_from_16x8(x0, x1, x2, x3, x4, x5, x6, x7) \
+#define _mm_setzero_si128() vdupq_n_s8(0)
+#define _mm_set1_epi8(x) vdupq_n_s8(x)
+#define _mm_set_epi16(x0, x1, x2, x3, x4, x5, x6, x7) \
 	vreinterpretq_s8_s16((int16x8_t) { \
 		(int16_t) (x7), (int16_t) (x6), (int16_t) (x5), (int16_t) (x4), \
 		(int16_t) (x3), (int16_t) (x2), (int16_t) (x1), (int16_t) (x0) })
-#define zend_vec_set_8x16_from_32x4(x0, x1, x2, x3) \
+#define _mm_set_epi32(x0, x1, x2, x3) \
 	vreinterpretq_s8_s32((int32x4_t) { (int32_t) (x3), (int32_t) (x2), (int32_t) (x1), (int32_t) (x0) })
-#define zend_vec_set_8x16_from_64x2(x0, x1) vreinterpretq_s8_s64((int64x2_t) { (int64_t) (x1), (int64_t) (x0) })
-#define zend_vec_load_8x16(x) vld1q_s8((const int8_t *) (x))
-#define zend_vec_loadu_8x16(x) zend_vec_load_8x16(x)
-#define zend_vec_store_8x16(to, x) vst1q_s8((int8_t *) (to), x)
-#define zend_vec_storeu_8x16(to, x) zend_vec_store_8x16(to, x)
+#define _mm_set_epi64(x0, x1) vreinterpretq_s8_s64((int64x2_t) { (int64_t) (x1), (int64_t) (x0) })
+#define _mm_load_si128(x) vld1q_s8((const int8_t *) (x))
+#define _mm_loadu_si128(x) _mm_load_si128(x)
+#define _mm_store_si128(to, x) vst1q_s8((int8_t *) (to), x)
+#define _mm_storeu_si128(to, x) _mm_store_si128(to, x)
 
-#define zend_vec_or_8x16(a, b) vorrq_s8(a, b)
-#define zend_vec_xor_8x16(a, b) veorq_s8(a, b)
-#define zend_vec_and_8x16(a, b) vandq_s8(a, b)
-#define zend_vec_rshift_128_from_8x16(x, bytes) vreinterpretq_s8_u8(vextq_u8(vdupq_n_u8(0), vreinterpretq_u8_s8(x), bytes))
-#define zend_vec_lshift_128_from_8x16(x, bytes) vreinterpretq_s8_u8(vextq_u8(vreinterpretq_u8_s8(x), vdupq_n_u8(0), 16 - bytes))
+#define _mm_or_si128(a, b) vorrq_s8(a, b)
+#define _mm_xor_si128(a, b) veorq_s8(a, b)
+#define _mm_and_si128(a, b) vandq_s8(a, b)
+#define _mm_srli_si128(x, bytes) vreinterpretq_s8_u8(vextq_u8(vdupq_n_u8(0), vreinterpretq_u8_s8(x), bytes))
+#define _mm_slli_si128(x, bytes) vreinterpretq_s8_u8(vextq_u8(vreinterpretq_u8_s8(x), vdupq_n_u8(0), 16 - bytes))
 
-#define zend_vec_add_8x16(a, b) vaddq_s8(a, b)
+#define _mm_add_epi8(a, b) vaddq_s8(a, b)
 
-#define zend_vec_cmpeq_8x16(a, b) (vreinterpretq_s8_u8(vceqq_s8(a, b)))
-#define zend_vec_cmplt_8x16(a, b) (vreinterpretq_s8_u8(vcltq_s8(a, b)))
-#define zend_vec_cmpgt_8x16(a, b) (vreinterpretq_s8_u8(vcgtq_s8(a, b)))
+#define _mm_cmpeq_epi8(a, b) (vreinterpretq_s8_u8(vceqq_s8(a, b)))
+#define _mm_cmplt_epi8(a, b) (vreinterpretq_s8_u8(vcltq_s8(a, b)))
+#define _mm_cmpgt_epi8(a, b) (vreinterpretq_s8_u8(vcgtq_s8(a, b)))
 
-static zend_always_inline int zend_vec_movemask_8x16(int8x16_t x)
+static zend_always_inline int _mm_movemask_epi8(int8x16_t x)
 {
     /**
      * based on code from
diff --git a/ext/opcache/ZendAccelerator.c b/ext/opcache/ZendAccelerator.c
@@ -176,13 +176,13 @@ static void bzero_aligned(void *mem, size_t size)
 #elif defined(ZEND_HAVE_VECTOR_128)
 	char *p = (char*)mem;
 	char *end = p + size;
-	zend_vec_8x16_t xmm0 = zend_vec_setzero_8x16();
+	__m128i xmm0 = _mm_setzero_si128();
 
 	while (p < end) {
-		zend_vec_store_8x16(p, xmm0);
-		zend_vec_store_8x16((p+16), xmm0);
-		zend_vec_store_8x16((p+32), xmm0);
-		zend_vec_store_8x16((p+48), xmm0);
+		_mm_store_si128((__m128i*)p, xmm0);
+		_mm_store_si128((__m128i*)(p+16), xmm0);
+		_mm_store_si128((__m128i*)(p+32), xmm0);
+		_mm_store_si128((__m128i*)(p+48), xmm0);
 		p += 64;
 	}
 #else
diff --git a/ext/standard/url.c b/ext/standard/url.c
@@ -456,51 +456,51 @@ static zend_always_inline zend_string *php_url_encode_impl(const char *s, size_t
 
 #ifdef ZEND_HAVE_VECTOR_128
 	while (from + 16 < end) {
-		zend_vec_8x16_t mask;
+		__m128i mask;
 		uint32_t bits;
-		const zend_vec_8x16_t _A = zend_vec_set_8x16('A' - 1);
-		const zend_vec_8x16_t Z_ = zend_vec_set_8x16('Z' + 1);
-		const zend_vec_8x16_t _a = zend_vec_set_8x16('a' - 1);
-		const zend_vec_8x16_t z_ = zend_vec_set_8x16('z' + 1);
-		const zend_vec_8x16_t _zero = zend_vec_set_8x16('0' - 1);
-		const zend_vec_8x16_t nine_ = zend_vec_set_8x16('9' + 1);
-		const zend_vec_8x16_t dot = zend_vec_set_8x16('.');
-		const zend_vec_8x16_t minus = zend_vec_set_8x16('-');
-		const zend_vec_8x16_t under = zend_vec_set_8x16('_');
-
-		zend_vec_8x16_t in = zend_vec_loadu_8x16(from);
-
-		zend_vec_8x16_t gt = zend_vec_cmpgt_8x16(in, _A);
-		zend_vec_8x16_t lt = zend_vec_cmplt_8x16(in, Z_);
-		mask = zend_vec_and_8x16(lt, gt); /* upper */
-		gt = zend_vec_cmpgt_8x16(in, _a);
-		lt = zend_vec_cmplt_8x16(in, z_);
-		mask = zend_vec_or_8x16(mask, zend_vec_and_8x16(lt, gt)); /* lower */
-		gt = zend_vec_cmpgt_8x16(in, _zero);
-		lt = zend_vec_cmplt_8x16(in, nine_);
-		mask = zend_vec_or_8x16(mask, zend_vec_and_8x16(lt, gt)); /* number */
-		mask = zend_vec_or_8x16(mask, zend_vec_cmpeq_8x16(in, dot));
-		mask = zend_vec_or_8x16(mask, zend_vec_cmpeq_8x16(in, minus));
-		mask = zend_vec_or_8x16(mask, zend_vec_cmpeq_8x16(in, under));
+		const __m128i _A = _mm_set1_epi8('A' - 1);
+		const __m128i Z_ = _mm_set1_epi8('Z' + 1);
+		const __m128i _a = _mm_set1_epi8('a' - 1);
+		const __m128i z_ = _mm_set1_epi8('z' + 1);
+		const __m128i _zero = _mm_set1_epi8('0' - 1);
+		const __m128i nine_ = _mm_set1_epi8('9' + 1);
+		const __m128i dot = _mm_set1_epi8('.');
+		const __m128i minus = _mm_set1_epi8('-');
+		const __m128i under = _mm_set1_epi8('_');
+
+		__m128i in = _mm_loadu_si128((__m128i *)from);
+
+		__m128i gt = _mm_cmpgt_epi8(in, _A);
+		__m128i lt = _mm_cmplt_epi8(in, Z_);
+		mask = _mm_and_si128(lt, gt); /* upper */
+		gt = _mm_cmpgt_epi8(in, _a);
+		lt = _mm_cmplt_epi8(in, z_);
+		mask = _mm_or_si128(mask, _mm_and_si128(lt, gt)); /* lower */
+		gt = _mm_cmpgt_epi8(in, _zero);
+		lt = _mm_cmplt_epi8(in, nine_);
+		mask = _mm_or_si128(mask, _mm_and_si128(lt, gt)); /* number */
+		mask = _mm_or_si128(mask, _mm_cmpeq_epi8(in, dot));
+		mask = _mm_or_si128(mask, _mm_cmpeq_epi8(in, minus));
+		mask = _mm_or_si128(mask, _mm_cmpeq_epi8(in, under));
 
 		if (!raw) {
-			const zend_vec_8x16_t blank = zend_vec_set_8x16(' ');
-			zend_vec_8x16_t eq = zend_vec_cmpeq_8x16(in, blank);
-			if (zend_vec_movemask_8x16(eq)) {
-				in = zend_vec_add_8x16(in, zend_vec_and_8x16(eq, zend_vec_set_8x16('+' - ' ')));
-				mask = zend_vec_or_8x16(mask, eq);
+			const __m128i blank = _mm_set1_epi8(' ');
+			__m128i eq = _mm_cmpeq_epi8(in, blank);
+			if (_mm_movemask_epi8(eq)) {
+				in = _mm_add_epi8(in, _mm_and_si128(eq, _mm_set1_epi8('+' - ' ')));
+				mask = _mm_or_si128(mask, eq);
 			}
 		}
 		if (raw) {
-			const zend_vec_8x16_t wavy = zend_vec_set_8x16('~');
-			mask = zend_vec_or_8x16(mask, zend_vec_cmpeq_8x16(in, wavy));
+			const __m128i wavy = _mm_set1_epi8('~');
+			mask = _mm_or_si128(mask, _mm_cmpeq_epi8(in, wavy));
 		}
-		if (((bits = zend_vec_movemask_8x16(mask)) & 0xffff) == 0xffff) {
-			zend_vec_storeu_8x16(to, in);
+		if (((bits = _mm_movemask_epi8(mask)) & 0xffff) == 0xffff) {
+			_mm_storeu_si128((__m128i*)to, in);
 			to += 16;
 		} else {
 			unsigned char xmm[16];
-			zend_vec_storeu_8x16(xmm, in);
+			_mm_storeu_si128((__m128i*)xmm, in);
 			for (size_t i = 0; i < sizeof(xmm); i++) {
 				if ((bits & (0x1 << i))) {
 					*to++ = xmm[i];