commit aaaa145: [Rework] Use VEX instructions, relocate
Vsevolod Stakhov
vsevolod at highsecure.ru
Wed Feb 13 18:14:04 UTC 2019
Author: Vsevolod Stakhov
Date: 2019-02-13 18:03:35 +0000
URL: https://github.com/rspamd/rspamd/commit/aaaa145a865b83e038cb6362bdfbb72b298b895f
[Rework] Use VEX instructions, relocate
---
src/libcryptobox/curve25519/avx.S | 3138 ++++++++++++++++---------------
src/libcryptobox/curve25519/avx.c | 2 +-
src/libcryptobox/curve25519/constants.S | 18 +-
3 files changed, 1579 insertions(+), 1579 deletions(-)
diff --git a/src/libcryptobox/curve25519/avx.S b/src/libcryptobox/curve25519/avx.S
index c671cd3e8..061b6c3d6 100644
--- a/src/libcryptobox/curve25519/avx.S
+++ b/src/libcryptobox/curve25519/avx.S
@@ -1,8 +1,10 @@
#include "../macro.S"
#include "constants.S"
+.text
+
.p2align 5
-GLOBAL_HIDDEN_FN_EXT ladder_avx,2,0
+GLOBAL_HIDDEN_FN_EXT ladder_avx
ladder_avx_local:
mov %rsp,%r11
and $31,%r11
@@ -12,77 +14,77 @@ movq %r11,1824(%rsp)
movq %r12,1832(%rsp)
movq %r13,1840(%rsp)
movq %r14,1848(%rsp)
-movdqa v0_0(%rip),%xmm0
-movdqa v1_0(%rip),%xmm1
-movdqu 0(%rdi),%xmm2
-movdqa %xmm2,0(%rsp)
-movdqu 16(%rdi),%xmm2
-movdqa %xmm2,16(%rsp)
-movdqu 32(%rdi),%xmm2
-movdqa %xmm2,32(%rsp)
-movdqu 48(%rdi),%xmm2
-movdqa %xmm2,48(%rsp)
-movdqu 64(%rdi),%xmm2
-movdqa %xmm2,64(%rsp)
-movdqa %xmm1,80(%rsp)
-movdqa %xmm0,96(%rsp)
-movdqa %xmm0,112(%rsp)
-movdqa %xmm0,128(%rsp)
-movdqa %xmm0,144(%rsp)
-movdqa %xmm1,%xmm0
-pxor %xmm1,%xmm1
-pxor %xmm2,%xmm2
-pxor %xmm3,%xmm3
-pxor %xmm4,%xmm4
-pxor %xmm5,%xmm5
-pxor %xmm6,%xmm6
-pxor %xmm7,%xmm7
-pxor %xmm8,%xmm8
-pxor %xmm9,%xmm9
-movdqu 0(%rdi),%xmm10
-movdqa %xmm10,160(%rsp)
-movdqu 16(%rdi),%xmm10
-movdqa %xmm10,176(%rsp)
-pmuludq v19_19(%rip),%xmm10
-movdqa %xmm10,192(%rsp)
-movdqu 32(%rdi),%xmm10
-movdqa %xmm10,208(%rsp)
-pmuludq v19_19(%rip),%xmm10
-movdqa %xmm10,224(%rsp)
-movdqu 48(%rdi),%xmm10
-movdqa %xmm10,240(%rsp)
-pmuludq v19_19(%rip),%xmm10
-movdqa %xmm10,256(%rsp)
-movdqu 64(%rdi),%xmm10
-movdqa %xmm10,272(%rsp)
-pmuludq v19_19(%rip),%xmm10
-movdqa %xmm10,288(%rsp)
-movdqu 8(%rdi),%xmm10
-pmuludq v2_1(%rip),%xmm10
-movdqa %xmm10,304(%rsp)
-pmuludq v19_19(%rip),%xmm10
-movdqa %xmm10,320(%rsp)
-movdqu 24(%rdi),%xmm10
-pmuludq v2_1(%rip),%xmm10
-movdqa %xmm10,336(%rsp)
-pmuludq v19_19(%rip),%xmm10
-movdqa %xmm10,352(%rsp)
-movdqu 40(%rdi),%xmm10
-pmuludq v2_1(%rip),%xmm10
-movdqa %xmm10,368(%rsp)
-pmuludq v19_19(%rip),%xmm10
-movdqa %xmm10,384(%rsp)
-movdqu 56(%rdi),%xmm10
-pmuludq v2_1(%rip),%xmm10
-movdqa %xmm10,400(%rsp)
-pmuludq v19_19(%rip),%xmm10
-movdqa %xmm10,416(%rsp)
-movdqu 0(%rdi),%xmm10
-movdqu 64(%rdi),%xmm11
-blendps $12, %xmm11, %xmm10
-pshufd $2,%xmm10,%xmm10
-pmuludq v38_1(%rip),%xmm10
-movdqa %xmm10,432(%rsp)
+vmovdqa v0_0(%rip),%xmm0
+vmovdqa v1_0(%rip),%xmm1
+vmovdqu 0(%rdi),%xmm2
+vmovdqa %xmm2,0(%rsp)
+vmovdqu 16(%rdi),%xmm2
+vmovdqa %xmm2,16(%rsp)
+vmovdqu 32(%rdi),%xmm2
+vmovdqa %xmm2,32(%rsp)
+vmovdqu 48(%rdi),%xmm2
+vmovdqa %xmm2,48(%rsp)
+vmovdqu 64(%rdi),%xmm2
+vmovdqa %xmm2,64(%rsp)
+vmovdqa %xmm1,80(%rsp)
+vmovdqa %xmm0,96(%rsp)
+vmovdqa %xmm0,112(%rsp)
+vmovdqa %xmm0,128(%rsp)
+vmovdqa %xmm0,144(%rsp)
+vmovdqa %xmm1,%xmm0
+vpxor %xmm1,%xmm1,%xmm1
+vpxor %xmm2,%xmm2,%xmm2
+vpxor %xmm3,%xmm3,%xmm3
+vpxor %xmm4,%xmm4,%xmm4
+vpxor %xmm5,%xmm5,%xmm5
+vpxor %xmm6,%xmm6,%xmm6
+vpxor %xmm7,%xmm7,%xmm7
+vpxor %xmm8,%xmm8,%xmm8
+vpxor %xmm9,%xmm9,%xmm9
+vmovdqu 0(%rdi),%xmm10
+vmovdqa %xmm10,160(%rsp)
+vmovdqu 16(%rdi),%xmm10
+vmovdqa %xmm10,176(%rsp)
+vpmuludq v19_19(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,192(%rsp)
+vmovdqu 32(%rdi),%xmm10
+vmovdqa %xmm10,208(%rsp)
+vpmuludq v19_19(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,224(%rsp)
+vmovdqu 48(%rdi),%xmm10
+vmovdqa %xmm10,240(%rsp)
+vpmuludq v19_19(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,256(%rsp)
+vmovdqu 64(%rdi),%xmm10
+vmovdqa %xmm10,272(%rsp)
+vpmuludq v19_19(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,288(%rsp)
+vmovdqu 8(%rdi),%xmm10
+vpmuludq v2_1(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,304(%rsp)
+vpmuludq v19_19(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,320(%rsp)
+vmovdqu 24(%rdi),%xmm10
+vpmuludq v2_1(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,336(%rsp)
+vpmuludq v19_19(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,352(%rsp)
+vmovdqu 40(%rdi),%xmm10
+vpmuludq v2_1(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,368(%rsp)
+vpmuludq v19_19(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,384(%rsp)
+vmovdqu 56(%rdi),%xmm10
+vpmuludq v2_1(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,400(%rsp)
+vpmuludq v19_19(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,416(%rsp)
+vmovdqu 0(%rdi),%xmm10
+vmovdqu 64(%rdi),%xmm11
+vblendps $12, %xmm11, %xmm10, %xmm10
+vpshufd $2,%xmm10,%xmm10
+vpmuludq v38_1(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,432(%rsp)
movq 0(%rsi),%rdx
movq 8(%rsi),%rcx
movq 16(%rsi),%r8
@@ -97,7 +99,9 @@ xorq 16(%rsi),%r8
xorq 24(%rsi),%r9
leaq 800(%rsp),%rsi
mov $64,%rax
-._small_loop:
+
+.p2align 4
+._ladder_small_loop:
mov %rdx,%r10
mov %rcx,%r11
mov %r8,%r12
@@ -120,1277 +124,1279 @@ movl %r12d,512(%rsi)
movl %r13d,768(%rsi)
add $4,%rsi
sub $1,%rax
-jne ._small_loop
+jne ._ladder_small_loop
mov $255,%rdx
add $760,%rsi
-._loop_ladder:
+
+.p2align 4
+._ladder_loop:
sub $1,%rdx
vbroadcastss 0(%rsi),%xmm10
sub $4,%rsi
-movdqa 0(%rsp),%xmm11
-movdqa 80(%rsp),%xmm12
+vmovdqa 0(%rsp),%xmm11
+vmovdqa 80(%rsp),%xmm12
vpxor %xmm11,%xmm0,%xmm13
-pand %xmm10,%xmm13
-pxor %xmm13,%xmm0
-pxor %xmm13,%xmm11
+vpand %xmm10,%xmm13,%xmm13
+vpxor %xmm13,%xmm0,%xmm0
+vpxor %xmm13,%xmm11,%xmm11
vpxor %xmm12,%xmm1,%xmm13
-pand %xmm10,%xmm13
-pxor %xmm13,%xmm1
-pxor %xmm13,%xmm12
-movdqa 16(%rsp),%xmm13
-movdqa 96(%rsp),%xmm14
+vpand %xmm10,%xmm13,%xmm13
+vpxor %xmm13,%xmm1,%xmm1
+vpxor %xmm13,%xmm12,%xmm12
+vmovdqa 16(%rsp),%xmm13
+vmovdqa 96(%rsp),%xmm14
vpxor %xmm13,%xmm2,%xmm15
-pand %xmm10,%xmm15
-pxor %xmm15,%xmm2
-pxor %xmm15,%xmm13
+vpand %xmm10,%xmm15,%xmm15
+vpxor %xmm15,%xmm2,%xmm2
+vpxor %xmm15,%xmm13,%xmm13
vpxor %xmm14,%xmm3,%xmm15
-pand %xmm10,%xmm15
-pxor %xmm15,%xmm3
-pxor %xmm15,%xmm14
-movdqa %xmm13,0(%rsp)
-movdqa %xmm14,16(%rsp)
-movdqa 32(%rsp),%xmm13
-movdqa 112(%rsp),%xmm14
+vpand %xmm10,%xmm15,%xmm15
+vpxor %xmm15,%xmm3,%xmm3
+vpxor %xmm15,%xmm14,%xmm14
+vmovdqa %xmm13,0(%rsp)
+vmovdqa %xmm14,16(%rsp)
+vmovdqa 32(%rsp),%xmm13
+vmovdqa 112(%rsp),%xmm14
vpxor %xmm13,%xmm4,%xmm15
-pand %xmm10,%xmm15
-pxor %xmm15,%xmm4
-pxor %xmm15,%xmm13
+vpand %xmm10,%xmm15,%xmm15
+vpxor %xmm15,%xmm4,%xmm4
+vpxor %xmm15,%xmm13,%xmm13
vpxor %xmm14,%xmm5,%xmm15
-pand %xmm10,%xmm15
-pxor %xmm15,%xmm5
-pxor %xmm15,%xmm14
-movdqa %xmm13,32(%rsp)
-movdqa %xmm14,80(%rsp)
-movdqa 48(%rsp),%xmm13
-movdqa 128(%rsp),%xmm14
+vpand %xmm10,%xmm15,%xmm15
+vpxor %xmm15,%xmm5,%xmm5
+vpxor %xmm15,%xmm14,%xmm14
+vmovdqa %xmm13,32(%rsp)
+vmovdqa %xmm14,80(%rsp)
+vmovdqa 48(%rsp),%xmm13
+vmovdqa 128(%rsp),%xmm14
vpxor %xmm13,%xmm6,%xmm15
-pand %xmm10,%xmm15
-pxor %xmm15,%xmm6
-pxor %xmm15,%xmm13
+vpand %xmm10,%xmm15,%xmm15
+vpxor %xmm15,%xmm6,%xmm6
+vpxor %xmm15,%xmm13,%xmm13
vpxor %xmm14,%xmm7,%xmm15
-pand %xmm10,%xmm15
-pxor %xmm15,%xmm7
-pxor %xmm15,%xmm14
-movdqa %xmm13,48(%rsp)
-movdqa %xmm14,96(%rsp)
-movdqa 64(%rsp),%xmm13
-movdqa 144(%rsp),%xmm14
+vpand %xmm10,%xmm15,%xmm15
+vpxor %xmm15,%xmm7,%xmm7
+vpxor %xmm15,%xmm14,%xmm14
+vmovdqa %xmm13,48(%rsp)
+vmovdqa %xmm14,96(%rsp)
+vmovdqa 64(%rsp),%xmm13
+vmovdqa 144(%rsp),%xmm14
vpxor %xmm13,%xmm8,%xmm15
-pand %xmm10,%xmm15
-pxor %xmm15,%xmm8
-pxor %xmm15,%xmm13
+vpand %xmm10,%xmm15,%xmm15
+vpxor %xmm15,%xmm8,%xmm8
+vpxor %xmm15,%xmm13,%xmm13
vpxor %xmm14,%xmm9,%xmm15
-pand %xmm10,%xmm15
-pxor %xmm15,%xmm9
-pxor %xmm15,%xmm14
-movdqa %xmm13,64(%rsp)
-movdqa %xmm14,112(%rsp)
+vpand %xmm10,%xmm15,%xmm15
+vpxor %xmm15,%xmm9,%xmm9
+vpxor %xmm15,%xmm14,%xmm14
+vmovdqa %xmm13,64(%rsp)
+vmovdqa %xmm14,112(%rsp)
vpaddq subc0(%rip),%xmm11,%xmm10
-psubq %xmm12,%xmm10
-paddq %xmm12,%xmm11
+vpsubq %xmm12,%xmm10,%xmm10
+vpaddq %xmm12,%xmm11,%xmm11
vpunpckhqdq %xmm10,%xmm11,%xmm12
vpunpcklqdq %xmm10,%xmm11,%xmm10
vpaddq %xmm1,%xmm0,%xmm11
-paddq subc0(%rip),%xmm0
-psubq %xmm1,%xmm0
+vpaddq subc0(%rip),%xmm0,%xmm0
+vpsubq %xmm1,%xmm0,%xmm0
vpunpckhqdq %xmm11,%xmm0,%xmm1
vpunpcklqdq %xmm11,%xmm0,%xmm0
vpmuludq %xmm0,%xmm10,%xmm11
vpmuludq %xmm1,%xmm10,%xmm13
-movdqa %xmm1,128(%rsp)
-paddq %xmm1,%xmm1
+vmovdqa %xmm1,128(%rsp)
+vpaddq %xmm1,%xmm1,%xmm1
vpmuludq %xmm0,%xmm12,%xmm14
-movdqa %xmm0,144(%rsp)
-paddq %xmm14,%xmm13
+vmovdqa %xmm0,144(%rsp)
+vpaddq %xmm14,%xmm13,%xmm13
vpmuludq %xmm1,%xmm12,%xmm0
-movdqa %xmm1,448(%rsp)
+vmovdqa %xmm1,448(%rsp)
vpaddq %xmm3,%xmm2,%xmm1
-paddq subc2(%rip),%xmm2
-psubq %xmm3,%xmm2
+vpaddq subc2(%rip),%xmm2,%xmm2
+vpsubq %xmm3,%xmm2,%xmm2
vpunpckhqdq %xmm1,%xmm2,%xmm3
vpunpcklqdq %xmm1,%xmm2,%xmm1
vpmuludq %xmm1,%xmm10,%xmm2
-paddq %xmm2,%xmm0
+vpaddq %xmm2,%xmm0,%xmm0
vpmuludq %xmm3,%xmm10,%xmm2
-movdqa %xmm3,464(%rsp)
-paddq %xmm3,%xmm3
+vmovdqa %xmm3,464(%rsp)
+vpaddq %xmm3,%xmm3,%xmm3
vpmuludq %xmm1,%xmm12,%xmm14
-movdqa %xmm1,480(%rsp)
-paddq %xmm14,%xmm2
+vmovdqa %xmm1,480(%rsp)
+vpaddq %xmm14,%xmm2,%xmm2
vpmuludq %xmm3,%xmm12,%xmm1
-movdqa %xmm3,496(%rsp)
+vmovdqa %xmm3,496(%rsp)
vpaddq %xmm5,%xmm4,%xmm3
-paddq subc2(%rip),%xmm4
-psubq %xmm5,%xmm4
+vpaddq subc2(%rip),%xmm4,%xmm4
+vpsubq %xmm5,%xmm4,%xmm4
vpunpckhqdq %xmm3,%xmm4,%xmm5
vpunpcklqdq %xmm3,%xmm4,%xmm3
vpmuludq %xmm3,%xmm10,%xmm4
-paddq %xmm4,%xmm1
+vpaddq %xmm4,%xmm1,%xmm1
vpmuludq %xmm5,%xmm10,%xmm4
-movdqa %xmm5,512(%rsp)
-paddq %xmm5,%xmm5
+vmovdqa %xmm5,512(%rsp)
+vpaddq %xmm5,%xmm5,%xmm5
vpmuludq %xmm3,%xmm12,%xmm14
-movdqa %xmm3,528(%rsp)
-paddq %xmm14,%xmm4
+vmovdqa %xmm3,528(%rsp)
+vpaddq %xmm14,%xmm4,%xmm4
vpaddq %xmm7,%xmm6,%xmm3
-paddq subc2(%rip),%xmm6
-psubq %xmm7,%xmm6
+vpaddq subc2(%rip),%xmm6,%xmm6
+vpsubq %xmm7,%xmm6,%xmm6
vpunpckhqdq %xmm3,%xmm6,%xmm7
vpunpcklqdq %xmm3,%xmm6,%xmm3
vpmuludq %xmm3,%xmm10,%xmm6
vpmuludq %xmm5,%xmm12,%xmm14
-movdqa %xmm5,544(%rsp)
-pmuludq v19_19(%rip),%xmm5
-movdqa %xmm5,560(%rsp)
-paddq %xmm14,%xmm6
+vmovdqa %xmm5,544(%rsp)
+vpmuludq v19_19(%rip),%xmm5,%xmm5
+vmovdqa %xmm5,560(%rsp)
+vpaddq %xmm14,%xmm6,%xmm6
vpmuludq %xmm7,%xmm10,%xmm5
-movdqa %xmm7,576(%rsp)
-paddq %xmm7,%xmm7
+vmovdqa %xmm7,576(%rsp)
+vpaddq %xmm7,%xmm7,%xmm7
vpmuludq %xmm3,%xmm12,%xmm14
-movdqa %xmm3,592(%rsp)
-paddq %xmm14,%xmm5
-pmuludq v19_19(%rip),%xmm3
-movdqa %xmm3,608(%rsp)
+vmovdqa %xmm3,592(%rsp)
+vpaddq %xmm14,%xmm5,%xmm5
+vpmuludq v19_19(%rip),%xmm3,%xmm3
+vmovdqa %xmm3,608(%rsp)
vpaddq %xmm9,%xmm8,%xmm3
-paddq subc2(%rip),%xmm8
-psubq %xmm9,%xmm8
+vpaddq subc2(%rip),%xmm8,%xmm8
+vpsubq %xmm9,%xmm8,%xmm8
vpunpckhqdq %xmm3,%xmm8,%xmm9
vpunpcklqdq %xmm3,%xmm8,%xmm3
-movdqa %xmm3,624(%rsp)
+vmovdqa %xmm3,624(%rsp)
vpmuludq %xmm7,%xmm12,%xmm8
-movdqa %xmm7,640(%rsp)
-pmuludq v19_19(%rip),%xmm7
-movdqa %xmm7,656(%rsp)
+vmovdqa %xmm7,640(%rsp)
+vpmuludq v19_19(%rip),%xmm7,%xmm7
+vmovdqa %xmm7,656(%rsp)
vpmuludq %xmm3,%xmm10,%xmm7
-paddq %xmm7,%xmm8
+vpaddq %xmm7,%xmm8,%xmm8
vpmuludq %xmm9,%xmm10,%xmm7
-movdqa %xmm9,672(%rsp)
-paddq %xmm9,%xmm9
+vmovdqa %xmm9,672(%rsp)
+vpaddq %xmm9,%xmm9,%xmm9
vpmuludq %xmm3,%xmm12,%xmm10
-paddq %xmm10,%xmm7
-pmuludq v19_19(%rip),%xmm3
-movdqa %xmm3,688(%rsp)
-pmuludq v19_19(%rip),%xmm12
+vpaddq %xmm10,%xmm7,%xmm7
+vpmuludq v19_19(%rip),%xmm3,%xmm3
+vmovdqa %xmm3,688(%rsp)
+vpmuludq v19_19(%rip),%xmm12,%xmm12
vpmuludq %xmm9,%xmm12,%xmm3
-movdqa %xmm9,704(%rsp)
-paddq %xmm3,%xmm11
-movdqa 0(%rsp),%xmm3
-movdqa 16(%rsp),%xmm9
+vmovdqa %xmm9,704(%rsp)
+vpaddq %xmm3,%xmm11,%xmm11
+vmovdqa 0(%rsp),%xmm3
+vmovdqa 16(%rsp),%xmm9
vpaddq subc2(%rip),%xmm3,%xmm10
-psubq %xmm9,%xmm10
-paddq %xmm9,%xmm3
+vpsubq %xmm9,%xmm10,%xmm10
+vpaddq %xmm9,%xmm3,%xmm3
vpunpckhqdq %xmm10,%xmm3,%xmm9
vpunpcklqdq %xmm10,%xmm3,%xmm3
vpmuludq 144(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm0
+vpaddq %xmm10,%xmm0,%xmm0
vpmuludq 128(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm2
+vpaddq %xmm10,%xmm2,%xmm2
vpmuludq 480(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm1
+vpaddq %xmm10,%xmm1,%xmm1
vpmuludq 464(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm4
+vpaddq %xmm10,%xmm4,%xmm4
vpmuludq 528(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm6
+vpaddq %xmm10,%xmm6,%xmm6
vpmuludq 512(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm5
+vpaddq %xmm10,%xmm5,%xmm5
vpmuludq 592(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm8
+vpaddq %xmm10,%xmm8,%xmm8
vpmuludq 576(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm7
-pmuludq v19_19(%rip),%xmm3
+vpaddq %xmm10,%xmm7,%xmm7
+vpmuludq v19_19(%rip),%xmm3,%xmm3
vpmuludq 624(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm11
-pmuludq 672(%rsp),%xmm3
-paddq %xmm3,%xmm13
+vpaddq %xmm10,%xmm11,%xmm11
+vpmuludq 672(%rsp),%xmm3,%xmm3
+vpaddq %xmm3,%xmm13,%xmm13
vpmuludq 144(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm2
+vpaddq %xmm3,%xmm2,%xmm2
vpmuludq 448(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm1
+vpaddq %xmm3,%xmm1,%xmm1
vpmuludq 480(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm4
+vpaddq %xmm3,%xmm4,%xmm4
vpmuludq 496(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm6
+vpaddq %xmm3,%xmm6,%xmm6
vpmuludq 528(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm5
+vpaddq %xmm3,%xmm5,%xmm5
vpmuludq 544(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm8
+vpaddq %xmm3,%xmm8,%xmm8
vpmuludq 592(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm7
-pmuludq v19_19(%rip),%xmm9
+vpaddq %xmm3,%xmm7,%xmm7
+vpmuludq v19_19(%rip),%xmm9,%xmm9
vpmuludq 640(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm11
+vpaddq %xmm3,%xmm11,%xmm11
vpmuludq 624(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm13
-pmuludq 704(%rsp),%xmm9
-paddq %xmm9,%xmm0
-movdqa 32(%rsp),%xmm3
-movdqa 80(%rsp),%xmm9
+vpaddq %xmm3,%xmm13,%xmm13
+vpmuludq 704(%rsp),%xmm9,%xmm9
+vpaddq %xmm9,%xmm0,%xmm0
+vmovdqa 32(%rsp),%xmm3
+vmovdqa 80(%rsp),%xmm9
vpaddq subc2(%rip),%xmm3,%xmm10
-psubq %xmm9,%xmm10
-paddq %xmm9,%xmm3
+vpsubq %xmm9,%xmm10,%xmm10
+vpaddq %xmm9,%xmm3,%xmm3
vpunpckhqdq %xmm10,%xmm3,%xmm9
vpunpcklqdq %xmm10,%xmm3,%xmm3
vpmuludq 144(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm1
+vpaddq %xmm10,%xmm1,%xmm1
vpmuludq 128(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm4
+vpaddq %xmm10,%xmm4,%xmm4
vpmuludq 480(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm6
+vpaddq %xmm10,%xmm6,%xmm6
vpmuludq 464(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm5
+vpaddq %xmm10,%xmm5,%xmm5
vpmuludq 528(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm8
+vpaddq %xmm10,%xmm8,%xmm8
vpmuludq 512(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm7
-pmuludq v19_19(%rip),%xmm3
+vpaddq %xmm10,%xmm7,%xmm7
+vpmuludq v19_19(%rip),%xmm3,%xmm3
vpmuludq 592(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm11
+vpaddq %xmm10,%xmm11,%xmm11
vpmuludq 576(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm13
+vpaddq %xmm10,%xmm13,%xmm13
vpmuludq 624(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm0
-pmuludq 672(%rsp),%xmm3
-paddq %xmm3,%xmm2
+vpaddq %xmm10,%xmm0,%xmm0
+vpmuludq 672(%rsp),%xmm3,%xmm3
+vpaddq %xmm3,%xmm2,%xmm2
vpmuludq 144(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm4
+vpaddq %xmm3,%xmm4,%xmm4
vpmuludq 448(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm6
+vpaddq %xmm3,%xmm6,%xmm6
vpmuludq 480(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm5
+vpaddq %xmm3,%xmm5,%xmm5
vpmuludq 496(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm8
+vpaddq %xmm3,%xmm8,%xmm8
vpmuludq 528(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm7
-pmuludq v19_19(%rip),%xmm9
+vpaddq %xmm3,%xmm7,%xmm7
+vpmuludq v19_19(%rip),%xmm9,%xmm9
vpmuludq 544(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm11
+vpaddq %xmm3,%xmm11,%xmm11
vpmuludq 592(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm13
+vpaddq %xmm3,%xmm13,%xmm13
vpmuludq 640(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm0
+vpaddq %xmm3,%xmm0,%xmm0
vpmuludq 624(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm2
-pmuludq 704(%rsp),%xmm9
-paddq %xmm9,%xmm1
-movdqa 48(%rsp),%xmm3
-movdqa 96(%rsp),%xmm9
+vpaddq %xmm3,%xmm2,%xmm2
+vpmuludq 704(%rsp),%xmm9,%xmm9
+vpaddq %xmm9,%xmm1,%xmm1
+vmovdqa 48(%rsp),%xmm3
+vmovdqa 96(%rsp),%xmm9
vpaddq subc2(%rip),%xmm3,%xmm10
-psubq %xmm9,%xmm10
-paddq %xmm9,%xmm3
+vpsubq %xmm9,%xmm10,%xmm10
+vpaddq %xmm9,%xmm3,%xmm3
vpunpckhqdq %xmm10,%xmm3,%xmm9
vpunpcklqdq %xmm10,%xmm3,%xmm3
vpmuludq 144(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm6
+vpaddq %xmm10,%xmm6,%xmm6
vpmuludq 128(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm5
+vpaddq %xmm10,%xmm5,%xmm5
vpmuludq 480(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm8
+vpaddq %xmm10,%xmm8,%xmm8
vpmuludq 464(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm7
-pmuludq v19_19(%rip),%xmm3
+vpaddq %xmm10,%xmm7,%xmm7
+vpmuludq v19_19(%rip),%xmm3,%xmm3
vpmuludq 528(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm11
+vpaddq %xmm10,%xmm11,%xmm11
vpmuludq 512(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm13
+vpaddq %xmm10,%xmm13,%xmm13
vpmuludq 592(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm0
+vpaddq %xmm10,%xmm0,%xmm0
vpmuludq 576(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm2
+vpaddq %xmm10,%xmm2,%xmm2
vpmuludq 624(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm1
-pmuludq 672(%rsp),%xmm3
-paddq %xmm3,%xmm4
+vpaddq %xmm10,%xmm1,%xmm1
+vpmuludq 672(%rsp),%xmm3,%xmm3
+vpaddq %xmm3,%xmm4,%xmm4
vpmuludq 144(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm5
+vpaddq %xmm3,%xmm5,%xmm5
vpmuludq 448(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm8
+vpaddq %xmm3,%xmm8,%xmm8
vpmuludq 480(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm7
-pmuludq v19_19(%rip),%xmm9
+vpaddq %xmm3,%xmm7,%xmm7
+vpmuludq v19_19(%rip),%xmm9,%xmm9
vpmuludq 496(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm11
+vpaddq %xmm3,%xmm11,%xmm11
vpmuludq 528(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm13
+vpaddq %xmm3,%xmm13,%xmm13
vpmuludq 544(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm0
+vpaddq %xmm3,%xmm0,%xmm0
vpmuludq 592(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm2
+vpaddq %xmm3,%xmm2,%xmm2
vpmuludq 640(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm1
+vpaddq %xmm3,%xmm1,%xmm1
vpmuludq 624(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm4
-pmuludq 704(%rsp),%xmm9
-paddq %xmm9,%xmm6
-movdqa 64(%rsp),%xmm3
-movdqa 112(%rsp),%xmm9
+vpaddq %xmm3,%xmm4,%xmm4
+vpmuludq 704(%rsp),%xmm9,%xmm9
+vpaddq %xmm9,%xmm6,%xmm6
+vmovdqa 64(%rsp),%xmm3
+vmovdqa 112(%rsp),%xmm9
vpaddq subc2(%rip),%xmm3,%xmm10
-psubq %xmm9,%xmm10
-paddq %xmm9,%xmm3
+vpsubq %xmm9,%xmm10,%xmm10
+vpaddq %xmm9,%xmm3,%xmm3
vpunpckhqdq %xmm10,%xmm3,%xmm9
vpunpcklqdq %xmm10,%xmm3,%xmm3
vpmuludq 144(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm8
+vpaddq %xmm10,%xmm8,%xmm8
vpmuludq 128(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm7
-pmuludq v19_19(%rip),%xmm3
+vpaddq %xmm10,%xmm7,%xmm7
+vpmuludq v19_19(%rip),%xmm3,%xmm3
vpmuludq 480(%rsp),%xmm3,%xmm10
*** OUTPUT TRUNCATED, 3587 LINES SKIPPED ***
More information about the Commits
mailing list