commit aaaa145: [Rework] Use VEX instructions, relocate

Vsevolod Stakhov vsevolod at highsecure.ru
Wed Feb 13 18:14:04 UTC 2019


Author: Vsevolod Stakhov
Date: 2019-02-13 18:03:35 +0000
URL: https://github.com/rspamd/rspamd/commit/aaaa145a865b83e038cb6362bdfbb72b298b895f

[Rework] Use VEX instructions, relocate

---
 src/libcryptobox/curve25519/avx.S       | 3138 ++++++++++++++++---------------
 src/libcryptobox/curve25519/avx.c       |    2 +-
 src/libcryptobox/curve25519/constants.S |   18 +-
 3 files changed, 1579 insertions(+), 1579 deletions(-)

diff --git a/src/libcryptobox/curve25519/avx.S b/src/libcryptobox/curve25519/avx.S
index c671cd3e8..061b6c3d6 100644
--- a/src/libcryptobox/curve25519/avx.S
+++ b/src/libcryptobox/curve25519/avx.S
@@ -1,8 +1,10 @@
 #include "../macro.S"
 #include "constants.S"
 
+.text
+
 .p2align 5
-GLOBAL_HIDDEN_FN_EXT ladder_avx,2,0
+GLOBAL_HIDDEN_FN_EXT ladder_avx
 ladder_avx_local:
 mov %rsp,%r11
 and $31,%r11
@@ -12,77 +14,77 @@ movq %r11,1824(%rsp)
 movq %r12,1832(%rsp)
 movq %r13,1840(%rsp)
 movq %r14,1848(%rsp)
-movdqa v0_0(%rip),%xmm0
-movdqa v1_0(%rip),%xmm1
-movdqu   0(%rdi),%xmm2
-movdqa %xmm2,0(%rsp)
-movdqu   16(%rdi),%xmm2
-movdqa %xmm2,16(%rsp)
-movdqu   32(%rdi),%xmm2
-movdqa %xmm2,32(%rsp)
-movdqu   48(%rdi),%xmm2
-movdqa %xmm2,48(%rsp)
-movdqu   64(%rdi),%xmm2
-movdqa %xmm2,64(%rsp)
-movdqa %xmm1,80(%rsp)
-movdqa %xmm0,96(%rsp)
-movdqa %xmm0,112(%rsp)
-movdqa %xmm0,128(%rsp)
-movdqa %xmm0,144(%rsp)
-movdqa %xmm1,%xmm0
-pxor %xmm1,%xmm1
-pxor %xmm2,%xmm2
-pxor %xmm3,%xmm3
-pxor %xmm4,%xmm4
-pxor %xmm5,%xmm5
-pxor %xmm6,%xmm6
-pxor %xmm7,%xmm7
-pxor %xmm8,%xmm8
-pxor %xmm9,%xmm9
-movdqu   0(%rdi),%xmm10
-movdqa %xmm10,160(%rsp)
-movdqu   16(%rdi),%xmm10
-movdqa %xmm10,176(%rsp)
-pmuludq v19_19(%rip),%xmm10
-movdqa %xmm10,192(%rsp)
-movdqu   32(%rdi),%xmm10
-movdqa %xmm10,208(%rsp)
-pmuludq v19_19(%rip),%xmm10
-movdqa %xmm10,224(%rsp)
-movdqu   48(%rdi),%xmm10
-movdqa %xmm10,240(%rsp)
-pmuludq v19_19(%rip),%xmm10
-movdqa %xmm10,256(%rsp)
-movdqu   64(%rdi),%xmm10
-movdqa %xmm10,272(%rsp)
-pmuludq v19_19(%rip),%xmm10
-movdqa %xmm10,288(%rsp)
-movdqu   8(%rdi),%xmm10
-pmuludq v2_1(%rip),%xmm10
-movdqa %xmm10,304(%rsp)
-pmuludq v19_19(%rip),%xmm10
-movdqa %xmm10,320(%rsp)
-movdqu   24(%rdi),%xmm10
-pmuludq v2_1(%rip),%xmm10
-movdqa %xmm10,336(%rsp)
-pmuludq v19_19(%rip),%xmm10
-movdqa %xmm10,352(%rsp)
-movdqu   40(%rdi),%xmm10
-pmuludq v2_1(%rip),%xmm10
-movdqa %xmm10,368(%rsp)
-pmuludq v19_19(%rip),%xmm10
-movdqa %xmm10,384(%rsp)
-movdqu   56(%rdi),%xmm10
-pmuludq v2_1(%rip),%xmm10
-movdqa %xmm10,400(%rsp)
-pmuludq v19_19(%rip),%xmm10
-movdqa %xmm10,416(%rsp)
-movdqu   0(%rdi),%xmm10
-movdqu   64(%rdi),%xmm11
-blendps $12, %xmm11, %xmm10
-pshufd $2,%xmm10,%xmm10
-pmuludq v38_1(%rip),%xmm10
-movdqa %xmm10,432(%rsp)
+vmovdqa v0_0(%rip),%xmm0
+vmovdqa v1_0(%rip),%xmm1
+vmovdqu 0(%rdi),%xmm2
+vmovdqa %xmm2,0(%rsp)
+vmovdqu 16(%rdi),%xmm2
+vmovdqa %xmm2,16(%rsp)
+vmovdqu 32(%rdi),%xmm2
+vmovdqa %xmm2,32(%rsp)
+vmovdqu 48(%rdi),%xmm2
+vmovdqa %xmm2,48(%rsp)
+vmovdqu 64(%rdi),%xmm2
+vmovdqa %xmm2,64(%rsp)
+vmovdqa %xmm1,80(%rsp)
+vmovdqa %xmm0,96(%rsp)
+vmovdqa %xmm0,112(%rsp)
+vmovdqa %xmm0,128(%rsp)
+vmovdqa %xmm0,144(%rsp)
+vmovdqa %xmm1,%xmm0
+vpxor %xmm1,%xmm1,%xmm1
+vpxor %xmm2,%xmm2,%xmm2
+vpxor %xmm3,%xmm3,%xmm3
+vpxor %xmm4,%xmm4,%xmm4
+vpxor %xmm5,%xmm5,%xmm5
+vpxor %xmm6,%xmm6,%xmm6
+vpxor %xmm7,%xmm7,%xmm7
+vpxor %xmm8,%xmm8,%xmm8
+vpxor %xmm9,%xmm9,%xmm9
+vmovdqu 0(%rdi),%xmm10
+vmovdqa %xmm10,160(%rsp)
+vmovdqu 16(%rdi),%xmm10
+vmovdqa %xmm10,176(%rsp)
+vpmuludq v19_19(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,192(%rsp)
+vmovdqu 32(%rdi),%xmm10
+vmovdqa %xmm10,208(%rsp)
+vpmuludq v19_19(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,224(%rsp)
+vmovdqu 48(%rdi),%xmm10
+vmovdqa %xmm10,240(%rsp)
+vpmuludq v19_19(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,256(%rsp)
+vmovdqu 64(%rdi),%xmm10
+vmovdqa %xmm10,272(%rsp)
+vpmuludq v19_19(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,288(%rsp)
+vmovdqu 8(%rdi),%xmm10
+vpmuludq v2_1(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,304(%rsp)
+vpmuludq v19_19(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,320(%rsp)
+vmovdqu 24(%rdi),%xmm10
+vpmuludq v2_1(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,336(%rsp)
+vpmuludq v19_19(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,352(%rsp)
+vmovdqu 40(%rdi),%xmm10
+vpmuludq v2_1(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,368(%rsp)
+vpmuludq v19_19(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,384(%rsp)
+vmovdqu 56(%rdi),%xmm10
+vpmuludq v2_1(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,400(%rsp)
+vpmuludq v19_19(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,416(%rsp)
+vmovdqu 0(%rdi),%xmm10
+vmovdqu 64(%rdi),%xmm11
+vblendps $12, %xmm11, %xmm10, %xmm10
+vpshufd $2,%xmm10,%xmm10
+vpmuludq v38_1(%rip),%xmm10,%xmm10
+vmovdqa %xmm10,432(%rsp)
 movq   0(%rsi),%rdx
 movq   8(%rsi),%rcx
 movq   16(%rsi),%r8
@@ -97,7 +99,9 @@ xorq 16(%rsi),%r8
 xorq 24(%rsi),%r9
 leaq 800(%rsp),%rsi
 mov  $64,%rax
-._small_loop:
+
+.p2align 4
+._ladder_small_loop:
 mov  %rdx,%r10
 mov  %rcx,%r11
 mov  %r8,%r12
@@ -120,1277 +124,1279 @@ movl   %r12d,512(%rsi)
 movl   %r13d,768(%rsi)
 add  $4,%rsi
 sub  $1,%rax
-jne ._small_loop
+jne ._ladder_small_loop
 mov  $255,%rdx
 add  $760,%rsi
-._loop_ladder:
+
+.p2align 4
+._ladder_loop:
 sub  $1,%rdx
 vbroadcastss 0(%rsi),%xmm10
 sub  $4,%rsi
-movdqa 0(%rsp),%xmm11
-movdqa 80(%rsp),%xmm12
+vmovdqa 0(%rsp),%xmm11
+vmovdqa 80(%rsp),%xmm12
 vpxor %xmm11,%xmm0,%xmm13
-pand %xmm10,%xmm13
-pxor %xmm13,%xmm0
-pxor %xmm13,%xmm11
+vpand %xmm10,%xmm13,%xmm13
+vpxor %xmm13,%xmm0,%xmm0
+vpxor %xmm13,%xmm11,%xmm11
 vpxor %xmm12,%xmm1,%xmm13
-pand %xmm10,%xmm13
-pxor %xmm13,%xmm1
-pxor %xmm13,%xmm12
-movdqa 16(%rsp),%xmm13
-movdqa 96(%rsp),%xmm14
+vpand %xmm10,%xmm13,%xmm13
+vpxor %xmm13,%xmm1,%xmm1
+vpxor %xmm13,%xmm12,%xmm12
+vmovdqa 16(%rsp),%xmm13
+vmovdqa 96(%rsp),%xmm14
 vpxor %xmm13,%xmm2,%xmm15
-pand %xmm10,%xmm15
-pxor %xmm15,%xmm2
-pxor %xmm15,%xmm13
+vpand %xmm10,%xmm15,%xmm15
+vpxor %xmm15,%xmm2,%xmm2
+vpxor %xmm15,%xmm13,%xmm13
 vpxor %xmm14,%xmm3,%xmm15
-pand %xmm10,%xmm15
-pxor %xmm15,%xmm3
-pxor %xmm15,%xmm14
-movdqa %xmm13,0(%rsp)
-movdqa %xmm14,16(%rsp)
-movdqa 32(%rsp),%xmm13
-movdqa 112(%rsp),%xmm14
+vpand %xmm10,%xmm15,%xmm15
+vpxor %xmm15,%xmm3,%xmm3
+vpxor %xmm15,%xmm14,%xmm14
+vmovdqa %xmm13,0(%rsp)
+vmovdqa %xmm14,16(%rsp)
+vmovdqa 32(%rsp),%xmm13
+vmovdqa 112(%rsp),%xmm14
 vpxor %xmm13,%xmm4,%xmm15
-pand %xmm10,%xmm15
-pxor %xmm15,%xmm4
-pxor %xmm15,%xmm13
+vpand %xmm10,%xmm15,%xmm15
+vpxor %xmm15,%xmm4,%xmm4
+vpxor %xmm15,%xmm13,%xmm13
 vpxor %xmm14,%xmm5,%xmm15
-pand %xmm10,%xmm15
-pxor %xmm15,%xmm5
-pxor %xmm15,%xmm14
-movdqa %xmm13,32(%rsp)
-movdqa %xmm14,80(%rsp)
-movdqa 48(%rsp),%xmm13
-movdqa 128(%rsp),%xmm14
+vpand %xmm10,%xmm15,%xmm15
+vpxor %xmm15,%xmm5,%xmm5
+vpxor %xmm15,%xmm14,%xmm14
+vmovdqa %xmm13,32(%rsp)
+vmovdqa %xmm14,80(%rsp)
+vmovdqa 48(%rsp),%xmm13
+vmovdqa 128(%rsp),%xmm14
 vpxor %xmm13,%xmm6,%xmm15
-pand %xmm10,%xmm15
-pxor %xmm15,%xmm6
-pxor %xmm15,%xmm13
+vpand %xmm10,%xmm15,%xmm15
+vpxor %xmm15,%xmm6,%xmm6
+vpxor %xmm15,%xmm13,%xmm13
 vpxor %xmm14,%xmm7,%xmm15
-pand %xmm10,%xmm15
-pxor %xmm15,%xmm7
-pxor %xmm15,%xmm14
-movdqa %xmm13,48(%rsp)
-movdqa %xmm14,96(%rsp)
-movdqa 64(%rsp),%xmm13
-movdqa 144(%rsp),%xmm14
+vpand %xmm10,%xmm15,%xmm15
+vpxor %xmm15,%xmm7,%xmm7
+vpxor %xmm15,%xmm14,%xmm14
+vmovdqa %xmm13,48(%rsp)
+vmovdqa %xmm14,96(%rsp)
+vmovdqa 64(%rsp),%xmm13
+vmovdqa 144(%rsp),%xmm14
 vpxor %xmm13,%xmm8,%xmm15
-pand %xmm10,%xmm15
-pxor %xmm15,%xmm8
-pxor %xmm15,%xmm13
+vpand %xmm10,%xmm15,%xmm15
+vpxor %xmm15,%xmm8,%xmm8
+vpxor %xmm15,%xmm13,%xmm13
 vpxor %xmm14,%xmm9,%xmm15
-pand %xmm10,%xmm15
-pxor %xmm15,%xmm9
-pxor %xmm15,%xmm14
-movdqa %xmm13,64(%rsp)
-movdqa %xmm14,112(%rsp)
+vpand %xmm10,%xmm15,%xmm15
+vpxor %xmm15,%xmm9,%xmm9
+vpxor %xmm15,%xmm14,%xmm14
+vmovdqa %xmm13,64(%rsp)
+vmovdqa %xmm14,112(%rsp)
 vpaddq subc0(%rip),%xmm11,%xmm10
-psubq %xmm12,%xmm10
-paddq %xmm12,%xmm11
+vpsubq %xmm12,%xmm10,%xmm10
+vpaddq %xmm12,%xmm11,%xmm11
 vpunpckhqdq %xmm10,%xmm11,%xmm12
 vpunpcklqdq %xmm10,%xmm11,%xmm10
 vpaddq %xmm1,%xmm0,%xmm11
-paddq subc0(%rip),%xmm0
-psubq %xmm1,%xmm0
+vpaddq subc0(%rip),%xmm0,%xmm0
+vpsubq %xmm1,%xmm0,%xmm0
 vpunpckhqdq %xmm11,%xmm0,%xmm1
 vpunpcklqdq %xmm11,%xmm0,%xmm0
 vpmuludq %xmm0,%xmm10,%xmm11
 vpmuludq %xmm1,%xmm10,%xmm13
-movdqa %xmm1,128(%rsp)
-paddq %xmm1,%xmm1
+vmovdqa %xmm1,128(%rsp)
+vpaddq %xmm1,%xmm1,%xmm1
 vpmuludq %xmm0,%xmm12,%xmm14
-movdqa %xmm0,144(%rsp)
-paddq %xmm14,%xmm13
+vmovdqa %xmm0,144(%rsp)
+vpaddq %xmm14,%xmm13,%xmm13
 vpmuludq %xmm1,%xmm12,%xmm0
-movdqa %xmm1,448(%rsp)
+vmovdqa %xmm1,448(%rsp)
 vpaddq %xmm3,%xmm2,%xmm1
-paddq subc2(%rip),%xmm2
-psubq %xmm3,%xmm2
+vpaddq subc2(%rip),%xmm2,%xmm2
+vpsubq %xmm3,%xmm2,%xmm2
 vpunpckhqdq %xmm1,%xmm2,%xmm3
 vpunpcklqdq %xmm1,%xmm2,%xmm1
 vpmuludq %xmm1,%xmm10,%xmm2
-paddq %xmm2,%xmm0
+vpaddq %xmm2,%xmm0,%xmm0
 vpmuludq %xmm3,%xmm10,%xmm2
-movdqa %xmm3,464(%rsp)
-paddq %xmm3,%xmm3
+vmovdqa %xmm3,464(%rsp)
+vpaddq %xmm3,%xmm3,%xmm3
 vpmuludq %xmm1,%xmm12,%xmm14
-movdqa %xmm1,480(%rsp)
-paddq %xmm14,%xmm2
+vmovdqa %xmm1,480(%rsp)
+vpaddq %xmm14,%xmm2,%xmm2
 vpmuludq %xmm3,%xmm12,%xmm1
-movdqa %xmm3,496(%rsp)
+vmovdqa %xmm3,496(%rsp)
 vpaddq %xmm5,%xmm4,%xmm3
-paddq subc2(%rip),%xmm4
-psubq %xmm5,%xmm4
+vpaddq subc2(%rip),%xmm4,%xmm4
+vpsubq %xmm5,%xmm4,%xmm4
 vpunpckhqdq %xmm3,%xmm4,%xmm5
 vpunpcklqdq %xmm3,%xmm4,%xmm3
 vpmuludq %xmm3,%xmm10,%xmm4
-paddq %xmm4,%xmm1
+vpaddq %xmm4,%xmm1,%xmm1
 vpmuludq %xmm5,%xmm10,%xmm4
-movdqa %xmm5,512(%rsp)
-paddq %xmm5,%xmm5
+vmovdqa %xmm5,512(%rsp)
+vpaddq %xmm5,%xmm5,%xmm5
 vpmuludq %xmm3,%xmm12,%xmm14
-movdqa %xmm3,528(%rsp)
-paddq %xmm14,%xmm4
+vmovdqa %xmm3,528(%rsp)
+vpaddq %xmm14,%xmm4,%xmm4
 vpaddq %xmm7,%xmm6,%xmm3
-paddq subc2(%rip),%xmm6
-psubq %xmm7,%xmm6
+vpaddq subc2(%rip),%xmm6,%xmm6
+vpsubq %xmm7,%xmm6,%xmm6
 vpunpckhqdq %xmm3,%xmm6,%xmm7
 vpunpcklqdq %xmm3,%xmm6,%xmm3
 vpmuludq %xmm3,%xmm10,%xmm6
 vpmuludq %xmm5,%xmm12,%xmm14
-movdqa %xmm5,544(%rsp)
-pmuludq v19_19(%rip),%xmm5
-movdqa %xmm5,560(%rsp)
-paddq %xmm14,%xmm6
+vmovdqa %xmm5,544(%rsp)
+vpmuludq v19_19(%rip),%xmm5,%xmm5
+vmovdqa %xmm5,560(%rsp)
+vpaddq %xmm14,%xmm6,%xmm6
 vpmuludq %xmm7,%xmm10,%xmm5
-movdqa %xmm7,576(%rsp)
-paddq %xmm7,%xmm7
+vmovdqa %xmm7,576(%rsp)
+vpaddq %xmm7,%xmm7,%xmm7
 vpmuludq %xmm3,%xmm12,%xmm14
-movdqa %xmm3,592(%rsp)
-paddq %xmm14,%xmm5
-pmuludq v19_19(%rip),%xmm3
-movdqa %xmm3,608(%rsp)
+vmovdqa %xmm3,592(%rsp)
+vpaddq %xmm14,%xmm5,%xmm5
+vpmuludq v19_19(%rip),%xmm3,%xmm3
+vmovdqa %xmm3,608(%rsp)
 vpaddq %xmm9,%xmm8,%xmm3
-paddq subc2(%rip),%xmm8
-psubq %xmm9,%xmm8
+vpaddq subc2(%rip),%xmm8,%xmm8
+vpsubq %xmm9,%xmm8,%xmm8
 vpunpckhqdq %xmm3,%xmm8,%xmm9
 vpunpcklqdq %xmm3,%xmm8,%xmm3
-movdqa %xmm3,624(%rsp)
+vmovdqa %xmm3,624(%rsp)
 vpmuludq %xmm7,%xmm12,%xmm8
-movdqa %xmm7,640(%rsp)
-pmuludq v19_19(%rip),%xmm7
-movdqa %xmm7,656(%rsp)
+vmovdqa %xmm7,640(%rsp)
+vpmuludq v19_19(%rip),%xmm7,%xmm7
+vmovdqa %xmm7,656(%rsp)
 vpmuludq %xmm3,%xmm10,%xmm7
-paddq %xmm7,%xmm8
+vpaddq %xmm7,%xmm8,%xmm8
 vpmuludq %xmm9,%xmm10,%xmm7
-movdqa %xmm9,672(%rsp)
-paddq %xmm9,%xmm9
+vmovdqa %xmm9,672(%rsp)
+vpaddq %xmm9,%xmm9,%xmm9
 vpmuludq %xmm3,%xmm12,%xmm10
-paddq %xmm10,%xmm7
-pmuludq v19_19(%rip),%xmm3
-movdqa %xmm3,688(%rsp)
-pmuludq v19_19(%rip),%xmm12
+vpaddq %xmm10,%xmm7,%xmm7
+vpmuludq v19_19(%rip),%xmm3,%xmm3
+vmovdqa %xmm3,688(%rsp)
+vpmuludq v19_19(%rip),%xmm12,%xmm12
 vpmuludq %xmm9,%xmm12,%xmm3
-movdqa %xmm9,704(%rsp)
-paddq %xmm3,%xmm11
-movdqa 0(%rsp),%xmm3
-movdqa 16(%rsp),%xmm9
+vmovdqa %xmm9,704(%rsp)
+vpaddq %xmm3,%xmm11,%xmm11
+vmovdqa 0(%rsp),%xmm3
+vmovdqa 16(%rsp),%xmm9
 vpaddq subc2(%rip),%xmm3,%xmm10
-psubq %xmm9,%xmm10
-paddq %xmm9,%xmm3
+vpsubq %xmm9,%xmm10,%xmm10
+vpaddq %xmm9,%xmm3,%xmm3
 vpunpckhqdq %xmm10,%xmm3,%xmm9
 vpunpcklqdq %xmm10,%xmm3,%xmm3
 vpmuludq 144(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm0
+vpaddq %xmm10,%xmm0,%xmm0
 vpmuludq 128(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm2
+vpaddq %xmm10,%xmm2,%xmm2
 vpmuludq 480(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm1
+vpaddq %xmm10,%xmm1,%xmm1
 vpmuludq 464(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm4
+vpaddq %xmm10,%xmm4,%xmm4
 vpmuludq 528(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm6
+vpaddq %xmm10,%xmm6,%xmm6
 vpmuludq 512(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm5
+vpaddq %xmm10,%xmm5,%xmm5
 vpmuludq 592(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm8
+vpaddq %xmm10,%xmm8,%xmm8
 vpmuludq 576(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm7
-pmuludq v19_19(%rip),%xmm3
+vpaddq %xmm10,%xmm7,%xmm7
+vpmuludq v19_19(%rip),%xmm3,%xmm3
 vpmuludq 624(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm11
-pmuludq 672(%rsp),%xmm3
-paddq %xmm3,%xmm13
+vpaddq %xmm10,%xmm11,%xmm11
+vpmuludq 672(%rsp),%xmm3,%xmm3
+vpaddq %xmm3,%xmm13,%xmm13
 vpmuludq 144(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm2
+vpaddq %xmm3,%xmm2,%xmm2
 vpmuludq 448(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm1
+vpaddq %xmm3,%xmm1,%xmm1
 vpmuludq 480(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm4
+vpaddq %xmm3,%xmm4,%xmm4
 vpmuludq 496(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm6
+vpaddq %xmm3,%xmm6,%xmm6
 vpmuludq 528(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm5
+vpaddq %xmm3,%xmm5,%xmm5
 vpmuludq 544(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm8
+vpaddq %xmm3,%xmm8,%xmm8
 vpmuludq 592(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm7
-pmuludq v19_19(%rip),%xmm9
+vpaddq %xmm3,%xmm7,%xmm7
+vpmuludq v19_19(%rip),%xmm9,%xmm9
 vpmuludq 640(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm11
+vpaddq %xmm3,%xmm11,%xmm11
 vpmuludq 624(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm13
-pmuludq 704(%rsp),%xmm9
-paddq %xmm9,%xmm0
-movdqa 32(%rsp),%xmm3
-movdqa 80(%rsp),%xmm9
+vpaddq %xmm3,%xmm13,%xmm13
+vpmuludq 704(%rsp),%xmm9,%xmm9
+vpaddq %xmm9,%xmm0,%xmm0
+vmovdqa 32(%rsp),%xmm3
+vmovdqa 80(%rsp),%xmm9
 vpaddq subc2(%rip),%xmm3,%xmm10
-psubq %xmm9,%xmm10
-paddq %xmm9,%xmm3
+vpsubq %xmm9,%xmm10,%xmm10
+vpaddq %xmm9,%xmm3,%xmm3
 vpunpckhqdq %xmm10,%xmm3,%xmm9
 vpunpcklqdq %xmm10,%xmm3,%xmm3
 vpmuludq 144(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm1
+vpaddq %xmm10,%xmm1,%xmm1
 vpmuludq 128(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm4
+vpaddq %xmm10,%xmm4,%xmm4
 vpmuludq 480(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm6
+vpaddq %xmm10,%xmm6,%xmm6
 vpmuludq 464(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm5
+vpaddq %xmm10,%xmm5,%xmm5
 vpmuludq 528(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm8
+vpaddq %xmm10,%xmm8,%xmm8
 vpmuludq 512(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm7
-pmuludq v19_19(%rip),%xmm3
+vpaddq %xmm10,%xmm7,%xmm7
+vpmuludq v19_19(%rip),%xmm3,%xmm3
 vpmuludq 592(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm11
+vpaddq %xmm10,%xmm11,%xmm11
 vpmuludq 576(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm13
+vpaddq %xmm10,%xmm13,%xmm13
 vpmuludq 624(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm0
-pmuludq 672(%rsp),%xmm3
-paddq %xmm3,%xmm2
+vpaddq %xmm10,%xmm0,%xmm0
+vpmuludq 672(%rsp),%xmm3,%xmm3
+vpaddq %xmm3,%xmm2,%xmm2
 vpmuludq 144(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm4
+vpaddq %xmm3,%xmm4,%xmm4
 vpmuludq 448(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm6
+vpaddq %xmm3,%xmm6,%xmm6
 vpmuludq 480(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm5
+vpaddq %xmm3,%xmm5,%xmm5
 vpmuludq 496(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm8
+vpaddq %xmm3,%xmm8,%xmm8
 vpmuludq 528(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm7
-pmuludq v19_19(%rip),%xmm9
+vpaddq %xmm3,%xmm7,%xmm7
+vpmuludq v19_19(%rip),%xmm9,%xmm9
 vpmuludq 544(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm11
+vpaddq %xmm3,%xmm11,%xmm11
 vpmuludq 592(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm13
+vpaddq %xmm3,%xmm13,%xmm13
 vpmuludq 640(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm0
+vpaddq %xmm3,%xmm0,%xmm0
 vpmuludq 624(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm2
-pmuludq 704(%rsp),%xmm9
-paddq %xmm9,%xmm1
-movdqa 48(%rsp),%xmm3
-movdqa 96(%rsp),%xmm9
+vpaddq %xmm3,%xmm2,%xmm2
+vpmuludq 704(%rsp),%xmm9,%xmm9
+vpaddq %xmm9,%xmm1,%xmm1
+vmovdqa 48(%rsp),%xmm3
+vmovdqa 96(%rsp),%xmm9
 vpaddq subc2(%rip),%xmm3,%xmm10
-psubq %xmm9,%xmm10
-paddq %xmm9,%xmm3
+vpsubq %xmm9,%xmm10,%xmm10
+vpaddq %xmm9,%xmm3,%xmm3
 vpunpckhqdq %xmm10,%xmm3,%xmm9
 vpunpcklqdq %xmm10,%xmm3,%xmm3
 vpmuludq 144(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm6
+vpaddq %xmm10,%xmm6,%xmm6
 vpmuludq 128(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm5
+vpaddq %xmm10,%xmm5,%xmm5
 vpmuludq 480(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm8
+vpaddq %xmm10,%xmm8,%xmm8
 vpmuludq 464(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm7
-pmuludq v19_19(%rip),%xmm3
+vpaddq %xmm10,%xmm7,%xmm7
+vpmuludq v19_19(%rip),%xmm3,%xmm3
 vpmuludq 528(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm11
+vpaddq %xmm10,%xmm11,%xmm11
 vpmuludq 512(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm13
+vpaddq %xmm10,%xmm13,%xmm13
 vpmuludq 592(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm0
+vpaddq %xmm10,%xmm0,%xmm0
 vpmuludq 576(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm2
+vpaddq %xmm10,%xmm2,%xmm2
 vpmuludq 624(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm1
-pmuludq 672(%rsp),%xmm3
-paddq %xmm3,%xmm4
+vpaddq %xmm10,%xmm1,%xmm1
+vpmuludq 672(%rsp),%xmm3,%xmm3
+vpaddq %xmm3,%xmm4,%xmm4
 vpmuludq 144(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm5
+vpaddq %xmm3,%xmm5,%xmm5
 vpmuludq 448(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm8
+vpaddq %xmm3,%xmm8,%xmm8
 vpmuludq 480(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm7
-pmuludq v19_19(%rip),%xmm9
+vpaddq %xmm3,%xmm7,%xmm7
+vpmuludq v19_19(%rip),%xmm9,%xmm9
 vpmuludq 496(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm11
+vpaddq %xmm3,%xmm11,%xmm11
 vpmuludq 528(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm13
+vpaddq %xmm3,%xmm13,%xmm13
 vpmuludq 544(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm0
+vpaddq %xmm3,%xmm0,%xmm0
 vpmuludq 592(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm2
+vpaddq %xmm3,%xmm2,%xmm2
 vpmuludq 640(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm1
+vpaddq %xmm3,%xmm1,%xmm1
 vpmuludq 624(%rsp),%xmm9,%xmm3
-paddq %xmm3,%xmm4
-pmuludq 704(%rsp),%xmm9
-paddq %xmm9,%xmm6
-movdqa 64(%rsp),%xmm3
-movdqa 112(%rsp),%xmm9
+vpaddq %xmm3,%xmm4,%xmm4
+vpmuludq 704(%rsp),%xmm9,%xmm9
+vpaddq %xmm9,%xmm6,%xmm6
+vmovdqa 64(%rsp),%xmm3
+vmovdqa 112(%rsp),%xmm9
 vpaddq subc2(%rip),%xmm3,%xmm10
-psubq %xmm9,%xmm10
-paddq %xmm9,%xmm3
+vpsubq %xmm9,%xmm10,%xmm10
+vpaddq %xmm9,%xmm3,%xmm3
 vpunpckhqdq %xmm10,%xmm3,%xmm9
 vpunpcklqdq %xmm10,%xmm3,%xmm3
 vpmuludq 144(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm8
+vpaddq %xmm10,%xmm8,%xmm8
 vpmuludq 128(%rsp),%xmm3,%xmm10
-paddq %xmm10,%xmm7
-pmuludq v19_19(%rip),%xmm3
+vpaddq %xmm10,%xmm7,%xmm7
+vpmuludq v19_19(%rip),%xmm3,%xmm3
 vpmuludq 480(%rsp),%xmm3,%xmm10
*** OUTPUT TRUNCATED, 3587 LINES SKIPPED ***


More information about the Commits mailing list