[deb_x265.git] / source / common / x86 / sad16-a.asm

;*****************************************************************************
;* sad16-a.asm: x86 high depth sad functions
;*****************************************************************************
;* Copyright (C) 2010-2013 x264 project
;*
;* Authors: Oskar Arvidsson <oskar@irock.se>
;*          Henrik Gramner <henrik@gramner.com>
;*          Dnyaneshwar Gorade <dnyaneshwar@multicorewareinc.com>
;*
;* This program is free software; you can redistribute it and/or modify
;* it under the terms of the GNU General Public License as published by
;* the Free Software Foundation; either version 2 of the License, or
;* (at your option) any later version.
;*
;* This program is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
;* GNU General Public License for more details.
;*
;* You should have received a copy of the GNU General Public License
;* along with this program; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02111, USA.
;*
;* This program is also available under a commercial proprietary license.
;* For more information, contact us at license @ x265.com.
;*****************************************************************************

%include "x86inc.asm"
%include "x86util.asm"

SECTION .text

cextern pw_1

;=============================================================================
; SAD MMX
;=============================================================================

%macro SAD_INC_1x16P_MMX 0
    movu    m1, [r0+ 0]
    movu    m2, [r0+ 8]
    movu    m3, [r0+16]
    movu    m4, [r0+24]
    psubw   m1, [r2+ 0]
    psubw   m2, [r2+ 8]
    psubw   m3, [r2+16]
    psubw   m4, [r2+24]
    ABSW2   m1, m2, m1, m2, m5, m6
    ABSW2   m3, m4, m3, m4, m7, m5
    lea     r0, [r0+2*r1]
    lea     r2, [r2+2*r3]
    paddw   m1, m2
    paddw   m3, m4
    paddw   m0, m1
    paddw   m0, m3
%endmacro

%macro SAD_INC_2x8P_MMX 0
    movu    m1, [r0+0]
    movu    m2, [r0+8]
    movu    m3, [r0+2*r1+0]
    movu    m4, [r0+2*r1+8]
    psubw   m1, [r2+0]
    psubw   m2, [r2+8]
    psubw   m3, [r2+2*r3+0]
    psubw   m4, [r2+2*r3+8]
    ABSW2   m1, m2, m1, m2, m5, m6
    ABSW2   m3, m4, m3, m4, m7, m5
    lea     r0, [r0+4*r1]
    lea     r2, [r2+4*r3]
    paddw   m1, m2
    paddw   m3, m4
    paddw   m0, m1
    paddw   m0, m3
%endmacro

%macro SAD_INC_2x4P_MMX 0
    movu    m1, [r0]
    movu    m2, [r0+2*r1]
    psubw   m1, [r2]
    psubw   m2, [r2+2*r3]
    ABSW2   m1, m2, m1, m2, m3, m4
    lea     r0, [r0+4*r1]
    lea     r2, [r2+4*r3]
    paddw   m0, m1
    paddw   m0, m2
%endmacro

;-----------------------------------------------------------------------------
; int pixel_sad_NxM( uint16_t *, intptr_t, uint16_t *, intptr_t )
;-----------------------------------------------------------------------------
%macro SAD_MMX 3
cglobal pixel_sad_%1x%2, 4,5-(%2&4/4)
    pxor    m0, m0
%if %2 == 4
    SAD_INC_%3x%1P_MMX
    SAD_INC_%3x%1P_MMX
%else
    mov    r4d, %2/%3
.loop:
    SAD_INC_%3x%1P_MMX
    dec    r4d
    jg .loop
%endif
%if %1*%2 == 256
    HADDUW  m0, m1
%else
    HADDW   m0, m1
%endif
    movd   eax, m0
    RET
%endmacro

INIT_MMX mmx2
SAD_MMX 16, 16, 1
SAD_MMX 16,  8, 1
SAD_MMX  8, 16, 2
SAD_MMX  8,  8, 2
SAD_MMX  8,  4, 2
SAD_MMX  4,  8, 2
SAD_MMX  4,  4, 2
SAD_MMX  4,  16, 2
INIT_MMX ssse3
SAD_MMX  4,  8, 2
SAD_MMX  4,  4, 2

;=============================================================================
; SAD XMM
;=============================================================================

%macro SAD_1x32 0
    movu    m1, [r2+ 0]
    movu    m2, [r2+16]
    movu    m3, [r2+32]
    movu    m4, [r2+48]
    psubw   m1, [r0+0]
    psubw   m2, [r0+16]
    psubw   m3, [r0+32]
    psubw   m4, [r0+48]
    ABSW2   m1, m2, m1, m2, m5, m6
    pmaddwd m1, [pw_1]
    pmaddwd m2, [pw_1]
    lea     r0, [r0+2*r1]
    lea     r2, [r2+2*r3]
    ABSW2   m3, m4, m3, m4, m7, m5
    pmaddwd m3, [pw_1]
    pmaddwd m4, [pw_1]
    paddd   m1, m2
    paddd   m3, m4
    paddd   m0, m1
    paddd   m0, m3
%endmacro

%macro SAD_1x24 0
    movu    m1, [r2+ 0]
    movu    m2, [r2+16]
    movu    m3, [r2+32]
    psubw   m1, [r0+0]
    psubw   m2, [r0+16]
    psubw   m3, [r0+32]
    ABSW2   m1, m2, m1, m2, m4, m6
    pmaddwd m1, [pw_1]
    pmaddwd m2, [pw_1]
    lea     r0, [r0+2*r1]
    lea     r2, [r2+2*r3]
    pxor    m4, m4
    psubw    m4, m3
    pmaxsw  m3, m4
    pmaddwd m3, [pw_1]
    paddd   m1, m2
    paddd   m0, m1
    paddd   m0, m3
%endmacro

%macro SAD_1x48 0
    movu    m1, [r2+ 0]
    movu    m2, [r2+16]
    movu    m3, [r2+32]
    movu    m4, [r2+48]
    psubw   m1, [r0+0]
    psubw   m2, [r0+16]
    psubw   m3, [r0+32]
    psubw   m4, [r0+48]
    ABSW2   m1, m2, m1, m2, m5, m6
    pmaddwd m1, [pw_1]
    pmaddwd m2, [pw_1]
    ABSW2   m3, m4, m3, m4, m7, m5
    pmaddwd m3, [pw_1]
    pmaddwd m4, [pw_1]
    paddd   m1, m2
    paddd   m3, m4
    paddd   m0, m1
    paddd   m0, m3
    movu    m1, [r2+64]
    movu    m2, [r2+80]
    psubw   m1, [r0+64]
    psubw   m2, [r0+80]
    ABSW2   m1, m2, m1, m2, m3, m4
    pmaddwd m1, [pw_1]
    pmaddwd m2, [pw_1]
    lea     r0, [r0+2*r1]
    lea     r2, [r2+2*r3]
    paddd   m0, m1
    paddd   m0, m2
%endmacro

%macro SAD_1x64 0
    movu    m1, [r2+ 0]
    movu    m2, [r2+16]
    movu    m3, [r2+32]
    movu    m4, [r2+48]
    psubw   m1, [r0+0]
    psubw   m2, [r0+16]
    psubw   m3, [r0+32]
    psubw   m4, [r0+48]
    ABSW2   m1, m2, m1, m2, m5, m6
    pmaddwd m1, [pw_1]
    pmaddwd m2, [pw_1]
    ABSW2   m3, m4, m3, m4, m7, m5
    pmaddwd m3, [pw_1]
    pmaddwd m4, [pw_1]
    paddd   m1, m2
    paddd   m3, m4
    paddd   m0, m1
    paddd   m0, m3
    movu    m1, [r2+64]
    movu    m2, [r2+80]
    movu    m3, [r2+96]
    movu    m4, [r2+112]
    psubw   m1, [r0+64]
    psubw   m2, [r0+80]
    psubw   m3, [r0+96]
    psubw   m4, [r0+112]
    ABSW2   m1, m2, m1, m2, m5, m6
    pmaddwd m1, [pw_1]
    pmaddwd m2, [pw_1]
    ABSW2   m3, m4, m3, m4, m7, m5
    pmaddwd m3, [pw_1]
    pmaddwd m4, [pw_1]
    paddd   m1, m2
    paddd   m3, m4
    paddd   m0, m1
    paddd   m0, m3
    lea     r0, [r0+2*r1]
    lea     r2, [r2+2*r3]
%endmacro

%macro SAD_1x12 0
    movu    m1, [r2+0]
    movh    m2, [r2+16]
    psubw   m1, [r0+0]
    movh    m3, [r0+16]
    psubw   m2, m3
    ABSW2   m1, m2, m1, m2, m4, m6
    pmaddwd m1, [pw_1]
    pmaddwd m2, [pw_1]
    lea     r0, [r0+2*r1]
    lea     r2, [r2+2*r3]
    paddd   m1, m2
    paddd   m0, m1
%endmacro

%macro SAD_INC_2ROW 1
%if 2*%1 > mmsize
    movu    m1, [r2+ 0]
    movu    m2, [r2+16]
    movu    m3, [r2+2*r3+ 0]
    movu    m4, [r2+2*r3+16]
    psubw   m1, [r0+ 0]
    psubw   m2, [r0+16]
    psubw   m3, [r0+2*r1+ 0]
    psubw   m4, [r0+2*r1+16]
    ABSW2   m1, m2, m1, m2, m5, m6
    lea     r0, [r0+4*r1]
    lea     r2, [r2+4*r3]
    ABSW2   m3, m4, m3, m4, m7, m5
    paddw   m1, m2
    paddw   m3, m4
    paddw   m3, m1
    pmaddwd m3, [pw_1]
    paddd   m0, m3
%else
    movu    m1, [r2]
    movu    m2, [r2+2*r3]
    psubw   m1, [r0]
    psubw   m2, [r0+2*r1]
    ABSW2   m1, m2, m1, m2, m3, m4
    lea     r0, [r0+4*r1]
    lea     r2, [r2+4*r3]
    paddw   m2, m1
    pmaddwd m2, [pw_1]
    paddd   m0, m2
%endif
%endmacro

;-----------------------------------------------------------------------------
; int pixel_sad_NxM( uint16_t *, intptr_t, uint16_t *, intptr_t )
;-----------------------------------------------------------------------------
%macro SAD 2
cglobal pixel_sad_%1x%2, 4,5-(%2&4/4),8*(%1/mmsize)
    pxor    m0, m0
%if %2 == 4
    SAD_INC_2ROW %1
    SAD_INC_2ROW %1
%else
    mov     r4d, %2/2
.loop:
    SAD_INC_2ROW %1
    dec    r4d
    jg .loop
%endif

    HADDD   m0, m1
    movd    eax, xm0
    RET
%endmacro

INIT_XMM sse2
SAD  16,  4
SAD  16,  8
SAD  16, 12
SAD  16, 16
SAD  16, 32
SAD  16, 64

INIT_XMM sse2
SAD  8,  4
SAD  8,  8
SAD  8, 16
SAD  8, 32

;------------------------------------------------------------------
; int pixel_sad_32xN( uint16_t *, intptr_t, uint16_t *, intptr_t )
;------------------------------------------------------------------
%macro SAD_32 2
cglobal pixel_sad_%1x%2, 4,5,8
    pxor    m0,  m0
    mov     r4d, %2/4
.loop:
    SAD_1x32
    SAD_1x32
    SAD_1x32
    SAD_1x32
    dec     r4d
    jnz     .loop

    HADDD   m0, m1
    movd    eax, xm0
    RET
%endmacro

INIT_XMM sse2
SAD_32  32,  8
SAD_32  32, 16
SAD_32  32, 24
SAD_32  32, 32
SAD_32  32, 64

;------------------------------------------------------------------
; int pixel_sad_64xN( uint16_t *, intptr_t, uint16_t *, intptr_t )
;------------------------------------------------------------------
%macro SAD_64 2
cglobal pixel_sad_%1x%2, 4,5,8
    pxor    m0, m0
    mov     r4d, %2/4
.loop:
    SAD_1x64
    SAD_1x64
    SAD_1x64
    SAD_1x64
    dec     r4d
    jnz     .loop

    HADDD   m0, m1
    movd    eax, xmm0
    RET
%endmacro

INIT_XMM sse2
SAD_64  64, 16
SAD_64  64, 32
SAD_64  64, 48
SAD_64  64, 64

;------------------------------------------------------------------
; int pixel_sad_48xN( uint16_t *, intptr_t, uint16_t *, intptr_t )
;------------------------------------------------------------------
%macro SAD_48 2
cglobal pixel_sad_%1x%2, 4,5,8
    pxor    m0, m0
    mov     r4d, %2/4
.loop:
    SAD_1x48
    SAD_1x48
    SAD_1x48
    SAD_1x48
    dec     r4d
    jnz     .loop

    HADDD   m0, m1
    movd    eax, xmm0
    RET
%endmacro

INIT_XMM sse2
SAD_48  48, 64

;------------------------------------------------------------------
; int pixel_sad_24xN( uint16_t *, intptr_t, uint16_t *, intptr_t )
;------------------------------------------------------------------
%macro SAD_24 2
cglobal pixel_sad_%1x%2, 4,5,8
    pxor    m0, m0
    mov     r4d, %2/4
.loop:
    SAD_1x24
    SAD_1x24
    SAD_1x24
    SAD_1x24
    dec     r4d
    jnz     .loop

    HADDD   m0, m1
    movd    eax, xmm0
    RET
%endmacro

INIT_XMM sse2
SAD_24  24, 32

;------------------------------------------------------------------
; int pixel_sad_12xN( uint16_t *, intptr_t, uint16_t *, intptr_t )
;------------------------------------------------------------------
%macro SAD_12 2
cglobal pixel_sad_%1x%2, 4,5,8
    pxor    m0,  m0
    mov     r4d, %2/4
.loop:
    SAD_1x12
    SAD_1x12
    SAD_1x12
    SAD_1x12
    dec     r4d
    jnz     .loop

    HADDD   m0, m1
    movd    eax, xmm0
    RET
%endmacro

INIT_XMM sse2
SAD_12  12, 16


;=============================================================================
; SAD x3/x4
;=============================================================================

%macro SAD_X3_INC_P 0
    add     r0, 4*FENC_STRIDE
    lea     r1, [r1+4*r4]
    lea     r2, [r2+4*r4]
    lea     r3, [r3+4*r4]
%endmacro

%macro SAD_X3_ONE_START 0
    mova    m3, [r0]
    movu    m0, [r1]
    movu    m1, [r2]
    movu    m2, [r3]
    psubw   m0, m3
    psubw   m1, m3
    psubw   m2, m3
    ABSW2   m0, m1, m0, m1, m4, m5
    ABSW    m2, m2, m6
    pmaddwd m0, [pw_1]
    pmaddwd m1, [pw_1]
    pmaddwd m2, [pw_1]
%endmacro

%macro SAD_X3_ONE 2
    mova    m6, [r0+%1]
    movu    m3, [r1+%2]
    movu    m4, [r2+%2]
    movu    m5, [r3+%2]
    psubw   m3, m6
    psubw   m4, m6
    psubw   m5, m6
    ABSW2   m3, m4, m3, m4, m7, m6
    ABSW    m5, m5, m6
    pmaddwd m3, [pw_1]
    pmaddwd m4, [pw_1]
    pmaddwd m5, [pw_1]
    paddd   m0, m3
    paddd   m1, m4
    paddd   m2, m5
%endmacro

%macro SAD_X3_END 2
%if mmsize == 8 && %1*%2 == 256
    HADDUW   m0, m3
    HADDUW   m1, m4
    HADDUW   m2, m5
%else
    HADDD    m0, m3
    HADDD    m1, m4
    HADDD    m2, m5
%endif
%if UNIX64
    movd [r5+0], xm0
    movd [r5+4], xm1
    movd [r5+8], xm2
%else
    mov      r0, r5mp
    movd [r0+0], xm0
    movd [r0+4], xm1
    movd [r0+8], xm2
%endif
    RET
%endmacro

%macro SAD_X4_INC_P 0
    add     r0, 4*FENC_STRIDE
    lea     r1, [r1+4*r5]
    lea     r2, [r2+4*r5]
    lea     r3, [r3+4*r5]
    lea     r4, [r4+4*r5]
%endmacro

%macro SAD_X4_ONE_START 0
    mova    m4, [r0]
    movu    m0, [r1]
    movu    m1, [r2]
    movu    m2, [r3]
    movu    m3, [r4]
    psubw   m0, m4
    psubw   m1, m4
    psubw   m2, m4
    psubw   m3, m4
    ABSW2   m0, m1, m0, m1, m5, m6
    ABSW2   m2, m3, m2, m3, m4, m7
    pmaddwd m0, [pw_1]
    pmaddwd m1, [pw_1]
    pmaddwd m2, [pw_1]
    pmaddwd m3, [pw_1]
%endmacro

%macro SAD_X4_ONE 2
    mova    m4, [r0+%1]
    movu    m5, [r1+%2]
    movu    m6, [r2+%2]
%if num_mmregs > 8
    movu    m7, [r3+%2]
    movu    m8, [r4+%2]
    psubw   m5, m4
    psubw   m6, m4
    psubw   m7, m4
    psubw   m8, m4
    ABSW2   m5, m6, m5, m6, m9, m10
    ABSW2   m7, m8, m7, m8, m9, m10
    pmaddwd m5, [pw_1]
    pmaddwd m6, [pw_1]
    pmaddwd m7, [pw_1]
    pmaddwd m8, [pw_1]
    paddd   m0, m5
    paddd   m1, m6
    paddd   m2, m7
    paddd   m3, m8
%elif cpuflag(ssse3)
    movu    m7, [r3+%2]
    psubw   m5, m4
    psubw   m6, m4
    psubw   m7, m4
    movu    m4, [r4+%2]
    pabsw   m5, m5
    psubw   m4, [r0+%1]
    pabsw   m6, m6
    pabsw   m7, m7
    pabsw   m4, m4
    pmaddwd m5, [pw_1]
    pmaddwd m6, [pw_1]
    pmaddwd m7, [pw_1]
    pmaddwd m4, [pw_1]
    paddd   m0, m5
    paddd   m1, m6
    paddd   m2, m7
    paddd   m3, m4
%else ; num_mmregs == 8 && !ssse3
    psubw   m5, m4
    psubw   m6, m4
    ABSW    m5, m5, m7
    ABSW    m6, m6, m7
    pmaddwd m5, [pw_1]
    pmaddwd m6, [pw_1]
    paddd   m0, m5
    paddd   m1, m6
    movu    m5, [r3+%2]
    movu    m6, [r4+%2]
    psubw   m5, m4
    psubw   m6, m4
    ABSW2   m5, m6, m5, m6, m7, m4
    pmaddwd m5, [pw_1]
    pmaddwd m6, [pw_1]
    paddd   m2, m5
    paddd   m3, m6
%endif
%endmacro

%macro SAD_X4_END 2
%if mmsize == 8 && %1*%2 == 256
    HADDUW    m0, m4
    HADDUW    m1, m5
    HADDUW    m2, m6
    HADDUW    m3, m7
%else
    HADDD     m0, m4
    HADDD     m1, m5
    HADDD     m2, m6
    HADDD     m3, m7
%endif
    mov       r0, r6mp
    movd [r0+ 0], xm0
    movd [r0+ 4], xm1
    movd [r0+ 8], xm2
    movd [r0+12], xm3
    RET
%endmacro

%macro SAD_X_2xNP 4
    %assign x %3
%rep %4
    SAD_X%1_ONE x*mmsize, x*mmsize
    SAD_X%1_ONE 2*FENC_STRIDE+x*mmsize, 2*%2+x*mmsize
    %assign x x+1
%endrep
%endmacro

%macro PIXEL_VSAD 0
cglobal pixel_vsad, 3,3,8
    mova      m0, [r0]
    mova      m1, [r0+16]
    mova      m2, [r0+2*r1]
    mova      m3, [r0+2*r1+16]
    lea       r0, [r0+4*r1]
    psubw     m0, m2
    psubw     m1, m3
    ABSW2     m0, m1, m0, m1, m4, m5
    paddw     m0, m1
    sub      r2d, 2
    je .end
.loop:
    mova      m4, [r0]
    mova      m5, [r0+16]
    mova      m6, [r0+2*r1]
    mova      m7, [r0+2*r1+16]
    lea       r0, [r0+4*r1]
    psubw     m2, m4
    psubw     m3, m5
    psubw     m4, m6
    psubw     m5, m7
    ABSW      m2, m2, m1
    ABSW      m3, m3, m1
    ABSW      m4, m4, m1
    ABSW      m5, m5, m1
    paddw     m0, m2
    paddw     m0, m3
    paddw     m0, m4
    paddw     m0, m5
    mova      m2, m6
    mova      m3, m7
    sub r2d, 2
    jg .loop
.end:
%if BIT_DEPTH == 9
    HADDW     m0, m1 ; max sum: 62(pixel diffs)*511(pixel_max)=31682
%else
    HADDUW    m0, m1 ; max sum: 62(pixel diffs)*1023(pixel_max)=63426
%endif
    movd     eax, m0
    RET
%endmacro
INIT_XMM sse2
PIXEL_VSAD
INIT_XMM ssse3
PIXEL_VSAD
INIT_XMM xop
PIXEL_VSAD

INIT_YMM avx2
cglobal pixel_vsad, 3,3
    mova      m0, [r0]
    mova      m1, [r0+2*r1]
    lea       r0, [r0+4*r1]
    psubw     m0, m1
    pabsw     m0, m0
    sub      r2d, 2
    je .end
.loop:
    mova      m2, [r0]
    mova      m3, [r0+2*r1]
    lea       r0, [r0+4*r1]
    psubw     m1, m2
    psubw     m2, m3
    pabsw     m1, m1
    pabsw     m2, m2
    paddw     m0, m1
    paddw     m0, m2
    mova      m1, m3
    sub      r2d, 2
    jg .loop
.end:
%if BIT_DEPTH == 9
    HADDW     m0, m1
%else
    HADDUW    m0, m1
%endif
    movd     eax, xm0
    RET

;-----------------------------------------------------------------------------
; void pixel_sad_xN_WxH( uint16_t *fenc, uint16_t *pix0, uint16_t *pix1,
;                        uint16_t *pix2, intptr_t i_stride, int scores[3] )
;-----------------------------------------------------------------------------
%macro SAD_X 3
cglobal pixel_sad_x%1_%2x%3, 6,7,XMM_REGS
    %assign regnum %1+1
    %xdefine STRIDE r %+ regnum
    mov     r6, %3/2-1
    SAD_X%1_ONE_START
    SAD_X%1_ONE 2*FENC_STRIDE, 2*STRIDE
    SAD_X_2xNP %1, STRIDE, 1, %2/(mmsize/2)-1
.loop:
    SAD_X%1_INC_P
    SAD_X_2xNP %1, STRIDE, 0, %2/(mmsize/2)
    dec     r6
    jg .loop
%if %1 == 4
    mov     r6, r6m
%endif
    SAD_X%1_END %2, %3
%endmacro

INIT_MMX mmx2
%define XMM_REGS 0
SAD_X 3, 16, 16
SAD_X 3, 16,  8
SAD_X 3, 12, 16
SAD_X 3,  8, 16
SAD_X 3,  8,  8
SAD_X 3,  8,  4
SAD_X 3,  4, 16
SAD_X 3,  4,  8
SAD_X 3,  4,  4
SAD_X 4, 16, 16
SAD_X 4, 16,  8
SAD_X 4, 12, 16
SAD_X 4,  8, 16
SAD_X 4,  8,  8
SAD_X 4,  8,  4
SAD_X 4,  4, 16
SAD_X 4,  4,  8
SAD_X 4,  4,  4
INIT_MMX ssse3
SAD_X 3,  4,  8
SAD_X 3,  4,  4
SAD_X 4,  4,  8
SAD_X 4,  4,  4
INIT_XMM ssse3
%define XMM_REGS 7
SAD_X 3, 16, 16
SAD_X 3, 16,  8
SAD_X 3,  8, 16
SAD_X 3,  8,  8
SAD_X 3,  8,  4
%define XMM_REGS 9
SAD_X 4, 16, 16
SAD_X 4, 16,  8
SAD_X 4,  8, 16
SAD_X 4,  8,  8
SAD_X 4,  8,  4
INIT_XMM sse2
%define XMM_REGS 8
SAD_X 3, 64, 64
SAD_X 3, 64, 48
SAD_X 3, 64, 32
SAD_X 3, 64, 16
SAD_X 3, 48, 64
SAD_X 3, 32, 64
SAD_X 3, 32, 32
SAD_X 3, 32, 24
SAD_X 3, 32, 16
SAD_X 3, 32,  8
SAD_X 3, 24, 32
SAD_X 3, 16, 64
SAD_X 3, 16, 32
SAD_X 3, 16, 16
SAD_X 3, 16, 12
SAD_X 3, 16,  8
SAD_X 3, 16,  4
SAD_X 3,  8, 32
SAD_X 3,  8, 16
SAD_X 3,  8,  8
SAD_X 3,  8,  4
%define XMM_REGS 11
SAD_X 4, 64, 64
SAD_X 4, 64, 48
SAD_X 4, 64, 32
SAD_X 4, 64, 16
SAD_X 4, 48, 64
SAD_X 4, 32, 64
SAD_X 4, 32, 32
SAD_X 4, 32, 24
SAD_X 4, 32, 16
SAD_X 4, 32,  8
SAD_X 4, 24, 32
SAD_X 4, 16, 64
SAD_X 4, 16, 32
SAD_X 4, 16, 16
SAD_X 4, 16, 12
SAD_X 4, 16,  8
SAD_X 4, 16,  4
SAD_X 4,  8, 32
SAD_X 4,  8, 16
SAD_X 4,  8,  8
SAD_X 4,  8,  4
INIT_YMM avx2
%define XMM_REGS 7
SAD_X 3, 16, 16
SAD_X 3, 16,  8
%define XMM_REGS 9
SAD_X 4, 16, 16
SAD_X 4, 16,  8
Commit	Line	Data
72b9787e JB	1	;*****************************************************************************
	2	;* sad16-a.asm: x86 high depth sad functions
	3	;*****************************************************************************
	4	;* Copyright (C) 2010-2013 x264 project
	5	;*
	6	;* Authors: Oskar Arvidsson <oskar@irock.se>
	7	;* Henrik Gramner <henrik@gramner.com>
	8	;* Dnyaneshwar Gorade <dnyaneshwar@multicorewareinc.com>
	9	;*
	10	;* This program is free software; you can redistribute it and/or modify
	11	;* it under the terms of the GNU General Public License as published by
	12	;* the Free Software Foundation; either version 2 of the License, or
	13	;* (at your option) any later version.
	14	;*
	15	;* This program is distributed in the hope that it will be useful,
	16	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	17	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
	18	;* GNU General Public License for more details.
	19	;*
	20	;* You should have received a copy of the GNU General Public License
	21	;* along with this program; if not, write to the Free Software
	22	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02111, USA.
	23	;*
	24	;* This program is also available under a commercial proprietary license.
	25	;* For more information, contact us at license @ x265.com.
	26	;*****************************************************************************
	27
	28	%include "x86inc.asm"
	29	%include "x86util.asm"
	30
	31	SECTION .text
	32
	33	cextern pw_1
	34
	35	;=============================================================================
	36	; SAD MMX
	37	;=============================================================================
	38
	39	%macro SAD_INC_1x16P_MMX 0
	40	movu m1, [r0+ 0]
	41	movu m2, [r0+ 8]
	42	movu m3, [r0+16]
	43	movu m4, [r0+24]
	44	psubw m1, [r2+ 0]
	45	psubw m2, [r2+ 8]
	46	psubw m3, [r2+16]
	47	psubw m4, [r2+24]
	48	ABSW2 m1, m2, m1, m2, m5, m6
	49	ABSW2 m3, m4, m3, m4, m7, m5
	50	lea r0, [r0+2*r1]
	51	lea r2, [r2+2*r3]
	52	paddw m1, m2
	53	paddw m3, m4
	54	paddw m0, m1
	55	paddw m0, m3
	56	%endmacro
	57
	58	%macro SAD_INC_2x8P_MMX 0
	59	movu m1, [r0+0]
	60	movu m2, [r0+8]
	61	movu m3, [r0+2*r1+0]
	62	movu m4, [r0+2*r1+8]
	63	psubw m1, [r2+0]
	64	psubw m2, [r2+8]
65	psubw m3, [r2+2*r3+0]
66	psubw m4, [r2+2*r3+8]
67	ABSW2 m1, m2, m1, m2, m5, m6
68	ABSW2 m3, m4, m3, m4, m7, m5
69	lea r0, [r0+4*r1]
70	lea r2, [r2+4*r3]
71	paddw m1, m2
72	paddw m3, m4
73	paddw m0, m1
74	paddw m0, m3
75	%endmacro
76
77	%macro SAD_INC_2x4P_MMX 0
78	movu m1, [r0]
79	movu m2, [r0+2*r1]
80	psubw m1, [r2]
81	psubw m2, [r2+2*r3]
82	ABSW2 m1, m2, m1, m2, m3, m4
83	lea r0, [r0+4*r1]
84	lea r2, [r2+4*r3]
85	paddw m0, m1
86	paddw m0, m2
87	%endmacro
88
89	;-----------------------------------------------------------------------------
90	; int pixel_sad_NxM( uint16_t , intptr_t, uint16_t , intptr_t )
91	;-----------------------------------------------------------------------------
92	%macro SAD_MMX 3
93	cglobal pixel_sad_%1x%2, 4,5-(%2&4/4)
94	pxor m0, m0
95	%if %2 == 4
96	SAD_INC_%3x%1P_MMX
97	SAD_INC_%3x%1P_MMX
98	%else
99	mov r4d, %2/%3
100	.loop:
101	SAD_INC_%3x%1P_MMX
102	dec r4d
103	jg .loop
104	%endif
105	%if %1*%2 == 256
106	HADDUW m0, m1
107	%else
108	HADDW m0, m1
109	%endif
110	movd eax, m0
111	RET
112	%endmacro
113
114	INIT_MMX mmx2
115	SAD_MMX 16, 16, 1
116	SAD_MMX 16, 8, 1
117	SAD_MMX 8, 16, 2
118	SAD_MMX 8, 8, 2
119	SAD_MMX 8, 4, 2
120	SAD_MMX 4, 8, 2
121	SAD_MMX 4, 4, 2
122	SAD_MMX 4, 16, 2
123	INIT_MMX ssse3
124	SAD_MMX 4, 8, 2
125	SAD_MMX 4, 4, 2
126
127	;=============================================================================
128	; SAD XMM
129	;=============================================================================
130
131	%macro SAD_1x32 0
132	movu m1, [r2+ 0]
133	movu m2, [r2+16]
134	movu m3, [r2+32]
135	movu m4, [r2+48]
136	psubw m1, [r0+0]
137	psubw m2, [r0+16]
138	psubw m3, [r0+32]
139	psubw m4, [r0+48]
140	ABSW2 m1, m2, m1, m2, m5, m6
141	pmaddwd m1, [pw_1]
142	pmaddwd m2, [pw_1]
143	lea r0, [r0+2*r1]
144	lea r2, [r2+2*r3]
145	ABSW2 m3, m4, m3, m4, m7, m5
146	pmaddwd m3, [pw_1]
147	pmaddwd m4, [pw_1]
148	paddd m1, m2
149	paddd m3, m4
150	paddd m0, m1
151	paddd m0, m3
152	%endmacro
153
154	%macro SAD_1x24 0
155	movu m1, [r2+ 0]
156	movu m2, [r2+16]
157	movu m3, [r2+32]
158	psubw m1, [r0+0]
159	psubw m2, [r0+16]
160	psubw m3, [r0+32]
161	ABSW2 m1, m2, m1, m2, m4, m6
162	pmaddwd m1, [pw_1]
163	pmaddwd m2, [pw_1]
164	lea r0, [r0+2*r1]
165	lea r2, [r2+2*r3]
166	pxor m4, m4
167	psubw m4, m3
168	pmaxsw m3, m4
169	pmaddwd m3, [pw_1]
170	paddd m1, m2
171	paddd m0, m1
172	paddd m0, m3
173	%endmacro
174
175	%macro SAD_1x48 0
176	movu m1, [r2+ 0]
177	movu m2, [r2+16]
178	movu m3, [r2+32]
179	movu m4, [r2+48]
180	psubw m1, [r0+0]
181	psubw m2, [r0+16]
182	psubw m3, [r0+32]
183	psubw m4, [r0+48]
184	ABSW2 m1, m2, m1, m2, m5, m6
185	pmaddwd m1, [pw_1]
186	pmaddwd m2, [pw_1]
187	ABSW2 m3, m4, m3, m4, m7, m5
188	pmaddwd m3, [pw_1]
189	pmaddwd m4, [pw_1]
190	paddd m1, m2
191	paddd m3, m4
192	paddd m0, m1
193	paddd m0, m3
194	movu m1, [r2+64]
195	movu m2, [r2+80]
196	psubw m1, [r0+64]
197	psubw m2, [r0+80]
198	ABSW2 m1, m2, m1, m2, m3, m4
199	pmaddwd m1, [pw_1]
200	pmaddwd m2, [pw_1]
201	lea r0, [r0+2*r1]
202	lea r2, [r2+2*r3]
203	paddd m0, m1
204	paddd m0, m2
205	%endmacro
206
207	%macro SAD_1x64 0
208	movu m1, [r2+ 0]
209	movu m2, [r2+16]
210	movu m3, [r2+32]
211	movu m4, [r2+48]
212	psubw m1, [r0+0]
213	psubw m2, [r0+16]
214	psubw m3, [r0+32]
215	psubw m4, [r0+48]
216	ABSW2 m1, m2, m1, m2, m5, m6
217	pmaddwd m1, [pw_1]
218	pmaddwd m2, [pw_1]
219	ABSW2 m3, m4, m3, m4, m7, m5
220	pmaddwd m3, [pw_1]
221	pmaddwd m4, [pw_1]
222	paddd m1, m2
223	paddd m3, m4
224	paddd m0, m1
225	paddd m0, m3
226	movu m1, [r2+64]
227	movu m2, [r2+80]
228	movu m3, [r2+96]
229	movu m4, [r2+112]
230	psubw m1, [r0+64]
231	psubw m2, [r0+80]
232	psubw m3, [r0+96]
233	psubw m4, [r0+112]
234	ABSW2 m1, m2, m1, m2, m5, m6
235	pmaddwd m1, [pw_1]
236	pmaddwd m2, [pw_1]
237	ABSW2 m3, m4, m3, m4, m7, m5
238	pmaddwd m3, [pw_1]
239	pmaddwd m4, [pw_1]
240	paddd m1, m2
241	paddd m3, m4
242	paddd m0, m1
243	paddd m0, m3
244	lea r0, [r0+2*r1]
245	lea r2, [r2+2*r3]
246	%endmacro
247
248	%macro SAD_1x12 0
249	movu m1, [r2+0]
250	movh m2, [r2+16]
251	psubw m1, [r0+0]
252	movh m3, [r0+16]
253	psubw m2, m3
254	ABSW2 m1, m2, m1, m2, m4, m6
255	pmaddwd m1, [pw_1]
256	pmaddwd m2, [pw_1]
257	lea r0, [r0+2*r1]
258	lea r2, [r2+2*r3]
259	paddd m1, m2
260	paddd m0, m1
261	%endmacro
262
263	%macro SAD_INC_2ROW 1
264	%if 2*%1 > mmsize
265	movu m1, [r2+ 0]
266	movu m2, [r2+16]
267	movu m3, [r2+2*r3+ 0]
268	movu m4, [r2+2*r3+16]
269	psubw m1, [r0+ 0]
270	psubw m2, [r0+16]
271	psubw m3, [r0+2*r1+ 0]
272	psubw m4, [r0+2*r1+16]
273	ABSW2 m1, m2, m1, m2, m5, m6
274	lea r0, [r0+4*r1]
275	lea r2, [r2+4*r3]
276	ABSW2 m3, m4, m3, m4, m7, m5
277	paddw m1, m2
278	paddw m3, m4
279	paddw m3, m1
280	pmaddwd m3, [pw_1]
281	paddd m0, m3
282	%else
283	movu m1, [r2]
284	movu m2, [r2+2*r3]
285	psubw m1, [r0]
286	psubw m2, [r0+2*r1]
287	ABSW2 m1, m2, m1, m2, m3, m4
288	lea r0, [r0+4*r1]
289	lea r2, [r2+4*r3]
290	paddw m2, m1
291	pmaddwd m2, [pw_1]
292	paddd m0, m2
293	%endif
294	%endmacro
295
296	;-----------------------------------------------------------------------------
297	; int pixel_sad_NxM( uint16_t , intptr_t, uint16_t , intptr_t )
298	;-----------------------------------------------------------------------------
299	%macro SAD 2
300	cglobal pixel_sad_%1x%2, 4,5-(%2&4/4),8*(%1/mmsize)
301	pxor m0, m0
302	%if %2 == 4
303	SAD_INC_2ROW %1
304	SAD_INC_2ROW %1
305	%else
306	mov r4d, %2/2
307	.loop:
308	SAD_INC_2ROW %1
309	dec r4d
310	jg .loop
311	%endif
312
313	HADDD m0, m1
314	movd eax, xm0
315	RET
316	%endmacro
317
318	INIT_XMM sse2
319	SAD 16, 4
320	SAD 16, 8
321	SAD 16, 12
322	SAD 16, 16
323	SAD 16, 32
324	SAD 16, 64
325
326	INIT_XMM sse2
327	SAD 8, 4
328	SAD 8, 8
329	SAD 8, 16
330	SAD 8, 32
331
332	;------------------------------------------------------------------
333	; int pixel_sad_32xN( uint16_t , intptr_t, uint16_t , intptr_t )
334	;------------------------------------------------------------------
335	%macro SAD_32 2
336	cglobal pixel_sad_%1x%2, 4,5,8
337	pxor m0, m0
338	mov r4d, %2/4
339	.loop:
340	SAD_1x32
341	SAD_1x32
342	SAD_1x32
343	SAD_1x32
344	dec r4d
345	jnz .loop
346
347	HADDD m0, m1
348	movd eax, xm0
349	RET
350	%endmacro
351
352	INIT_XMM sse2
353	SAD_32 32, 8
354	SAD_32 32, 16
355	SAD_32 32, 24
356	SAD_32 32, 32
357	SAD_32 32, 64
358
359	;------------------------------------------------------------------
360	; int pixel_sad_64xN( uint16_t , intptr_t, uint16_t , intptr_t )
361	;------------------------------------------------------------------
362	%macro SAD_64 2
363	cglobal pixel_sad_%1x%2, 4,5,8
364	pxor m0, m0
365	mov r4d, %2/4
366	.loop:
367	SAD_1x64
368	SAD_1x64
369	SAD_1x64
370	SAD_1x64
371	dec r4d
372	jnz .loop
373
374	HADDD m0, m1
375	movd eax, xmm0
376	RET
377	%endmacro
378
379	INIT_XMM sse2
380	SAD_64 64, 16
381	SAD_64 64, 32
382	SAD_64 64, 48
383	SAD_64 64, 64
384
385	;------------------------------------------------------------------
386	; int pixel_sad_48xN( uint16_t , intptr_t, uint16_t , intptr_t )
387	;------------------------------------------------------------------
388	%macro SAD_48 2
389	cglobal pixel_sad_%1x%2, 4,5,8
390	pxor m0, m0
391	mov r4d, %2/4
392	.loop:
393	SAD_1x48
394	SAD_1x48
395	SAD_1x48
396	SAD_1x48
397	dec r4d
398	jnz .loop
399
400	HADDD m0, m1
401	movd eax, xmm0
402	RET
403	%endmacro
404
405	INIT_XMM sse2
406	SAD_48 48, 64
407
408	;------------------------------------------------------------------
409	; int pixel_sad_24xN( uint16_t , intptr_t, uint16_t , intptr_t )
410	;------------------------------------------------------------------
411	%macro SAD_24 2
412	cglobal pixel_sad_%1x%2, 4,5,8
413	pxor m0, m0
414	mov r4d, %2/4
415	.loop:
416	SAD_1x24
417	SAD_1x24
418	SAD_1x24
419	SAD_1x24
420	dec r4d
421	jnz .loop
422
423	HADDD m0, m1
424	movd eax, xmm0
425	RET
426	%endmacro
427
428	INIT_XMM sse2
429	SAD_24 24, 32
430
431	;------------------------------------------------------------------
432	; int pixel_sad_12xN( uint16_t , intptr_t, uint16_t , intptr_t )
433	;------------------------------------------------------------------
434	%macro SAD_12 2
435	cglobal pixel_sad_%1x%2, 4,5,8
436	pxor m0, m0
437	mov r4d, %2/4
438	.loop:
439	SAD_1x12
440	SAD_1x12
441	SAD_1x12
442	SAD_1x12
443	dec r4d
444	jnz .loop
445
446	HADDD m0, m1
447	movd eax, xmm0
448	RET
449	%endmacro
450
451	INIT_XMM sse2
452	SAD_12 12, 16
453
454
455	;=============================================================================
456	; SAD x3/x4
457	;=============================================================================
458
459	%macro SAD_X3_INC_P 0
460	add r0, 4*FENC_STRIDE
461	lea r1, [r1+4*r4]
462	lea r2, [r2+4*r4]
463	lea r3, [r3+4*r4]
464	%endmacro
465
466	%macro SAD_X3_ONE_START 0
467	mova m3, [r0]
468	movu m0, [r1]
469	movu m1, [r2]
470	movu m2, [r3]
471	psubw m0, m3
472	psubw m1, m3
473	psubw m2, m3
474	ABSW2 m0, m1, m0, m1, m4, m5
475	ABSW m2, m2, m6
476	pmaddwd m0, [pw_1]
477	pmaddwd m1, [pw_1]
478	pmaddwd m2, [pw_1]
479	%endmacro
480
481	%macro SAD_X3_ONE 2
482	mova m6, [r0+%1]
483	movu m3, [r1+%2]
484	movu m4, [r2+%2]
485	movu m5, [r3+%2]
486	psubw m3, m6
487	psubw m4, m6
488	psubw m5, m6
489	ABSW2 m3, m4, m3, m4, m7, m6
490	ABSW m5, m5, m6
491	pmaddwd m3, [pw_1]
492	pmaddwd m4, [pw_1]
493	pmaddwd m5, [pw_1]
494	paddd m0, m3
495	paddd m1, m4
496	paddd m2, m5
497	%endmacro
498
499	%macro SAD_X3_END 2
500	%if mmsize == 8 && %1*%2 == 256
501	HADDUW m0, m3
502	HADDUW m1, m4
503	HADDUW m2, m5
504	%else
505	HADDD m0, m3
506	HADDD m1, m4
507	HADDD m2, m5
508	%endif
509	%if UNIX64
510	movd [r5+0], xm0
511	movd [r5+4], xm1
512	movd [r5+8], xm2
513	%else
514	mov r0, r5mp
515	movd [r0+0], xm0
516	movd [r0+4], xm1
517	movd [r0+8], xm2
518	%endif
519	RET
520	%endmacro
521
522	%macro SAD_X4_INC_P 0
523	add r0, 4*FENC_STRIDE
524	lea r1, [r1+4*r5]
525	lea r2, [r2+4*r5]
526	lea r3, [r3+4*r5]
527	lea r4, [r4+4*r5]
528	%endmacro
529
530	%macro SAD_X4_ONE_START 0
531	mova m4, [r0]
532	movu m0, [r1]
533	movu m1, [r2]
534	movu m2, [r3]
535	movu m3, [r4]
536	psubw m0, m4
537	psubw m1, m4
538	psubw m2, m4
539	psubw m3, m4
540	ABSW2 m0, m1, m0, m1, m5, m6
541	ABSW2 m2, m3, m2, m3, m4, m7
542	pmaddwd m0, [pw_1]
543	pmaddwd m1, [pw_1]
544	pmaddwd m2, [pw_1]
545	pmaddwd m3, [pw_1]
546	%endmacro
547
548	%macro SAD_X4_ONE 2
549	mova m4, [r0+%1]
550	movu m5, [r1+%2]
551	movu m6, [r2+%2]
552	%if num_mmregs > 8
553	movu m7, [r3+%2]
554	movu m8, [r4+%2]
555	psubw m5, m4
556	psubw m6, m4
557	psubw m7, m4
558	psubw m8, m4
559	ABSW2 m5, m6, m5, m6, m9, m10
560	ABSW2 m7, m8, m7, m8, m9, m10
561	pmaddwd m5, [pw_1]
562	pmaddwd m6, [pw_1]
563	pmaddwd m7, [pw_1]
564	pmaddwd m8, [pw_1]
565	paddd m0, m5
566	paddd m1, m6
567	paddd m2, m7
568	paddd m3, m8
569	%elif cpuflag(ssse3)
570	movu m7, [r3+%2]
571	psubw m5, m4
572	psubw m6, m4
573	psubw m7, m4
574	movu m4, [r4+%2]
575	pabsw m5, m5
576	psubw m4, [r0+%1]
577	pabsw m6, m6
578	pabsw m7, m7
579	pabsw m4, m4
580	pmaddwd m5, [pw_1]
581	pmaddwd m6, [pw_1]
582	pmaddwd m7, [pw_1]
583	pmaddwd m4, [pw_1]
584	paddd m0, m5
585	paddd m1, m6
586	paddd m2, m7
587	paddd m3, m4
588	%else ; num_mmregs == 8 && !ssse3
589	psubw m5, m4
590	psubw m6, m4
591	ABSW m5, m5, m7
592	ABSW m6, m6, m7
593	pmaddwd m5, [pw_1]
594	pmaddwd m6, [pw_1]
595	paddd m0, m5
596	paddd m1, m6
597	movu m5, [r3+%2]
598	movu m6, [r4+%2]
599	psubw m5, m4
600	psubw m6, m4
601	ABSW2 m5, m6, m5, m6, m7, m4
602	pmaddwd m5, [pw_1]
603	pmaddwd m6, [pw_1]
604	paddd m2, m5
605	paddd m3, m6
606	%endif
607	%endmacro
608
609	%macro SAD_X4_END 2
610	%if mmsize == 8 && %1*%2 == 256
611	HADDUW m0, m4
612	HADDUW m1, m5
613	HADDUW m2, m6
614	HADDUW m3, m7
615	%else
616	HADDD m0, m4
617	HADDD m1, m5
618	HADDD m2, m6
619	HADDD m3, m7
620	%endif
621	mov r0, r6mp
622	movd [r0+ 0], xm0
623	movd [r0+ 4], xm1
624	movd [r0+ 8], xm2
625	movd [r0+12], xm3
626	RET
627	%endmacro
628
629	%macro SAD_X_2xNP 4
630	%assign x %3
631	%rep %4
632	SAD_X%1_ONE xmmsize, xmmsize
633	SAD_X%1_ONE 2FENC_STRIDE+xmmsize, 2%2+xmmsize
634	%assign x x+1
635	%endrep
636	%endmacro
637
638	%macro PIXEL_VSAD 0
639	cglobal pixel_vsad, 3,3,8
640	mova m0, [r0]
641	mova m1, [r0+16]
642	mova m2, [r0+2*r1]
643	mova m3, [r0+2*r1+16]
644	lea r0, [r0+4*r1]
645	psubw m0, m2
646	psubw m1, m3
647	ABSW2 m0, m1, m0, m1, m4, m5
648	paddw m0, m1
649	sub r2d, 2
650	je .end
651	.loop:
652	mova m4, [r0]
653	mova m5, [r0+16]
654	mova m6, [r0+2*r1]
655	mova m7, [r0+2*r1+16]
656	lea r0, [r0+4*r1]
657	psubw m2, m4
658	psubw m3, m5
659	psubw m4, m6
660	psubw m5, m7
661	ABSW m2, m2, m1
662	ABSW m3, m3, m1
663	ABSW m4, m4, m1
664	ABSW m5, m5, m1
665	paddw m0, m2
666	paddw m0, m3
667	paddw m0, m4
668	paddw m0, m5
669	mova m2, m6
670	mova m3, m7
671	sub r2d, 2
672	jg .loop
673	.end:
674	%if BIT_DEPTH == 9
675	HADDW m0, m1 ; max sum: 62(pixel diffs)*511(pixel_max)=31682
676	%else
677	HADDUW m0, m1 ; max sum: 62(pixel diffs)*1023(pixel_max)=63426
678	%endif
679	movd eax, m0
680	RET
681	%endmacro
682	INIT_XMM sse2
683	PIXEL_VSAD
684	INIT_XMM ssse3
685	PIXEL_VSAD
686	INIT_XMM xop
687	PIXEL_VSAD
688
689	INIT_YMM avx2
690	cglobal pixel_vsad, 3,3
691	mova m0, [r0]
692	mova m1, [r0+2*r1]
693	lea r0, [r0+4*r1]
694	psubw m0, m1
695	pabsw m0, m0
696	sub r2d, 2
697	je .end
698	.loop:
699	mova m2, [r0]
700	mova m3, [r0+2*r1]
701	lea r0, [r0+4*r1]
702	psubw m1, m2
703	psubw m2, m3
704	pabsw m1, m1
705	pabsw m2, m2
706	paddw m0, m1
707	paddw m0, m2
708	mova m1, m3
709	sub r2d, 2
710	jg .loop
711	.end:
712	%if BIT_DEPTH == 9
713	HADDW m0, m1
714	%else
715	HADDUW m0, m1
716	%endif
717	movd eax, xm0
718	RET
719
720	;-----------------------------------------------------------------------------
721	; void pixel_sad_xN_WxH( uint16_t fenc, uint16_t pix0, uint16_t *pix1,
722	; uint16_t *pix2, intptr_t i_stride, int scores[3] )
723	;-----------------------------------------------------------------------------
724	%macro SAD_X 3
725	cglobal pixel_sad_x%1_%2x%3, 6,7,XMM_REGS
726	%assign regnum %1+1
727	%xdefine STRIDE r %+ regnum
728	mov r6, %3/2-1
729	SAD_X%1_ONE_START
730	SAD_X%1_ONE 2FENC_STRIDE, 2STRIDE
731	SAD_X_2xNP %1, STRIDE, 1, %2/(mmsize/2)-1
732	.loop:
733	SAD_X%1_INC_P
734	SAD_X_2xNP %1, STRIDE, 0, %2/(mmsize/2)
735	dec r6
736	jg .loop
737	%if %1 == 4
738	mov r6, r6m
739	%endif
740	SAD_X%1_END %2, %3
741	%endmacro
742
743	INIT_MMX mmx2
744	%define XMM_REGS 0
745	SAD_X 3, 16, 16
746	SAD_X 3, 16, 8
747	SAD_X 3, 12, 16
748	SAD_X 3, 8, 16
749	SAD_X 3, 8, 8
750	SAD_X 3, 8, 4
751	SAD_X 3, 4, 16
752	SAD_X 3, 4, 8
753	SAD_X 3, 4, 4
754	SAD_X 4, 16, 16
755	SAD_X 4, 16, 8
756	SAD_X 4, 12, 16
757	SAD_X 4, 8, 16
758	SAD_X 4, 8, 8
759	SAD_X 4, 8, 4
760	SAD_X 4, 4, 16
761	SAD_X 4, 4, 8
762	SAD_X 4, 4, 4
763	INIT_MMX ssse3
764	SAD_X 3, 4, 8
765	SAD_X 3, 4, 4
766	SAD_X 4, 4, 8
767	SAD_X 4, 4, 4
768	INIT_XMM ssse3
769	%define XMM_REGS 7
770	SAD_X 3, 16, 16
771	SAD_X 3, 16, 8
772	SAD_X 3, 8, 16
773	SAD_X 3, 8, 8
774	SAD_X 3, 8, 4
775	%define XMM_REGS 9
776	SAD_X 4, 16, 16
777	SAD_X 4, 16, 8
778	SAD_X 4, 8, 16
779	SAD_X 4, 8, 8
780	SAD_X 4, 8, 4
781	INIT_XMM sse2
782	%define XMM_REGS 8
783	SAD_X 3, 64, 64
784	SAD_X 3, 64, 48
785	SAD_X 3, 64, 32
786	SAD_X 3, 64, 16
787	SAD_X 3, 48, 64
788	SAD_X 3, 32, 64
789	SAD_X 3, 32, 32
790	SAD_X 3, 32, 24
791	SAD_X 3, 32, 16
792	SAD_X 3, 32, 8
793	SAD_X 3, 24, 32
794	SAD_X 3, 16, 64
795	SAD_X 3, 16, 32
796	SAD_X 3, 16, 16
797	SAD_X 3, 16, 12
798	SAD_X 3, 16, 8
799	SAD_X 3, 16, 4
800	SAD_X 3, 8, 32
801	SAD_X 3, 8, 16
802	SAD_X 3, 8, 8
803	SAD_X 3, 8, 4
804	%define XMM_REGS 11
805	SAD_X 4, 64, 64
806	SAD_X 4, 64, 48
807	SAD_X 4, 64, 32
808	SAD_X 4, 64, 16
809	SAD_X 4, 48, 64
810	SAD_X 4, 32, 64
811	SAD_X 4, 32, 32
812	SAD_X 4, 32, 24
813	SAD_X 4, 32, 16
814	SAD_X 4, 32, 8
815	SAD_X 4, 24, 32
816	SAD_X 4, 16, 64
817	SAD_X 4, 16, 32
818	SAD_X 4, 16, 16
819	SAD_X 4, 16, 12
820	SAD_X 4, 16, 8
821	SAD_X 4, 16, 4
822	SAD_X 4, 8, 32
823	SAD_X 4, 8, 16
824	SAD_X 4, 8, 8
825	SAD_X 4, 8, 4
826	INIT_YMM avx2
827	%define XMM_REGS 7
828	SAD_X 3, 16, 16
829	SAD_X 3, 16, 8
830	%define XMM_REGS 9
831	SAD_X 4, 16, 16
832	SAD_X 4, 16, 8
833