[deb_ffmpeg.git] / ffmpeg / libavcodec / x86 / h264_qpel_10bit.asm

;*****************************************************************************
;* MMX/SSE2/AVX-optimized 10-bit H.264 qpel code
;*****************************************************************************
;* Copyright (C) 2011 x264 project
;*
;* Authors: Daniel Kang <daniel.d.kang@gmail.com>
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "libavutil/x86/x86util.asm"

SECTION_RODATA 32

cextern pw_16
cextern pw_1
pb_0: times 32 db 0 ; we do not use cextern here as old llvm-gcc fails to align it correctly

pw_pixel_max: times 8 dw ((1 << 10)-1)

pad10: times 8 dw 10*1023
pad20: times 8 dw 20*1023
pad30: times 8 dw 30*1023
depad: times 4 dd 32*20*1023 + 512
depad2: times 8 dw 20*1023 + 16*1022 + 16
unpad: times 8 dw 16*1022/32 ; needs to be mod 16

tap1: times 4 dw  1, -5
tap2: times 4 dw 20, 20
tap3: times 4 dw -5,  1
pd_0f: times 4 dd 0xffff

SECTION .text


%macro AVG_MOV 2
    pavgw %2, %1
    mova  %1, %2
%endmacro

%macro ADDW 3
%if mmsize == 8
    paddw %1, %2
%else
    movu  %3, %2
    paddw %1, %3
%endif
%endmacro

%macro FILT_H 4
    paddw  %1, %4
    psubw  %1, %2  ; a-b
    psraw  %1, 2   ; (a-b)/4
    psubw  %1, %2  ; (a-b)/4-b
    paddw  %1, %3  ; (a-b)/4-b+c
    psraw  %1, 2   ; ((a-b)/4-b+c)/4
    paddw  %1, %3  ; ((a-b)/4-b+c)/4+c = (a-5*b+20*c)/16
%endmacro

%macro PRELOAD_V 0
    lea      r3, [r2*3]
    sub      r1, r3
    movu     m0, [r1+r2]
    movu     m1, [r1+r2*2]
    add      r1, r3
    movu     m2, [r1]
    movu     m3, [r1+r2]
    movu     m4, [r1+r2*2]
    add      r1, r3
%endmacro

%macro FILT_V 8
    movu     %6, [r1]
    paddw    %1, %6
    mova     %7, %2
    paddw    %7, %5
    mova     %8, %3
    paddw    %8, %4
    FILT_H   %1, %7, %8, [pw_16]
    psraw    %1, 1
    CLIPW    %1, [pb_0], [pw_pixel_max]
%endmacro

%macro MC 1
%define OP_MOV mova
INIT_MMX mmxext
%1 put, 4
INIT_XMM sse2
%1 put, 8

%define OP_MOV AVG_MOV
INIT_MMX mmxext
%1 avg, 4
INIT_XMM sse2
%1 avg, 8
%endmacro

%macro MCAxA_OP 7
%if ARCH_X86_32
cglobal %1_h264_qpel%4_%2_10, %5,%6,%7
    call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
    mov  r0, r0m
    mov  r1, r1m
    add  r0, %3*2
    add  r1, %3*2
    call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
    mov  r0, r0m
    mov  r1, r1m
    lea  r0, [r0+r2*%3]
    lea  r1, [r1+r2*%3]
    call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
    mov  r0, r0m
    mov  r1, r1m
    lea  r0, [r0+r2*%3+%3*2]
    lea  r1, [r1+r2*%3+%3*2]
    call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
    RET
%else ; ARCH_X86_64
cglobal %1_h264_qpel%4_%2_10, %5,%6 + 2,%7
    mov r%6, r0
%assign p1 %6+1
    mov r %+ p1, r1
    call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
    lea  r0, [r%6+%3*2]
    lea  r1, [r %+ p1+%3*2]
    call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
    lea  r0, [r%6+r2*%3]
    lea  r1, [r %+ p1+r2*%3]
    call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
    lea  r0, [r%6+r2*%3+%3*2]
    lea  r1, [r %+ p1+r2*%3+%3*2]
%if UNIX64 == 0 ; fall through to function
    call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
    RET
%endif
%endif
%endmacro

;cpu, put/avg, mc, 4/8, ...
%macro cglobal_mc 6
%assign i %3*2
%if ARCH_X86_32 || cpuflag(sse2)
MCAxA_OP %1, %2, %3, i, %4,%5,%6
%endif

cglobal %1_h264_qpel%3_%2_10, %4,%5,%6
%if UNIX64 == 0 ; no prologue or epilogue for UNIX64
    call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
    RET
%endif

stub_%1_h264_qpel%3_%2_10 %+ SUFFIX:
%endmacro

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc00(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro COPY4 0
    movu          m0, [r1     ]
    OP_MOV [r0     ], m0
    movu          m0, [r1+r2  ]
    OP_MOV [r0+r2  ], m0
    movu          m0, [r1+r2*2]
    OP_MOV [r0+r2*2], m0
    movu          m0, [r1+r3  ]
    OP_MOV [r0+r3  ], m0
%endmacro

%macro MC00 1
INIT_MMX mmxext
cglobal_mc %1, mc00, 4, 3,4,0
    lea           r3, [r2*3]
    COPY4
    ret

INIT_XMM sse2
cglobal %1_h264_qpel8_mc00_10, 3,4
    lea  r3, [r2*3]
    COPY4
    lea  r0, [r0+r2*4]
    lea  r1, [r1+r2*4]
    COPY4
    RET

cglobal %1_h264_qpel16_mc00_10, 3,4
    mov r3d, 8
.loop:
    movu           m0, [r1      ]
    movu           m1, [r1   +16]
    OP_MOV [r0      ], m0
    OP_MOV [r0   +16], m1
    movu           m0, [r1+r2   ]
    movu           m1, [r1+r2+16]
    OP_MOV [r0+r2   ], m0
    OP_MOV [r0+r2+16], m1
    lea            r0, [r0+r2*2]
    lea            r1, [r1+r2*2]
    dec r3d
    jg .loop
    REP_RET
%endmacro

%define OP_MOV mova
MC00 put

%define OP_MOV AVG_MOV
MC00 avg

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc20(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC_CACHE 1
%define OP_MOV mova
INIT_MMX mmxext
%1 put, 4
INIT_XMM sse2, cache64
%1 put, 8
INIT_XMM ssse3, cache64
%1 put, 8
INIT_XMM sse2
%1 put, 8

%define OP_MOV AVG_MOV
INIT_MMX mmxext
%1 avg, 4
INIT_XMM sse2, cache64
%1 avg, 8
INIT_XMM ssse3, cache64
%1 avg, 8
INIT_XMM sse2
%1 avg, 8
%endmacro

%macro MC20 2
cglobal_mc %1, mc20, %2, 3,4,9
    mov     r3d, %2
    mova     m1, [pw_pixel_max]
%if num_mmregs > 8
    mova     m8, [pw_16]
    %define p16 m8
%else
    %define p16 [pw_16]
%endif
.nextrow:
%if %0 == 4
    movu     m2, [r1-4]
    movu     m3, [r1-2]
    movu     m4, [r1+0]
    ADDW     m2, [r1+6], m5
    ADDW     m3, [r1+4], m5
    ADDW     m4, [r1+2], m5
%else ; movu is slow on these processors
%if mmsize==16
    movu     m2, [r1-4]
    movu     m0, [r1+6]
    mova     m6, m0
    psrldq   m0, 6

    paddw    m6, m2
    PALIGNR  m3, m0, m2, 2, m5
    PALIGNR  m7, m0, m2, 8, m5
    paddw    m3, m7
    PALIGNR  m4, m0, m2, 4, m5
    PALIGNR  m7, m0, m2, 6, m5
    paddw    m4, m7
    SWAP      2, 6
%else
    movu     m2, [r1-4]
    movu     m6, [r1+4]
    PALIGNR  m3, m6, m2, 2, m5
    paddw    m3, m6
    PALIGNR  m4, m6, m2, 4, m5
    PALIGNR  m7, m6, m2, 6, m5
    paddw    m4, m7
    paddw    m2, [r1+6]
%endif
%endif

    FILT_H   m2, m3, m4, p16
    psraw    m2, 1
    pxor     m0, m0
    CLIPW    m2, m0, m1
    OP_MOV [r0], m2
    add      r0, r2
    add      r1, r2
    dec     r3d
    jg .nextrow
    rep ret
%endmacro

MC_CACHE MC20

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc30(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC30 2
cglobal_mc %1, mc30, %2, 3,5,9
    lea r4, [r1+2]
    jmp stub_%1_h264_qpel%2_mc10_10 %+ SUFFIX %+ .body
%endmacro

MC_CACHE MC30

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc10(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC10 2
cglobal_mc %1, mc10, %2, 3,5,9
    mov      r4, r1
.body:
    mov     r3d, %2
    mova     m1, [pw_pixel_max]
%if num_mmregs > 8
    mova     m8, [pw_16]
    %define p16 m8
%else
    %define p16 [pw_16]
%endif
.nextrow:
%if %0 == 4
    movu     m2, [r1-4]
    movu     m3, [r1-2]
    movu     m4, [r1+0]
    ADDW     m2, [r1+6], m5
    ADDW     m3, [r1+4], m5
    ADDW     m4, [r1+2], m5
%else ; movu is slow on these processors
%if mmsize==16
    movu     m2, [r1-4]
    movu     m0, [r1+6]
    mova     m6, m0
    psrldq   m0, 6

    paddw    m6, m2
    PALIGNR  m3, m0, m2, 2, m5
    PALIGNR  m7, m0, m2, 8, m5
    paddw    m3, m7
    PALIGNR  m4, m0, m2, 4, m5
    PALIGNR  m7, m0, m2, 6, m5
    paddw    m4, m7
    SWAP      2, 6
%else
    movu     m2, [r1-4]
    movu     m6, [r1+4]
    PALIGNR  m3, m6, m2, 2, m5
    paddw    m3, m6
    PALIGNR  m4, m6, m2, 4, m5
    PALIGNR  m7, m6, m2, 6, m5
    paddw    m4, m7
    paddw    m2, [r1+6]
%endif
%endif

    FILT_H   m2, m3, m4, p16
    psraw    m2, 1
    pxor     m0, m0
    CLIPW    m2, m0, m1
    movu     m3, [r4]
    pavgw    m2, m3
    OP_MOV [r0], m2
    add      r0, r2
    add      r1, r2
    add      r4, r2
    dec     r3d
    jg .nextrow
    rep ret
%endmacro

MC_CACHE MC10

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc02(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro V_FILT 10
v_filt%9_%10_10
    add    r4, r2
.no_addr4:
    FILT_V m0, m1, m2, m3, m4, m5, m6, m7
    add    r1, r2
    add    r0, r2
    ret
%endmacro

INIT_MMX mmxext
RESET_MM_PERMUTATION
%assign i 0
%rep 4
V_FILT m0, m1, m2, m3, m4, m5, m6, m7, 4, i
SWAP 0,1,2,3,4,5
%assign i i+1
%endrep

INIT_XMM sse2
RESET_MM_PERMUTATION
%assign i 0
%rep 6
V_FILT m0, m1, m2, m3, m4, m5, m6, m7, 8, i
SWAP 0,1,2,3,4,5
%assign i i+1
%endrep

%macro MC02 2
cglobal_mc %1, mc02, %2, 3,4,8
    PRELOAD_V

    sub      r0, r2
%assign j 0
%rep %2
    %assign i (j % 6)
    call v_filt%2_ %+ i %+ _10.no_addr4
    OP_MOV [r0], m0
    SWAP 0,1,2,3,4,5
    %assign j j+1
%endrep
    ret
%endmacro

MC MC02

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc01(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC01 2
cglobal_mc %1, mc01, %2, 3,5,8
    mov      r4, r1
.body:
    PRELOAD_V

    sub      r4, r2
    sub      r0, r2
%assign j 0
%rep %2
    %assign i (j % 6)
    call v_filt%2_ %+ i %+ _10
    movu     m7, [r4]
    pavgw    m0, m7
    OP_MOV [r0], m0
    SWAP 0,1,2,3,4,5
    %assign j j+1
%endrep
    ret
%endmacro

MC MC01

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc03(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC03 2
cglobal_mc %1, mc03, %2, 3,5,8
    lea r4, [r1+r2]
    jmp stub_%1_h264_qpel%2_mc01_10 %+ SUFFIX %+ .body
%endmacro

MC MC03

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc11(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro H_FILT_AVG 2-3
h_filt%1_%2_10:
;FILT_H with fewer registers and averaged with the FILT_V result
;m6,m7 are tmp registers, m0 is the FILT_V result, the rest are to be used next in the next iteration
;unfortunately I need three registers, so m5 will have to be re-read from memory
    movu     m5, [r4-4]
    ADDW     m5, [r4+6], m7
    movu     m6, [r4-2]
    ADDW     m6, [r4+4], m7
    paddw    m5, [pw_16]
    psubw    m5, m6  ; a-b
    psraw    m5, 2   ; (a-b)/4
    psubw    m5, m6  ; (a-b)/4-b
    movu     m6, [r4+0]
    ADDW     m6, [r4+2], m7
    paddw    m5, m6  ; (a-b)/4-b+c
    psraw    m5, 2   ; ((a-b)/4-b+c)/4
    paddw    m5, m6  ; ((a-b)/4-b+c)/4+c = (a-5*b+20*c)/16
    psraw    m5, 1
    CLIPW    m5, [pb_0], [pw_pixel_max]
;avg FILT_V, FILT_H
    pavgw    m0, m5
%if %0!=4
    movu     m5, [r1+r5]
%endif
    ret
%endmacro

INIT_MMX mmxext
RESET_MM_PERMUTATION
%assign i 0
%rep 3
H_FILT_AVG 4, i
SWAP 0,1,2,3,4,5
%assign i i+1
%endrep
H_FILT_AVG 4, i, 0

INIT_XMM sse2
RESET_MM_PERMUTATION
%assign i 0
%rep 6
%if i==1
H_FILT_AVG 8, i, 0
%else
H_FILT_AVG 8, i
%endif
SWAP 0,1,2,3,4,5
%assign i i+1
%endrep

%macro MC11 2
; this REALLY needs x86_64
cglobal_mc %1, mc11, %2, 3,6,8
    mov      r4, r1
.body:
    PRELOAD_V

    sub      r0, r2
    sub      r4, r2
    mov      r5, r2
    neg      r5
%assign j 0
%rep %2
    %assign i (j % 6)
    call v_filt%2_ %+ i %+ _10
    call h_filt%2_ %+ i %+ _10
%if %2==8 && i==1
    movu     m5, [r1+r5]
%endif
    OP_MOV [r0], m0
    SWAP 0,1,2,3,4,5
    %assign j j+1
%endrep
    ret
%endmacro

MC MC11

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc31(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC31 2
cglobal_mc %1, mc31, %2, 3,6,8
    mov r4, r1
    add r1, 2
    jmp stub_%1_h264_qpel%2_mc11_10 %+ SUFFIX %+ .body
%endmacro

MC MC31

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc13(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC13 2
cglobal_mc %1, mc13, %2, 3,7,12
    lea r4, [r1+r2]
    jmp stub_%1_h264_qpel%2_mc11_10 %+ SUFFIX %+ .body
%endmacro

MC MC13

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc33(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC33 2
cglobal_mc %1, mc33, %2, 3,6,8
    lea r4, [r1+r2]
    add r1, 2
    jmp stub_%1_h264_qpel%2_mc11_10 %+ SUFFIX %+ .body
%endmacro

MC MC33

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc22(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro FILT_H2 3
    psubw  %1, %2  ; a-b
    psubw  %2, %3  ; b-c
    psllw  %2, 2
    psubw  %1, %2  ; a-5*b+4*c
    psllw  %3, 4
    paddw  %1, %3  ; a-5*b+20*c
%endmacro

%macro FILT_VNRD 8
    movu     %6, [r1]
    paddw    %1, %6
    mova     %7, %2
    paddw    %7, %5
    mova     %8, %3
    paddw    %8, %4
    FILT_H2  %1, %7, %8
%endmacro

%macro HV 1
%if mmsize==16
%define PAD 12
%define COUNT 2
%else
%define PAD 4
%define COUNT 3
%endif
put_hv%1_10:
    neg      r2           ; This actually saves instructions
    lea      r1, [r1+r2*2-mmsize+PAD]
    lea      r4, [rsp+PAD+gprsize]
    mov     r3d, COUNT
.v_loop:
    movu     m0, [r1]
    sub      r1, r2
    movu     m1, [r1]
    sub      r1, r2
    movu     m2, [r1]
    sub      r1, r2
    movu     m3, [r1]
    sub      r1, r2
    movu     m4, [r1]
    sub      r1, r2
%assign i 0
%rep %1-1
    FILT_VNRD m0, m1, m2, m3, m4, m5, m6, m7
    psubw    m0, [pad20]
    movu     [r4+i*mmsize*3], m0
    sub      r1, r2
    SWAP 0,1,2,3,4,5
%assign i i+1
%endrep
    FILT_VNRD m0, m1, m2, m3, m4, m5, m6, m7
    psubw    m0, [pad20]
    movu     [r4+i*mmsize*3], m0
    add      r4, mmsize
    lea      r1, [r1+r2*8+mmsize]
%if %1==8
    lea      r1, [r1+r2*4]
%endif
    dec      r3d
    jg .v_loop
    neg      r2
    ret
%endmacro

INIT_MMX mmxext
HV 4
INIT_XMM sse2
HV 8

%macro H_LOOP 1
%if num_mmregs > 8
    %define s1 m8
    %define s2 m9
    %define s3 m10
    %define d1 m11
%else
    %define s1 [tap1]
    %define s2 [tap2]
    %define s3 [tap3]
    %define d1 [depad]
%endif
h%1_loop_op:
    movu       m1, [r1+mmsize-4]
    movu       m2, [r1+mmsize-2]
    mova       m3, [r1+mmsize+0]
    movu       m4, [r1+mmsize+2]
    movu       m5, [r1+mmsize+4]
    movu       m6, [r1+mmsize+6]
%if num_mmregs > 8
    pmaddwd    m1, s1
    pmaddwd    m2, s1
    pmaddwd    m3, s2
    pmaddwd    m4, s2
    pmaddwd    m5, s3
    pmaddwd    m6, s3
    paddd      m1, d1
    paddd      m2, d1
%else
    mova       m0, s1
    pmaddwd    m1, m0
    pmaddwd    m2, m0
    mova       m0, s2
    pmaddwd    m3, m0
    pmaddwd    m4, m0
    mova       m0, s3
    pmaddwd    m5, m0
    pmaddwd    m6, m0
    mova       m0, d1
    paddd      m1, m0
    paddd      m2, m0
%endif
    paddd      m3, m5
    paddd      m4, m6
    paddd      m1, m3
    paddd      m2, m4
    psrad      m1, 10
    psrad      m2, 10
    pslld      m2, 16
    pand       m1, [pd_0f]
    por        m1, m2
%if num_mmregs <= 8
    pxor       m0, m0
%endif
    CLIPW      m1, m0, m7
    add        r1, mmsize*3
    ret
%endmacro

INIT_MMX mmxext
H_LOOP 4
INIT_XMM sse2
H_LOOP 8

%macro MC22 2
cglobal_mc %1, mc22, %2, 3,7,12
%define PAD mmsize*8*4*2      ; SIZE*16*4*sizeof(pixel)
    mov      r6, rsp          ; backup stack pointer
    and     rsp, ~(mmsize-1)  ; align stack
    sub     rsp, PAD

    call put_hv%2_10

    mov       r3d, %2
    mova       m7, [pw_pixel_max]
%if num_mmregs > 8
    pxor       m0, m0
    mova       m8, [tap1]
    mova       m9, [tap2]
    mova      m10, [tap3]
    mova      m11, [depad]
%endif
    mov        r1, rsp
.h_loop:
    call h%2_loop_op

    OP_MOV   [r0], m1
    add        r0, r2
    dec       r3d
    jg .h_loop

    mov     rsp, r6          ; restore stack pointer
    ret
%endmacro

MC MC22

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc12(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC12 2
cglobal_mc %1, mc12, %2, 3,7,12
%define PAD mmsize*8*4*2        ; SIZE*16*4*sizeof(pixel)
    mov        r6, rsp          ; backup stack pointer
    and       rsp, ~(mmsize-1)  ; align stack
    sub       rsp, PAD

    call put_hv%2_10

    xor       r4d, r4d
.body:
    mov       r3d, %2
    pxor       m0, m0
    mova       m7, [pw_pixel_max]
%if num_mmregs > 8
    mova       m8, [tap1]
    mova       m9, [tap2]
    mova      m10, [tap3]
    mova      m11, [depad]
%endif
    mov        r1, rsp
.h_loop:
    call h%2_loop_op

    movu       m3, [r1+r4-2*mmsize] ; movu needed for mc32, etc
    paddw      m3, [depad2]
    psrlw      m3, 5
    psubw      m3, [unpad]
    CLIPW      m3, m0, m7
    pavgw      m1, m3

    OP_MOV   [r0], m1
    add        r0, r2
    dec       r3d
    jg .h_loop

    mov     rsp, r6          ; restore stack pointer
    ret
%endmacro

MC MC12

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc32(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC32 2
cglobal_mc %1, mc32, %2, 3,7,12
%define PAD mmsize*8*3*2  ; SIZE*16*4*sizeof(pixel)
    mov  r6, rsp          ; backup stack pointer
    and rsp, ~(mmsize-1)  ; align stack
    sub rsp, PAD

    call put_hv%2_10

    mov r4d, 2            ; sizeof(pixel)
    jmp stub_%1_h264_qpel%2_mc12_10 %+ SUFFIX %+ .body
%endmacro

MC MC32

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc21(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro H_NRD 1
put_h%1_10:
    add       rsp, gprsize
    mov       r3d, %1
    xor       r4d, r4d
    mova       m6, [pad20]
.nextrow:
    movu       m2, [r5-4]
    movu       m3, [r5-2]
    movu       m4, [r5+0]
    ADDW       m2, [r5+6], m5
    ADDW       m3, [r5+4], m5
    ADDW       m4, [r5+2], m5

    FILT_H2    m2, m3, m4
    psubw      m2, m6
    mova [rsp+r4], m2
    add       r4d, mmsize*3
    add        r5, r2
    dec       r3d
    jg .nextrow
    sub       rsp, gprsize
    ret
%endmacro

INIT_MMX mmxext
H_NRD 4
INIT_XMM sse2
H_NRD 8

%macro MC21 2
cglobal_mc %1, mc21, %2, 3,7,12
    mov   r5, r1
.body:
%define PAD mmsize*8*3*2   ; SIZE*16*4*sizeof(pixel)
    mov   r6, rsp          ; backup stack pointer
    and  rsp, ~(mmsize-1)  ; align stack

    sub  rsp, PAD
    call put_h%2_10

    sub  rsp, PAD
    call put_hv%2_10

    mov r4d, PAD-mmsize    ; H buffer
    jmp stub_%1_h264_qpel%2_mc12_10 %+ SUFFIX %+ .body
%endmacro

MC MC21

;-----------------------------------------------------------------------------
; void ff_h264_qpel_mc23(uint8_t *dst, uint8_t *src, int stride)
;-----------------------------------------------------------------------------
%macro MC23 2
cglobal_mc %1, mc23, %2, 3,7,12
    lea   r5, [r1+r2]
    jmp stub_%1_h264_qpel%2_mc21_10 %+ SUFFIX %+ .body
%endmacro

MC MC23
Commit	Line	Data
2ba45a60 DM	1	;*****************************************************************************
	2	;* MMX/SSE2/AVX-optimized 10-bit H.264 qpel code
	3	;*****************************************************************************
	4	;* Copyright (C) 2011 x264 project
	5	;*
	6	;* Authors: Daniel Kang <daniel.d.kang@gmail.com>
	7	;*
	8	;* This file is part of FFmpeg.
	9	;*
	10	;* FFmpeg is free software; you can redistribute it and/or
	11	;* modify it under the terms of the GNU Lesser General Public
	12	;* License as published by the Free Software Foundation; either
	13	;* version 2.1 of the License, or (at your option) any later version.
	14	;*
	15	;* FFmpeg is distributed in the hope that it will be useful,
	16	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	17	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	18	;* Lesser General Public License for more details.
	19	;*
	20	;* You should have received a copy of the GNU Lesser General Public
	21	;* License along with FFmpeg; if not, write to the Free Software
	22	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	23	;******************************************************************************
	24
	25	%include "libavutil/x86/x86util.asm"
	26
	27	SECTION_RODATA 32
	28
	29	cextern pw_16
	30	cextern pw_1
	31	pb_0: times 32 db 0 ; we do not use cextern here as old llvm-gcc fails to align it correctly
	32
	33	pw_pixel_max: times 8 dw ((1 << 10)-1)
	34
	35	pad10: times 8 dw 10*1023
	36	pad20: times 8 dw 20*1023
	37	pad30: times 8 dw 30*1023
	38	depad: times 4 dd 32201023 + 512
	39	depad2: times 8 dw 201023 + 161022 + 16
	40	unpad: times 8 dw 16*1022/32 ; needs to be mod 16
	41
	42	tap1: times 4 dw 1, -5
	43	tap2: times 4 dw 20, 20
	44	tap3: times 4 dw -5, 1
	45	pd_0f: times 4 dd 0xffff
	46
	47	SECTION .text
	48
	49
	50	%macro AVG_MOV 2
	51	pavgw %2, %1
	52	mova %1, %2
	53	%endmacro
	54
	55	%macro ADDW 3
	56	%if mmsize == 8
	57	paddw %1, %2
	58	%else
	59	movu %3, %2
	60	paddw %1, %3
	61	%endif
	62	%endmacro
	63
	64	%macro FILT_H 4
65	paddw %1, %4
66	psubw %1, %2 ; a-b
67	psraw %1, 2 ; (a-b)/4
68	psubw %1, %2 ; (a-b)/4-b
69	paddw %1, %3 ; (a-b)/4-b+c
70	psraw %1, 2 ; ((a-b)/4-b+c)/4
71	paddw %1, %3 ; ((a-b)/4-b+c)/4+c = (a-5b+20c)/16
72	%endmacro
73
74	%macro PRELOAD_V 0
75	lea r3, [r2*3]
76	sub r1, r3
77	movu m0, [r1+r2]
78	movu m1, [r1+r2*2]
79	add r1, r3
80	movu m2, [r1]
81	movu m3, [r1+r2]
82	movu m4, [r1+r2*2]
83	add r1, r3
84	%endmacro
85
86	%macro FILT_V 8
87	movu %6, [r1]
88	paddw %1, %6
89	mova %7, %2
90	paddw %7, %5
91	mova %8, %3
92	paddw %8, %4
93	FILT_H %1, %7, %8, [pw_16]
94	psraw %1, 1
95	CLIPW %1, [pb_0], [pw_pixel_max]
96	%endmacro
97
98	%macro MC 1
99	%define OP_MOV mova
100	INIT_MMX mmxext
101	%1 put, 4
102	INIT_XMM sse2
103	%1 put, 8
104
105	%define OP_MOV AVG_MOV
106	INIT_MMX mmxext
107	%1 avg, 4
108	INIT_XMM sse2
109	%1 avg, 8
110	%endmacro
111
112	%macro MCAxA_OP 7
113	%if ARCH_X86_32
114	cglobal %1_h264_qpel%4_%2_10, %5,%6,%7
115	call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
116	mov r0, r0m
117	mov r1, r1m
118	add r0, %3*2
119	add r1, %3*2
120	call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
121	mov r0, r0m
122	mov r1, r1m
123	lea r0, [r0+r2*%3]
124	lea r1, [r1+r2*%3]
125	call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
126	mov r0, r0m
127	mov r1, r1m
128	lea r0, [r0+r2%3+%32]
129	lea r1, [r1+r2%3+%32]
130	call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
131	RET
132	%else ; ARCH_X86_64
133	cglobal %1_h264_qpel%4_%2_10, %5,%6 + 2,%7
134	mov r%6, r0
135	%assign p1 %6+1
136	mov r %+ p1, r1
137	call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
138	lea r0, [r%6+%3*2]
139	lea r1, [r %+ p1+%3*2]
140	call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
141	lea r0, [r%6+r2*%3]
142	lea r1, [r %+ p1+r2*%3]
143	call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
144	lea r0, [r%6+r2%3+%32]
145	lea r1, [r %+ p1+r2%3+%32]
146	%if UNIX64 == 0 ; fall through to function
147	call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
148	RET
149	%endif
150	%endif
151	%endmacro
152
153	;cpu, put/avg, mc, 4/8, ...
154	%macro cglobal_mc 6
155	%assign i %3*2
156	%if ARCH_X86_32 \|\| cpuflag(sse2)
157	MCAxA_OP %1, %2, %3, i, %4,%5,%6
158	%endif
159
160	cglobal %1_h264_qpel%3_%2_10, %4,%5,%6
161	%if UNIX64 == 0 ; no prologue or epilogue for UNIX64
162	call stub_%1_h264_qpel%3_%2_10 %+ SUFFIX
163	RET
164	%endif
165
166	stub_%1_h264_qpel%3_%2_10 %+ SUFFIX:
167	%endmacro
168
169	;-----------------------------------------------------------------------------
170	; void ff_h264_qpel_mc00(uint8_t dst, uint8_t src, int stride)
171	;-----------------------------------------------------------------------------
172	%macro COPY4 0
173	movu m0, [r1 ]
174	OP_MOV [r0 ], m0
175	movu m0, [r1+r2 ]
176	OP_MOV [r0+r2 ], m0
177	movu m0, [r1+r2*2]
178	OP_MOV [r0+r2*2], m0
179	movu m0, [r1+r3 ]
180	OP_MOV [r0+r3 ], m0
181	%endmacro
182
183	%macro MC00 1
184	INIT_MMX mmxext
185	cglobal_mc %1, mc00, 4, 3,4,0
186	lea r3, [r2*3]
187	COPY4
188	ret
189
190	INIT_XMM sse2
191	cglobal %1_h264_qpel8_mc00_10, 3,4
192	lea r3, [r2*3]
193	COPY4
194	lea r0, [r0+r2*4]
195	lea r1, [r1+r2*4]
196	COPY4
197	RET
198
199	cglobal %1_h264_qpel16_mc00_10, 3,4
200	mov r3d, 8
201	.loop:
202	movu m0, [r1 ]
203	movu m1, [r1 +16]
204	OP_MOV [r0 ], m0
205	OP_MOV [r0 +16], m1
206	movu m0, [r1+r2 ]
207	movu m1, [r1+r2+16]
208	OP_MOV [r0+r2 ], m0
209	OP_MOV [r0+r2+16], m1
210	lea r0, [r0+r2*2]
211	lea r1, [r1+r2*2]
212	dec r3d
213	jg .loop
214	REP_RET
215	%endmacro
216
217	%define OP_MOV mova
218	MC00 put
219
220	%define OP_MOV AVG_MOV
221	MC00 avg
222
223	;-----------------------------------------------------------------------------
224	; void ff_h264_qpel_mc20(uint8_t dst, uint8_t src, int stride)
225	;-----------------------------------------------------------------------------
226	%macro MC_CACHE 1
227	%define OP_MOV mova
228	INIT_MMX mmxext
229	%1 put, 4
230	INIT_XMM sse2, cache64
231	%1 put, 8
232	INIT_XMM ssse3, cache64
233	%1 put, 8
234	INIT_XMM sse2
235	%1 put, 8
236
237	%define OP_MOV AVG_MOV
238	INIT_MMX mmxext
239	%1 avg, 4
240	INIT_XMM sse2, cache64
241	%1 avg, 8
242	INIT_XMM ssse3, cache64
243	%1 avg, 8
244	INIT_XMM sse2
245	%1 avg, 8
246	%endmacro
247
248	%macro MC20 2
249	cglobal_mc %1, mc20, %2, 3,4,9
250	mov r3d, %2
251	mova m1, [pw_pixel_max]
252	%if num_mmregs > 8
253	mova m8, [pw_16]
254	%define p16 m8
255	%else
256	%define p16 [pw_16]
257	%endif
258	.nextrow:
259	%if %0 == 4
260	movu m2, [r1-4]
261	movu m3, [r1-2]
262	movu m4, [r1+0]
263	ADDW m2, [r1+6], m5
264	ADDW m3, [r1+4], m5
265	ADDW m4, [r1+2], m5
266	%else ; movu is slow on these processors
267	%if mmsize==16
268	movu m2, [r1-4]
269	movu m0, [r1+6]
270	mova m6, m0
271	psrldq m0, 6
272
273	paddw m6, m2
274	PALIGNR m3, m0, m2, 2, m5
275	PALIGNR m7, m0, m2, 8, m5
276	paddw m3, m7
277	PALIGNR m4, m0, m2, 4, m5
278	PALIGNR m7, m0, m2, 6, m5
279	paddw m4, m7
280	SWAP 2, 6
281	%else
282	movu m2, [r1-4]
283	movu m6, [r1+4]
284	PALIGNR m3, m6, m2, 2, m5
285	paddw m3, m6
286	PALIGNR m4, m6, m2, 4, m5
287	PALIGNR m7, m6, m2, 6, m5
288	paddw m4, m7
289	paddw m2, [r1+6]
290	%endif
291	%endif
292
293	FILT_H m2, m3, m4, p16
294	psraw m2, 1
295	pxor m0, m0
296	CLIPW m2, m0, m1
297	OP_MOV [r0], m2
298	add r0, r2
299	add r1, r2
300	dec r3d
301	jg .nextrow
302	rep ret
303	%endmacro
304
305	MC_CACHE MC20
306
307	;-----------------------------------------------------------------------------
308	; void ff_h264_qpel_mc30(uint8_t dst, uint8_t src, int stride)
309	;-----------------------------------------------------------------------------
310	%macro MC30 2
311	cglobal_mc %1, mc30, %2, 3,5,9
312	lea r4, [r1+2]
313	jmp stub_%1_h264_qpel%2_mc10_10 %+ SUFFIX %+ .body
314	%endmacro
315
316	MC_CACHE MC30
317
318	;-----------------------------------------------------------------------------
319	; void ff_h264_qpel_mc10(uint8_t dst, uint8_t src, int stride)
320	;-----------------------------------------------------------------------------
321	%macro MC10 2
322	cglobal_mc %1, mc10, %2, 3,5,9
323	mov r4, r1
324	.body:
325	mov r3d, %2
326	mova m1, [pw_pixel_max]
327	%if num_mmregs > 8
328	mova m8, [pw_16]
329	%define p16 m8
330	%else
331	%define p16 [pw_16]
332	%endif
333	.nextrow:
334	%if %0 == 4
335	movu m2, [r1-4]
336	movu m3, [r1-2]
337	movu m4, [r1+0]
338	ADDW m2, [r1+6], m5
339	ADDW m3, [r1+4], m5
340	ADDW m4, [r1+2], m5
341	%else ; movu is slow on these processors
342	%if mmsize==16
343	movu m2, [r1-4]
344	movu m0, [r1+6]
345	mova m6, m0
346	psrldq m0, 6
347
348	paddw m6, m2
349	PALIGNR m3, m0, m2, 2, m5
350	PALIGNR m7, m0, m2, 8, m5
351	paddw m3, m7
352	PALIGNR m4, m0, m2, 4, m5
353	PALIGNR m7, m0, m2, 6, m5
354	paddw m4, m7
355	SWAP 2, 6
356	%else
357	movu m2, [r1-4]
358	movu m6, [r1+4]
359	PALIGNR m3, m6, m2, 2, m5
360	paddw m3, m6
361	PALIGNR m4, m6, m2, 4, m5
362	PALIGNR m7, m6, m2, 6, m5
363	paddw m4, m7
364	paddw m2, [r1+6]
365	%endif
366	%endif
367
368	FILT_H m2, m3, m4, p16
369	psraw m2, 1
370	pxor m0, m0
371	CLIPW m2, m0, m1
372	movu m3, [r4]
373	pavgw m2, m3
374	OP_MOV [r0], m2
375	add r0, r2
376	add r1, r2
377	add r4, r2
378	dec r3d
379	jg .nextrow
380	rep ret
381	%endmacro
382
383	MC_CACHE MC10
384
385	;-----------------------------------------------------------------------------
386	; void ff_h264_qpel_mc02(uint8_t dst, uint8_t src, int stride)
387	;-----------------------------------------------------------------------------
388	%macro V_FILT 10
389	v_filt%9_%10_10
390	add r4, r2
391	.no_addr4:
392	FILT_V m0, m1, m2, m3, m4, m5, m6, m7
393	add r1, r2
394	add r0, r2
395	ret
396	%endmacro
397
398	INIT_MMX mmxext
399	RESET_MM_PERMUTATION
400	%assign i 0
401	%rep 4
402	V_FILT m0, m1, m2, m3, m4, m5, m6, m7, 4, i
403	SWAP 0,1,2,3,4,5
404	%assign i i+1
405	%endrep
406
407	INIT_XMM sse2
408	RESET_MM_PERMUTATION
409	%assign i 0
410	%rep 6
411	V_FILT m0, m1, m2, m3, m4, m5, m6, m7, 8, i
412	SWAP 0,1,2,3,4,5
413	%assign i i+1
414	%endrep
415
416	%macro MC02 2
417	cglobal_mc %1, mc02, %2, 3,4,8
418	PRELOAD_V
419
420	sub r0, r2
421	%assign j 0
422	%rep %2
423	%assign i (j % 6)
424	call v_filt%2_ %+ i %+ _10.no_addr4
425	OP_MOV [r0], m0
426	SWAP 0,1,2,3,4,5
427	%assign j j+1
428	%endrep
429	ret
430	%endmacro
431
432	MC MC02
433
434	;-----------------------------------------------------------------------------
435	; void ff_h264_qpel_mc01(uint8_t dst, uint8_t src, int stride)
436	;-----------------------------------------------------------------------------
437	%macro MC01 2
438	cglobal_mc %1, mc01, %2, 3,5,8
439	mov r4, r1
440	.body:
441	PRELOAD_V
442
443	sub r4, r2
444	sub r0, r2
445	%assign j 0
446	%rep %2
447	%assign i (j % 6)
448	call v_filt%2_ %+ i %+ _10
449	movu m7, [r4]
450	pavgw m0, m7
451	OP_MOV [r0], m0
452	SWAP 0,1,2,3,4,5
453	%assign j j+1
454	%endrep
455	ret
456	%endmacro
457
458	MC MC01
459
460	;-----------------------------------------------------------------------------
461	; void ff_h264_qpel_mc03(uint8_t dst, uint8_t src, int stride)
462	;-----------------------------------------------------------------------------
463	%macro MC03 2
464	cglobal_mc %1, mc03, %2, 3,5,8
465	lea r4, [r1+r2]
466	jmp stub_%1_h264_qpel%2_mc01_10 %+ SUFFIX %+ .body
467	%endmacro
468
469	MC MC03
470
471	;-----------------------------------------------------------------------------
472	; void ff_h264_qpel_mc11(uint8_t dst, uint8_t src, int stride)
473	;-----------------------------------------------------------------------------
474	%macro H_FILT_AVG 2-3
475	h_filt%1_%2_10:
476	;FILT_H with fewer registers and averaged with the FILT_V result
477	;m6,m7 are tmp registers, m0 is the FILT_V result, the rest are to be used next in the next iteration
478	;unfortunately I need three registers, so m5 will have to be re-read from memory
479	movu m5, [r4-4]
480	ADDW m5, [r4+6], m7
481	movu m6, [r4-2]
482	ADDW m6, [r4+4], m7
483	paddw m5, [pw_16]
484	psubw m5, m6 ; a-b
485	psraw m5, 2 ; (a-b)/4
486	psubw m5, m6 ; (a-b)/4-b
487	movu m6, [r4+0]
488	ADDW m6, [r4+2], m7
489	paddw m5, m6 ; (a-b)/4-b+c
490	psraw m5, 2 ; ((a-b)/4-b+c)/4
491	paddw m5, m6 ; ((a-b)/4-b+c)/4+c = (a-5b+20c)/16
492	psraw m5, 1
493	CLIPW m5, [pb_0], [pw_pixel_max]
494	;avg FILT_V, FILT_H
495	pavgw m0, m5
496	%if %0!=4
497	movu m5, [r1+r5]
498	%endif
499	ret
500	%endmacro
501
502	INIT_MMX mmxext
503	RESET_MM_PERMUTATION
504	%assign i 0
505	%rep 3
506	H_FILT_AVG 4, i
507	SWAP 0,1,2,3,4,5
508	%assign i i+1
509	%endrep
510	H_FILT_AVG 4, i, 0
511
512	INIT_XMM sse2
513	RESET_MM_PERMUTATION
514	%assign i 0
515	%rep 6
516	%if i==1
517	H_FILT_AVG 8, i, 0
518	%else
519	H_FILT_AVG 8, i
520	%endif
521	SWAP 0,1,2,3,4,5
522	%assign i i+1
523	%endrep
524
525	%macro MC11 2
526	; this REALLY needs x86_64
527	cglobal_mc %1, mc11, %2, 3,6,8
528	mov r4, r1
529	.body:
530	PRELOAD_V
531
532	sub r0, r2
533	sub r4, r2
534	mov r5, r2
535	neg r5
536	%assign j 0
537	%rep %2
538	%assign i (j % 6)
539	call v_filt%2_ %+ i %+ _10
540	call h_filt%2_ %+ i %+ _10
541	%if %2==8 && i==1
542	movu m5, [r1+r5]
543	%endif
544	OP_MOV [r0], m0
545	SWAP 0,1,2,3,4,5
546	%assign j j+1
547	%endrep
548	ret
549	%endmacro
550
551	MC MC11
552
553	;-----------------------------------------------------------------------------
554	; void ff_h264_qpel_mc31(uint8_t dst, uint8_t src, int stride)
555	;-----------------------------------------------------------------------------
556	%macro MC31 2
557	cglobal_mc %1, mc31, %2, 3,6,8
558	mov r4, r1
559	add r1, 2
560	jmp stub_%1_h264_qpel%2_mc11_10 %+ SUFFIX %+ .body
561	%endmacro
562
563	MC MC31
564
565	;-----------------------------------------------------------------------------
566	; void ff_h264_qpel_mc13(uint8_t dst, uint8_t src, int stride)
567	;-----------------------------------------------------------------------------
568	%macro MC13 2
569	cglobal_mc %1, mc13, %2, 3,7,12
570	lea r4, [r1+r2]
571	jmp stub_%1_h264_qpel%2_mc11_10 %+ SUFFIX %+ .body
572	%endmacro
573
574	MC MC13
575
576	;-----------------------------------------------------------------------------
577	; void ff_h264_qpel_mc33(uint8_t dst, uint8_t src, int stride)
578	;-----------------------------------------------------------------------------
579	%macro MC33 2
580	cglobal_mc %1, mc33, %2, 3,6,8
581	lea r4, [r1+r2]
582	add r1, 2
583	jmp stub_%1_h264_qpel%2_mc11_10 %+ SUFFIX %+ .body
584	%endmacro
585
586	MC MC33
587
588	;-----------------------------------------------------------------------------
589	; void ff_h264_qpel_mc22(uint8_t dst, uint8_t src, int stride)
590	;-----------------------------------------------------------------------------
591	%macro FILT_H2 3
592	psubw %1, %2 ; a-b
593	psubw %2, %3 ; b-c
594	psllw %2, 2
595	psubw %1, %2 ; a-5b+4c
596	psllw %3, 4
597	paddw %1, %3 ; a-5b+20c
598	%endmacro
599
600	%macro FILT_VNRD 8
601	movu %6, [r1]
602	paddw %1, %6
603	mova %7, %2
604	paddw %7, %5
605	mova %8, %3
606	paddw %8, %4
607	FILT_H2 %1, %7, %8
608	%endmacro
609
610	%macro HV 1
611	%if mmsize==16
612	%define PAD 12
613	%define COUNT 2
614	%else
615	%define PAD 4
616	%define COUNT 3
617	%endif
618	put_hv%1_10:
619	neg r2 ; This actually saves instructions
620	lea r1, [r1+r2*2-mmsize+PAD]
621	lea r4, [rsp+PAD+gprsize]
622	mov r3d, COUNT
623	.v_loop:
624	movu m0, [r1]
625	sub r1, r2
626	movu m1, [r1]
627	sub r1, r2
628	movu m2, [r1]
629	sub r1, r2
630	movu m3, [r1]
631	sub r1, r2
632	movu m4, [r1]
633	sub r1, r2
634	%assign i 0
635	%rep %1-1
636	FILT_VNRD m0, m1, m2, m3, m4, m5, m6, m7
637	psubw m0, [pad20]
638	movu [r4+immsize3], m0
639	sub r1, r2
640	SWAP 0,1,2,3,4,5
641	%assign i i+1
642	%endrep
643	FILT_VNRD m0, m1, m2, m3, m4, m5, m6, m7
644	psubw m0, [pad20]
645	movu [r4+immsize3], m0
646	add r4, mmsize
647	lea r1, [r1+r2*8+mmsize]
648	%if %1==8
649	lea r1, [r1+r2*4]
650	%endif
651	dec r3d
652	jg .v_loop
653	neg r2
654	ret
655	%endmacro
656
657	INIT_MMX mmxext
658	HV 4
659	INIT_XMM sse2
660	HV 8
661
662	%macro H_LOOP 1
663	%if num_mmregs > 8
664	%define s1 m8
665	%define s2 m9
666	%define s3 m10
667	%define d1 m11
668	%else
669	%define s1 [tap1]
670	%define s2 [tap2]
671	%define s3 [tap3]
672	%define d1 [depad]
673	%endif
674	h%1_loop_op:
675	movu m1, [r1+mmsize-4]
676	movu m2, [r1+mmsize-2]
677	mova m3, [r1+mmsize+0]
678	movu m4, [r1+mmsize+2]
679	movu m5, [r1+mmsize+4]
680	movu m6, [r1+mmsize+6]
681	%if num_mmregs > 8
682	pmaddwd m1, s1
683	pmaddwd m2, s1
684	pmaddwd m3, s2
685	pmaddwd m4, s2
686	pmaddwd m5, s3
687	pmaddwd m6, s3
688	paddd m1, d1
689	paddd m2, d1
690	%else
691	mova m0, s1
692	pmaddwd m1, m0
693	pmaddwd m2, m0
694	mova m0, s2
695	pmaddwd m3, m0
696	pmaddwd m4, m0
697	mova m0, s3
698	pmaddwd m5, m0
699	pmaddwd m6, m0
700	mova m0, d1
701	paddd m1, m0
702	paddd m2, m0
703	%endif
704	paddd m3, m5
705	paddd m4, m6
706	paddd m1, m3
707	paddd m2, m4
708	psrad m1, 10
709	psrad m2, 10
710	pslld m2, 16
711	pand m1, [pd_0f]
712	por m1, m2
713	%if num_mmregs <= 8
714	pxor m0, m0
715	%endif
716	CLIPW m1, m0, m7
717	add r1, mmsize*3
718	ret
719	%endmacro
720
721	INIT_MMX mmxext
722	H_LOOP 4
723	INIT_XMM sse2
724	H_LOOP 8
725
726	%macro MC22 2
727	cglobal_mc %1, mc22, %2, 3,7,12
728	%define PAD mmsize842 ; SIZE164sizeof(pixel)
729	mov r6, rsp ; backup stack pointer
730	and rsp, ~(mmsize-1) ; align stack
731	sub rsp, PAD
732
733	call put_hv%2_10
734
735	mov r3d, %2
736	mova m7, [pw_pixel_max]
737	%if num_mmregs > 8
738	pxor m0, m0
739	mova m8, [tap1]
740	mova m9, [tap2]
741	mova m10, [tap3]
742	mova m11, [depad]
743	%endif
744	mov r1, rsp
745	.h_loop:
746	call h%2_loop_op
747
748	OP_MOV [r0], m1
749	add r0, r2
750	dec r3d
751	jg .h_loop
752
753	mov rsp, r6 ; restore stack pointer
754	ret
755	%endmacro
756
757	MC MC22
758
759	;-----------------------------------------------------------------------------
760	; void ff_h264_qpel_mc12(uint8_t dst, uint8_t src, int stride)
761	;-----------------------------------------------------------------------------
762	%macro MC12 2
763	cglobal_mc %1, mc12, %2, 3,7,12
764	%define PAD mmsize842 ; SIZE164sizeof(pixel)
765	mov r6, rsp ; backup stack pointer
766	and rsp, ~(mmsize-1) ; align stack
767	sub rsp, PAD
768
769	call put_hv%2_10
770
771	xor r4d, r4d
772	.body:
773	mov r3d, %2
774	pxor m0, m0
775	mova m7, [pw_pixel_max]
776	%if num_mmregs > 8
777	mova m8, [tap1]
778	mova m9, [tap2]
779	mova m10, [tap3]
780	mova m11, [depad]
781	%endif
782	mov r1, rsp
783	.h_loop:
784	call h%2_loop_op
785
786	movu m3, [r1+r4-2*mmsize] ; movu needed for mc32, etc
787	paddw m3, [depad2]
788	psrlw m3, 5
789	psubw m3, [unpad]
790	CLIPW m3, m0, m7
791	pavgw m1, m3
792
793	OP_MOV [r0], m1
794	add r0, r2
795	dec r3d
796	jg .h_loop
797
798	mov rsp, r6 ; restore stack pointer
799	ret
800	%endmacro
801
802	MC MC12
803
804	;-----------------------------------------------------------------------------
805	; void ff_h264_qpel_mc32(uint8_t dst, uint8_t src, int stride)
806	;-----------------------------------------------------------------------------
807	%macro MC32 2
808	cglobal_mc %1, mc32, %2, 3,7,12
809	%define PAD mmsize832 ; SIZE164sizeof(pixel)
810	mov r6, rsp ; backup stack pointer
811	and rsp, ~(mmsize-1) ; align stack
812	sub rsp, PAD
813
814	call put_hv%2_10
815
816	mov r4d, 2 ; sizeof(pixel)
817	jmp stub_%1_h264_qpel%2_mc12_10 %+ SUFFIX %+ .body
818	%endmacro
819
820	MC MC32
821
822	;-----------------------------------------------------------------------------
823	; void ff_h264_qpel_mc21(uint8_t dst, uint8_t src, int stride)
824	;-----------------------------------------------------------------------------
825	%macro H_NRD 1
826	put_h%1_10:
827	add rsp, gprsize
828	mov r3d, %1
829	xor r4d, r4d
830	mova m6, [pad20]
831	.nextrow:
832	movu m2, [r5-4]
833	movu m3, [r5-2]
834	movu m4, [r5+0]
835	ADDW m2, [r5+6], m5
836	ADDW m3, [r5+4], m5
837	ADDW m4, [r5+2], m5
838
839	FILT_H2 m2, m3, m4
840	psubw m2, m6
841	mova [rsp+r4], m2
842	add r4d, mmsize*3
843	add r5, r2
844	dec r3d
845	jg .nextrow
846	sub rsp, gprsize
847	ret
848	%endmacro
849
850	INIT_MMX mmxext
851	H_NRD 4
852	INIT_XMM sse2
853	H_NRD 8
854
855	%macro MC21 2
856	cglobal_mc %1, mc21, %2, 3,7,12
857	mov r5, r1
858	.body:
859	%define PAD mmsize832 ; SIZE164sizeof(pixel)
860	mov r6, rsp ; backup stack pointer
861	and rsp, ~(mmsize-1) ; align stack
862
863	sub rsp, PAD
864	call put_h%2_10
865
866	sub rsp, PAD
867	call put_hv%2_10
868
869	mov r4d, PAD-mmsize ; H buffer
870	jmp stub_%1_h264_qpel%2_mc12_10 %+ SUFFIX %+ .body
871	%endmacro
872
873	MC MC21
874
875	;-----------------------------------------------------------------------------
876	; void ff_h264_qpel_mc23(uint8_t dst, uint8_t src, int stride)
877	;-----------------------------------------------------------------------------
878	%macro MC23 2
879	cglobal_mc %1, mc23, %2, 3,7,12
880	lea r5, [r1+r2]
881	jmp stub_%1_h264_qpel%2_mc21_10 %+ SUFFIX %+ .body
882	%endmacro
883
884	MC MC23