[deb_ffmpeg.git] / ffmpeg / libavcodec / x86 / h264_deblock_10bit.asm

;*****************************************************************************
;* MMX/SSE2/AVX-optimized 10-bit H.264 deblocking code
;*****************************************************************************
;* Copyright (C) 2005-2011 x264 project
;*
;* Authors: Oskar Arvidsson <oskar@irock.se>
;*          Loren Merritt <lorenm@u.washington.edu>
;*          Fiona Glaser <fiona@x264.com>
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "libavutil/x86/x86util.asm"

SECTION_RODATA

pw_pixel_max: times 8 dw ((1 << 10)-1)

SECTION .text

cextern pw_2
cextern pw_3
cextern pw_4

; out: %4 = |%1-%2|-%3
; clobbers: %5
%macro ABS_SUB 5
    psubusw %5, %2, %1
    psubusw %4, %1, %2
    por     %4, %5
    psubw   %4, %3
%endmacro

; out: %4 = |%1-%2|<%3
%macro DIFF_LT   5
    psubusw %4, %2, %1
    psubusw %5, %1, %2
    por     %5, %4 ; |%1-%2|
    pxor    %4, %4
    psubw   %5, %3 ; |%1-%2|-%3
    pcmpgtw %4, %5 ; 0 > |%1-%2|-%3
%endmacro

%macro LOAD_AB 4
    movd       %1, %3
    movd       %2, %4
    SPLATW     %1, %1
    SPLATW     %2, %2
%endmacro

; in:  %2=tc reg
; out: %1=splatted tc
%macro LOAD_TC 2
    movd        %1, [%2]
    punpcklbw   %1, %1
%if mmsize == 8
    pshufw      %1, %1, 0
%else
    pshuflw     %1, %1, 01010000b
    pshufd      %1, %1, 01010000b
%endif
    psraw       %1, 6
%endmacro

; in: %1=p1, %2=p0, %3=q0, %4=q1
;     %5=alpha, %6=beta, %7-%9=tmp
; out: %7=mask
%macro LOAD_MASK 9
    ABS_SUB     %2, %3, %5, %8, %7 ; |p0-q0| - alpha
    ABS_SUB     %1, %2, %6, %9, %7 ; |p1-p0| - beta
    pand        %8, %9
    ABS_SUB     %3, %4, %6, %9, %7 ; |q1-q0| - beta
    pxor        %7, %7
    pand        %8, %9
    pcmpgtw     %7, %8
%endmacro

; in: %1=p0, %2=q0, %3=p1, %4=q1, %5=mask, %6=tmp, %7=tmp
; out: %1=p0', m2=q0'
%macro DEBLOCK_P0_Q0 7
    psubw   %3, %4
    pxor    %7, %7
    paddw   %3, [pw_4]
    psubw   %7, %5
    psubw   %6, %2, %1
    psllw   %6, 2
    paddw   %3, %6
    psraw   %3, 3
    mova    %6, [pw_pixel_max]
    CLIPW   %3, %7, %5
    pxor    %7, %7
    paddw   %1, %3
    psubw   %2, %3
    CLIPW   %1, %7, %6
    CLIPW   %2, %7, %6
%endmacro

; in: %1=x2, %2=x1, %3=p0, %4=q0 %5=mask&tc, %6=tmp
%macro LUMA_Q1 6
    pavgw       %6, %3, %4      ; (p0+q0+1)>>1
    paddw       %1, %6
    pxor        %6, %6
    psraw       %1, 1
    psubw       %6, %5
    psubw       %1, %2
    CLIPW       %1, %6, %5
    paddw       %1, %2
%endmacro

%macro LUMA_DEBLOCK_ONE 3
    DIFF_LT     m5, %1, bm, m4, m6
    pxor        m6, m6
    mova        %3, m4
    pcmpgtw     m6, tcm
    pand        m4, tcm
    pandn       m6, m7
    pand        m4, m6
    LUMA_Q1 m5, %2, m1, m2, m4, m6
%endmacro

%macro LUMA_H_STORE 2
%if mmsize == 8
    movq        [r0-4], m0
    movq        [r0+r1-4], m1
    movq        [r0+r1*2-4], m2
    movq        [r0+%2-4], m3
%else
    movq        [r0-4], m0
    movhps      [r0+r1-4], m0
    movq        [r0+r1*2-4], m1
    movhps      [%1-4], m1
    movq        [%1+r1-4], m2
    movhps      [%1+r1*2-4], m2
    movq        [%1+%2-4], m3
    movhps      [%1+r1*4-4], m3
%endif
%endmacro

%macro DEBLOCK_LUMA 0
;-----------------------------------------------------------------------------
; void ff_deblock_v_luma_10(uint16_t *pix, int stride, int alpha, int beta,
;                           int8_t *tc0)
;-----------------------------------------------------------------------------
cglobal deblock_v_luma_10, 5,5,8*(mmsize/16)
    %assign pad 5*mmsize+12-(stack_offset&15)
    %define tcm [rsp]
    %define ms1 [rsp+mmsize]
    %define ms2 [rsp+mmsize*2]
    %define am  [rsp+mmsize*3]
    %define bm  [rsp+mmsize*4]
    SUB        rsp, pad
    shl        r2d, 2
    shl        r3d, 2
    LOAD_AB     m4, m5, r2d, r3d
    mov         r3, 32/mmsize
    mov         r2, r0
    sub         r0, r1
    mova        am, m4
    sub         r0, r1
    mova        bm, m5
    sub         r0, r1
.loop:
    mova        m0, [r0+r1]
    mova        m1, [r0+r1*2]
    mova        m2, [r2]
    mova        m3, [r2+r1]

    LOAD_MASK   m0, m1, m2, m3, am, bm, m7, m4, m6
    LOAD_TC     m6, r4
    mova       tcm, m6

    mova        m5, [r0]
    LUMA_DEBLOCK_ONE m1, m0, ms1
    mova   [r0+r1], m5

    mova        m5, [r2+r1*2]
    LUMA_DEBLOCK_ONE m2, m3, ms2
    mova   [r2+r1], m5

    pxor        m5, m5
    mova        m6, tcm
    pcmpgtw     m5, tcm
    psubw       m6, ms1
    pandn       m5, m7
    psubw       m6, ms2
    pand        m5, m6
    DEBLOCK_P0_Q0 m1, m2, m0, m3, m5, m7, m6
    mova [r0+r1*2], m1
    mova      [r2], m2

    add         r0, mmsize
    add         r2, mmsize
    add         r4, mmsize/8
    dec         r3
    jg .loop
    ADD         rsp, pad
    RET

cglobal deblock_h_luma_10, 5,6,8*(mmsize/16)
    %assign pad 7*mmsize+12-(stack_offset&15)
    %define tcm [rsp]
    %define ms1 [rsp+mmsize]
    %define ms2 [rsp+mmsize*2]
    %define p1m [rsp+mmsize*3]
    %define p2m [rsp+mmsize*4]
    %define am  [rsp+mmsize*5]
    %define bm  [rsp+mmsize*6]
    SUB        rsp, pad
    shl        r2d, 2
    shl        r3d, 2
    LOAD_AB     m4, m5, r2d, r3d
    mov         r3, r1
    mova        am, m4
    add         r3, r1
    mov         r5, 32/mmsize
    mova        bm, m5
    add         r3, r1
%if mmsize == 16
    mov         r2, r0
    add         r2, r3
%endif
.loop:
%if mmsize == 8
    movq        m2, [r0-8]     ; y q2 q1 q0
    movq        m7, [r0+0]
    movq        m5, [r0+r1-8]
    movq        m3, [r0+r1+0]
    movq        m0, [r0+r1*2-8]
    movq        m6, [r0+r1*2+0]
    movq        m1, [r0+r3-8]
    TRANSPOSE4x4W 2, 5, 0, 1, 4
    SWAP         2, 7
    movq        m7, [r0+r3]
    TRANSPOSE4x4W 2, 3, 6, 7, 4
%else
    movu        m5, [r0-8]     ; y q2 q1 q0 p0 p1 p2 x
    movu        m0, [r0+r1-8]
    movu        m2, [r0+r1*2-8]
    movu        m3, [r2-8]
    TRANSPOSE4x4W 5, 0, 2, 3, 6
    mova       tcm, m3

    movu        m4, [r2+r1-8]
    movu        m1, [r2+r1*2-8]
    movu        m3, [r2+r3-8]
    movu        m7, [r2+r1*4-8]
    TRANSPOSE4x4W 4, 1, 3, 7, 6

    mova        m6, tcm
    punpcklqdq  m6, m7
    punpckhqdq  m5, m4
    SBUTTERFLY qdq, 0, 1, 7
    SBUTTERFLY qdq, 2, 3, 7
%endif

    mova       p2m, m6
    LOAD_MASK   m0, m1, m2, m3, am, bm, m7, m4, m6
    LOAD_TC     m6, r4
    mova       tcm, m6

    LUMA_DEBLOCK_ONE m1, m0, ms1
    mova       p1m, m5

    mova        m5, p2m
    LUMA_DEBLOCK_ONE m2, m3, ms2
    mova       p2m, m5

    pxor        m5, m5
    mova        m6, tcm
    pcmpgtw     m5, tcm
    psubw       m6, ms1
    pandn       m5, m7
    psubw       m6, ms2
    pand        m5, m6
    DEBLOCK_P0_Q0 m1, m2, m0, m3, m5, m7, m6
    mova        m0, p1m
    mova        m3, p2m
    TRANSPOSE4x4W 0, 1, 2, 3, 4
    LUMA_H_STORE r2, r3

    add         r4, mmsize/8
    lea         r0, [r0+r1*(mmsize/2)]
    lea         r2, [r2+r1*(mmsize/2)]
    dec         r5
    jg .loop
    ADD        rsp, pad
    RET
%endmacro

%if ARCH_X86_64
; in:  m0=p1, m1=p0, m2=q0, m3=q1, m8=p2, m9=q2
;      m12=alpha, m13=beta
; out: m0=p1', m3=q1', m1=p0', m2=q0'
; clobbers: m4, m5, m6, m7, m10, m11, m14
%macro DEBLOCK_LUMA_INTER_SSE2 0
    LOAD_MASK   m0, m1, m2, m3, m12, m13, m7, m4, m6
    LOAD_TC     m6, r4
    DIFF_LT     m8, m1, m13, m10, m4
    DIFF_LT     m9, m2, m13, m11, m4
    pand        m6, m7

    mova       m14, m6
    pxor        m4, m4
    pcmpgtw     m6, m4
    pand        m6, m14

    mova        m5, m10
    pand        m5, m6
    LUMA_Q1 m8, m0, m1, m2, m5, m4

    mova        m5, m11
    pand        m5, m6
    LUMA_Q1 m9, m3, m1, m2, m5, m4

    pxor        m4, m4
    psubw       m6, m10
    pcmpgtw     m4, m14
    pandn       m4, m7
    psubw       m6, m11
    pand        m4, m6
    DEBLOCK_P0_Q0 m1, m2, m0, m3, m4, m5, m6

    SWAP         0, 8
    SWAP         3, 9
%endmacro

%macro DEBLOCK_LUMA_64 0
cglobal deblock_v_luma_10, 5,5,15
    %define p2 m8
    %define p1 m0
    %define p0 m1
    %define q0 m2
    %define q1 m3
    %define q2 m9
    %define mask0 m7
    %define mask1 m10
    %define mask2 m11
    shl        r2d, 2
    shl        r3d, 2
    LOAD_AB    m12, m13, r2d, r3d
    mov         r2, r0
    sub         r0, r1
    sub         r0, r1
    sub         r0, r1
    mov         r3, 2
.loop:
    mova        p2, [r0]
    mova        p1, [r0+r1]
    mova        p0, [r0+r1*2]
    mova        q0, [r2]
    mova        q1, [r2+r1]
    mova        q2, [r2+r1*2]
    DEBLOCK_LUMA_INTER_SSE2
    mova   [r0+r1], p1
    mova [r0+r1*2], p0
    mova      [r2], q0
    mova   [r2+r1], q1
    add         r0, mmsize
    add         r2, mmsize
    add         r4, 2
    dec         r3
    jg .loop
    REP_RET

cglobal deblock_h_luma_10, 5,7,15
    shl        r2d, 2
    shl        r3d, 2
    LOAD_AB    m12, m13, r2d, r3d
    mov         r2, r1
    add         r2, r1
    add         r2, r1
    mov         r5, r0
    add         r5, r2
    mov         r6, 2
.loop:
    movu        m8, [r0-8]     ; y q2 q1 q0 p0 p1 p2 x
    movu        m0, [r0+r1-8]
    movu        m2, [r0+r1*2-8]
    movu        m9, [r5-8]
    movu        m5, [r5+r1-8]
    movu        m1, [r5+r1*2-8]
    movu        m3, [r5+r2-8]
    movu        m7, [r5+r1*4-8]

    TRANSPOSE4x4W 8, 0, 2, 9, 10
    TRANSPOSE4x4W 5, 1, 3, 7, 10

    punpckhqdq  m8, m5
    SBUTTERFLY qdq, 0, 1, 10
    SBUTTERFLY qdq, 2, 3, 10
    punpcklqdq  m9, m7

    DEBLOCK_LUMA_INTER_SSE2

    TRANSPOSE4x4W 0, 1, 2, 3, 4
    LUMA_H_STORE r5, r2
    add         r4, 2
    lea         r0, [r0+r1*8]
    lea         r5, [r5+r1*8]
    dec         r6
    jg .loop
    REP_RET
%endmacro

INIT_XMM sse2
DEBLOCK_LUMA_64
%if HAVE_AVX_EXTERNAL
INIT_XMM avx
DEBLOCK_LUMA_64
%endif
%endif

%macro SWAPMOVA 2
%ifid %1
    SWAP %1, %2
%else
    mova %1, %2
%endif
%endmacro

; in: t0-t2: tmp registers
;     %1=p0 %2=p1 %3=p2 %4=p3 %5=q0 %6=q1 %7=mask0
;     %8=mask1p %9=2 %10=p0' %11=p1' %12=p2'
%macro LUMA_INTRA_P012 12 ; p0..p3 in memory
%if ARCH_X86_64
    paddw     t0, %3, %2
    mova      t2, %4
    paddw     t2, %3
%else
    mova      t0, %3
    mova      t2, %4
    paddw     t0, %2
    paddw     t2, %3
%endif
    paddw     t0, %1
    paddw     t2, t2
    paddw     t0, %5
    paddw     t2, %9
    paddw     t0, %9    ; (p2 + p1 + p0 + q0 + 2)
    paddw     t2, t0    ; (2*p3 + 3*p2 + p1 + p0 + q0 + 4)

    psrlw     t2, 3
    psrlw     t1, t0, 2
    psubw     t2, %3
    psubw     t1, %2
    pand      t2, %8
    pand      t1, %8
    paddw     t2, %3
    paddw     t1, %2
    SWAPMOVA %11, t1

    psubw     t1, t0, %3
    paddw     t0, t0
    psubw     t1, %5
    psubw     t0, %3
    paddw     t1, %6
    paddw     t1, %2
    paddw     t0, %6
    psrlw     t1, 2     ; (2*p1 + p0 + q1 + 2)/4
    psrlw     t0, 3     ; (p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4)>>3

    pxor      t0, t1
    pxor      t1, %1
    pand      t0, %8
    pand      t1, %7
    pxor      t0, t1
    pxor      t0, %1
    SWAPMOVA %10, t0
    SWAPMOVA %12, t2
%endmacro

%macro LUMA_INTRA_INIT 1
    %xdefine pad %1*mmsize+((gprsize*3) % mmsize)-(stack_offset&15)
    %define t0 m4
    %define t1 m5
    %define t2 m6
    %define t3 m7
    %assign i 4
%rep %1
    CAT_XDEFINE t, i, [rsp+mmsize*(i-4)]
    %assign i i+1
%endrep
    SUB    rsp, pad
%endmacro

; in: %1-%3=tmp, %4=p2, %5=q2
%macro LUMA_INTRA_INTER 5
    LOAD_AB t0, t1, r2d, r3d
    mova    %1, t0
    LOAD_MASK m0, m1, m2, m3, %1, t1, t0, t2, t3
%if ARCH_X86_64
    mova    %2, t0        ; mask0
    psrlw   t3, %1, 2
%else
    mova    t3, %1
    mova    %2, t0        ; mask0
    psrlw   t3, 2
%endif
    paddw   t3, [pw_2]    ; alpha/4+2
    DIFF_LT m1, m2, t3, t2, t0 ; t2 = |p0-q0| < alpha/4+2
    pand    t2, %2
    mova    t3, %5        ; q2
    mova    %1, t2        ; mask1
    DIFF_LT t3, m2, t1, t2, t0 ; t2 = |q2-q0| < beta
    pand    t2, %1
    mova    t3, %4        ; p2
    mova    %3, t2        ; mask1q
    DIFF_LT t3, m1, t1, t2, t0 ; t2 = |p2-p0| < beta
    pand    t2, %1
    mova    %1, t2        ; mask1p
%endmacro

%macro LUMA_H_INTRA_LOAD 0
%if mmsize == 8
    movu    t0, [r0-8]
    movu    t1, [r0+r1-8]
    movu    m0, [r0+r1*2-8]
    movu    m1, [r0+r4-8]
    TRANSPOSE4x4W 4, 5, 0, 1, 2
    mova    t4, t0        ; p3
    mova    t5, t1        ; p2

    movu    m2, [r0]
    movu    m3, [r0+r1]
    movu    t0, [r0+r1*2]
    movu    t1, [r0+r4]
    TRANSPOSE4x4W 2, 3, 4, 5, 6
    mova    t6, t0        ; q2
    mova    t7, t1        ; q3
%else
    movu    t0, [r0-8]
    movu    t1, [r0+r1-8]
    movu    m0, [r0+r1*2-8]
    movu    m1, [r0+r5-8]
    movu    m2, [r4-8]
    movu    m3, [r4+r1-8]
    movu    t2, [r4+r1*2-8]
    movu    t3, [r4+r5-8]
    TRANSPOSE8x8W 4, 5, 0, 1, 2, 3, 6, 7, t4, t5
    mova    t4, t0        ; p3
    mova    t5, t1        ; p2
    mova    t6, t2        ; q2
    mova    t7, t3        ; q3
%endif
%endmacro

; in: %1=q3 %2=q2' %3=q1' %4=q0' %5=p0' %6=p1' %7=p2' %8=p3 %9=tmp
%macro LUMA_H_INTRA_STORE 9
%if mmsize == 8
    TRANSPOSE4x4W %1, %2, %3, %4, %9
    movq       [r0-8], m%1
    movq       [r0+r1-8], m%2
    movq       [r0+r1*2-8], m%3
    movq       [r0+r4-8], m%4
    movq       m%1, %8
    TRANSPOSE4x4W %5, %6, %7, %1, %9
    movq       [r0], m%5
    movq       [r0+r1], m%6
    movq       [r0+r1*2], m%7
    movq       [r0+r4], m%1
%else
    TRANSPOSE2x4x4W %1, %2, %3, %4, %9
    movq       [r0-8], m%1
    movq       [r0+r1-8], m%2
    movq       [r0+r1*2-8], m%3
    movq       [r0+r5-8], m%4
    movhps     [r4-8], m%1
    movhps     [r4+r1-8], m%2
    movhps     [r4+r1*2-8], m%3
    movhps     [r4+r5-8], m%4
%ifnum %8
    SWAP       %1, %8
%else
    mova       m%1, %8
%endif
    TRANSPOSE2x4x4W %5, %6, %7, %1, %9
    movq       [r0], m%5
    movq       [r0+r1], m%6
    movq       [r0+r1*2], m%7
    movq       [r0+r5], m%1
    movhps     [r4], m%5
    movhps     [r4+r1], m%6
    movhps     [r4+r1*2], m%7
    movhps     [r4+r5], m%1
%endif
%endmacro

%if ARCH_X86_64
;-----------------------------------------------------------------------------
; void ff_deblock_v_luma_intra_10(uint16_t *pix, int stride, int alpha,
;                                 int beta)
;-----------------------------------------------------------------------------
%macro DEBLOCK_LUMA_INTRA_64 0
cglobal deblock_v_luma_intra_10, 4,7,16
    %define t0 m1
    %define t1 m2
    %define t2 m4
    %define p2 m8
    %define p1 m9
    %define p0 m10
    %define q0 m11
    %define q1 m12
    %define q2 m13
    %define aa m5
    %define bb m14
    lea     r4, [r1*4]
    lea     r5, [r1*3] ; 3*stride
    neg     r4
    add     r4, r0     ; pix-4*stride
    mov     r6, 2
    mova    m0, [pw_2]
    shl    r2d, 2
    shl    r3d, 2
    LOAD_AB aa, bb, r2d, r3d
.loop:
    mova    p2, [r4+r1]
    mova    p1, [r4+2*r1]
    mova    p0, [r4+r5]
    mova    q0, [r0]
    mova    q1, [r0+r1]
    mova    q2, [r0+2*r1]

    LOAD_MASK p1, p0, q0, q1, aa, bb, m3, t0, t1
    mova    t2, aa
    psrlw   t2, 2
    paddw   t2, m0 ; alpha/4+2
    DIFF_LT p0, q0, t2, m6, t0 ; m6 = |p0-q0| < alpha/4+2
    DIFF_LT p2, p0, bb, t1, t0 ; m7 = |p2-p0| < beta
    DIFF_LT q2, q0, bb, m7, t0 ; t1 = |q2-q0| < beta
    pand    m6, m3
    pand    m7, m6
    pand    m6, t1
    LUMA_INTRA_P012 p0, p1, p2, [r4], q0, q1, m3, m6, m0, [r4+r5], [r4+2*r1], [r4+r1]
    LUMA_INTRA_P012 q0, q1, q2, [r0+r5], p0, p1, m3, m7, m0, [r0], [r0+r1], [r0+2*r1]
    add     r0, mmsize
    add     r4, mmsize
    dec     r6
    jg .loop
    REP_RET

;-----------------------------------------------------------------------------
; void ff_deblock_h_luma_intra_10(uint16_t *pix, int stride, int alpha,
;                                 int beta)
;-----------------------------------------------------------------------------
cglobal deblock_h_luma_intra_10, 4,7,16
    %define t0 m15
    %define t1 m14
    %define t2 m2
    %define q3 m5
    %define q2 m8
    %define q1 m9
    %define q0 m10
    %define p0 m11
    %define p1 m12
    %define p2 m13
    %define p3 m4
    %define spill [rsp]
    %assign pad 24-(stack_offset&15)
    SUB     rsp, pad
    lea     r4, [r1*4]
    lea     r5, [r1*3] ; 3*stride
    add     r4, r0     ; pix+4*stride
    mov     r6, 2
    mova    m0, [pw_2]
    shl    r2d, 2
    shl    r3d, 2
.loop:
    movu    q3, [r0-8]
    movu    q2, [r0+r1-8]
    movu    q1, [r0+r1*2-8]
    movu    q0, [r0+r5-8]
    movu    p0, [r4-8]
    movu    p1, [r4+r1-8]
    movu    p2, [r4+r1*2-8]
    movu    p3, [r4+r5-8]
    TRANSPOSE8x8W 5, 8, 9, 10, 11, 12, 13, 4, 1

    LOAD_AB m1, m2, r2d, r3d
    LOAD_MASK q1, q0, p0, p1, m1, m2, m3, t0, t1
    psrlw   m1, 2
    paddw   m1, m0 ; alpha/4+2
    DIFF_LT p0, q0, m1, m6, t0 ; m6 = |p0-q0| < alpha/4+2
    DIFF_LT q2, q0, m2, t1, t0 ; t1 = |q2-q0| < beta
    DIFF_LT p0, p2, m2, m7, t0 ; m7 = |p2-p0| < beta
    pand    m6, m3
    pand    m7, m6
    pand    m6, t1

    mova spill, q3
    LUMA_INTRA_P012 q0, q1, q2, q3, p0, p1, m3, m6, m0, m5, m1, q2
    LUMA_INTRA_P012 p0, p1, p2, p3, q0, q1, m3, m7, m0, p0, m6, p2
    mova    m7, spill

    LUMA_H_INTRA_STORE 7, 8, 1, 5, 11, 6, 13, 4, 14

    lea     r0, [r0+r1*8]
    lea     r4, [r4+r1*8]
    dec     r6
    jg .loop
    ADD    rsp, pad
    RET
%endmacro

INIT_XMM sse2
DEBLOCK_LUMA_INTRA_64
%if HAVE_AVX_EXTERNAL
INIT_XMM avx
DEBLOCK_LUMA_INTRA_64
%endif

%endif

%macro DEBLOCK_LUMA_INTRA 0
;-----------------------------------------------------------------------------
; void ff_deblock_v_luma_intra_10(uint16_t *pix, int stride, int alpha,
;                                 int beta)
;-----------------------------------------------------------------------------
cglobal deblock_v_luma_intra_10, 4,7,8*(mmsize/16)
    LUMA_INTRA_INIT 3
    lea     r4, [r1*4]
    lea     r5, [r1*3]
    neg     r4
    add     r4, r0
    mov     r6, 32/mmsize
    shl    r2d, 2
    shl    r3d, 2
.loop:
    mova    m0, [r4+r1*2] ; p1
    mova    m1, [r4+r5]   ; p0
    mova    m2, [r0]      ; q0
    mova    m3, [r0+r1]   ; q1
    LUMA_INTRA_INTER t4, t5, t6, [r4+r1], [r0+r1*2]
    LUMA_INTRA_P012 m1, m0, t3, [r4], m2, m3, t5, t4, [pw_2], [r4+r5], [r4+2*r1], [r4+r1]
    mova    t3, [r0+r1*2] ; q2
    LUMA_INTRA_P012 m2, m3, t3, [r0+r5], m1, m0, t5, t6, [pw_2], [r0], [r0+r1], [r0+2*r1]
    add     r0, mmsize
    add     r4, mmsize
    dec     r6
    jg .loop
    ADD    rsp, pad
    RET

;-----------------------------------------------------------------------------
; void ff_deblock_h_luma_intra_10(uint16_t *pix, int stride, int alpha,
;                                 int beta)
;-----------------------------------------------------------------------------
cglobal deblock_h_luma_intra_10, 4,7,8*(mmsize/16)
    LUMA_INTRA_INIT 8
%if mmsize == 8
    lea     r4, [r1*3]
    mov     r5, 32/mmsize
%else
    lea     r4, [r1*4]
    lea     r5, [r1*3] ; 3*stride
    add     r4, r0     ; pix+4*stride
    mov     r6, 32/mmsize
%endif
    shl    r2d, 2
    shl    r3d, 2
.loop:
    LUMA_H_INTRA_LOAD
    LUMA_INTRA_INTER t8, t9, t10, t5, t6

    LUMA_INTRA_P012 m1, m0, t3, t4, m2, m3, t9, t8, [pw_2], t8, t5, t11
    mova    t3, t6     ; q2
    LUMA_INTRA_P012 m2, m3, t3, t7, m1, m0, t9, t10, [pw_2], m4, t6, m5

    mova    m2, t4
    mova    m0, t11
    mova    m1, t5
    mova    m3, t8
    mova    m6, t6

    LUMA_H_INTRA_STORE 2, 0, 1, 3, 4, 6, 5, t7, 7

    lea     r0, [r0+r1*(mmsize/2)]
%if mmsize == 8
    dec     r5
%else
    lea     r4, [r4+r1*(mmsize/2)]
    dec     r6
%endif
    jg .loop
    ADD    rsp, pad
    RET
%endmacro

%if ARCH_X86_64 == 0
INIT_MMX mmxext
DEBLOCK_LUMA
DEBLOCK_LUMA_INTRA
INIT_XMM sse2
DEBLOCK_LUMA
DEBLOCK_LUMA_INTRA
%if HAVE_AVX_EXTERNAL
INIT_XMM avx
DEBLOCK_LUMA
DEBLOCK_LUMA_INTRA
%endif
%endif

; in: %1=p0, %2=q0, %3=p1, %4=q1, %5=mask, %6=tmp, %7=tmp
; out: %1=p0', %2=q0'
%macro CHROMA_DEBLOCK_P0_Q0_INTRA 7
    mova    %6, [pw_2]
    paddw   %6, %3
    paddw   %6, %4
    paddw   %7, %6, %2
    paddw   %6, %1
    paddw   %6, %3
    paddw   %7, %4
    psraw   %6, 2
    psraw   %7, 2
    psubw   %6, %1
    psubw   %7, %2
    pand    %6, %5
    pand    %7, %5
    paddw   %1, %6
    paddw   %2, %7
%endmacro

%macro CHROMA_V_LOAD 1
    mova        m0, [r0]    ; p1
    mova        m1, [r0+r1] ; p0
    mova        m2, [%1]    ; q0
    mova        m3, [%1+r1] ; q1
%endmacro

%macro CHROMA_V_STORE 0
    mova [r0+1*r1], m1
    mova [r0+2*r1], m2
%endmacro

%macro CHROMA_V_LOAD_TC 2
    movd        %1, [%2]
    punpcklbw   %1, %1
    punpcklwd   %1, %1
    psraw       %1, 6
%endmacro

%macro DEBLOCK_CHROMA 0
;-----------------------------------------------------------------------------
; void ff_deblock_v_chroma_10(uint16_t *pix, int stride, int alpha, int beta,
;                             int8_t *tc0)
;-----------------------------------------------------------------------------
cglobal deblock_v_chroma_10, 5,7-(mmsize/16),8*(mmsize/16)
    mov         r5, r0
    sub         r0, r1
    sub         r0, r1
    shl        r2d, 2
    shl        r3d, 2
%if mmsize < 16
    mov         r6, 16/mmsize
.loop:
%endif
    CHROMA_V_LOAD r5
    LOAD_AB     m4, m5, r2d, r3d
    LOAD_MASK   m0, m1, m2, m3, m4, m5, m7, m6, m4
    pxor        m4, m4
    CHROMA_V_LOAD_TC m6, r4
    psubw       m6, [pw_3]
    pmaxsw      m6, m4
    pand        m7, m6
    DEBLOCK_P0_Q0 m1, m2, m0, m3, m7, m5, m6
    CHROMA_V_STORE
%if mmsize < 16
    add         r0, mmsize
    add         r5, mmsize
    add         r4, mmsize/4
    dec         r6
    jg .loop
    REP_RET
%else
    RET
%endif

;-----------------------------------------------------------------------------
; void ff_deblock_v_chroma_intra_10(uint16_t *pix, int stride, int alpha,
;                                   int beta)
;-----------------------------------------------------------------------------
cglobal deblock_v_chroma_intra_10, 4,6-(mmsize/16),8*(mmsize/16)
    mov         r4, r0
    sub         r0, r1
    sub         r0, r1
    shl        r2d, 2
    shl        r3d, 2
%if mmsize < 16
    mov         r5, 16/mmsize
.loop:
%endif
    CHROMA_V_LOAD r4
    LOAD_AB     m4, m5, r2d, r3d
    LOAD_MASK   m0, m1, m2, m3, m4, m5, m7, m6, m4
    CHROMA_DEBLOCK_P0_Q0_INTRA m1, m2, m0, m3, m7, m5, m6
    CHROMA_V_STORE
%if mmsize < 16
    add         r0, mmsize
    add         r4, mmsize
    dec         r5
    jg .loop
    REP_RET
%else
    RET
%endif
%endmacro

%if ARCH_X86_64 == 0
INIT_MMX mmxext
DEBLOCK_CHROMA
%endif
INIT_XMM sse2
DEBLOCK_CHROMA
%if HAVE_AVX_EXTERNAL
INIT_XMM avx
DEBLOCK_CHROMA
%endif
Commit	Line	Data
	1	;*****************************************************************************
	2	;* MMX/SSE2/AVX-optimized 10-bit H.264 deblocking code
	3	;*****************************************************************************
	4	;* Copyright (C) 2005-2011 x264 project
	5	;*
	6	;* Authors: Oskar Arvidsson <oskar@irock.se>
	7	;* Loren Merritt <lorenm@u.washington.edu>
	8	;* Fiona Glaser <fiona@x264.com>
	9	;*
	10	;* This file is part of FFmpeg.
	11	;*
	12	;* FFmpeg is free software; you can redistribute it and/or
	13	;* modify it under the terms of the GNU Lesser General Public
	14	;* License as published by the Free Software Foundation; either
	15	;* version 2.1 of the License, or (at your option) any later version.
	16	;*
	17	;* FFmpeg is distributed in the hope that it will be useful,
	18	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	19	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	20	;* Lesser General Public License for more details.
	21	;*
	22	;* You should have received a copy of the GNU Lesser General Public
	23	;* License along with FFmpeg; if not, write to the Free Software
	24	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	25	;******************************************************************************
	26
	27	%include "libavutil/x86/x86util.asm"
	28
	29	SECTION_RODATA
	30
	31	pw_pixel_max: times 8 dw ((1 << 10)-1)
	32
	33	SECTION .text
	34
	35	cextern pw_2
	36	cextern pw_3
	37	cextern pw_4
	38
	39	; out: %4 = \|%1-%2\|-%3
	40	; clobbers: %5
	41	%macro ABS_SUB 5
	42	psubusw %5, %2, %1
	43	psubusw %4, %1, %2
	44	por %4, %5
	45	psubw %4, %3
	46	%endmacro
	47
	48	; out: %4 = \|%1-%2\|<%3
	49	%macro DIFF_LT 5
	50	psubusw %4, %2, %1
	51	psubusw %5, %1, %2
	52	por %5, %4 ; \|%1-%2\|
	53	pxor %4, %4
	54	psubw %5, %3 ; \|%1-%2\|-%3
	55	pcmpgtw %4, %5 ; 0 > \|%1-%2\|-%3
	56	%endmacro
	57
	58	%macro LOAD_AB 4
	59	movd %1, %3
	60	movd %2, %4
	61	SPLATW %1, %1
	62	SPLATW %2, %2
	63	%endmacro
	64
	65	; in: %2=tc reg
	66	; out: %1=splatted tc
	67	%macro LOAD_TC 2
	68	movd %1, [%2]
	69	punpcklbw %1, %1
	70	%if mmsize == 8
	71	pshufw %1, %1, 0
	72	%else
	73	pshuflw %1, %1, 01010000b
	74	pshufd %1, %1, 01010000b
	75	%endif
	76	psraw %1, 6
	77	%endmacro
	78
	79	; in: %1=p1, %2=p0, %3=q0, %4=q1
	80	; %5=alpha, %6=beta, %7-%9=tmp
	81	; out: %7=mask
	82	%macro LOAD_MASK 9
	83	ABS_SUB %2, %3, %5, %8, %7 ; \|p0-q0\| - alpha
	84	ABS_SUB %1, %2, %6, %9, %7 ; \|p1-p0\| - beta
	85	pand %8, %9
	86	ABS_SUB %3, %4, %6, %9, %7 ; \|q1-q0\| - beta
	87	pxor %7, %7
	88	pand %8, %9
	89	pcmpgtw %7, %8
	90	%endmacro
	91
	92	; in: %1=p0, %2=q0, %3=p1, %4=q1, %5=mask, %6=tmp, %7=tmp
	93	; out: %1=p0', m2=q0'
	94	%macro DEBLOCK_P0_Q0 7
	95	psubw %3, %4
	96	pxor %7, %7
	97	paddw %3, [pw_4]
	98	psubw %7, %5
	99	psubw %6, %2, %1
	100	psllw %6, 2
	101	paddw %3, %6
	102	psraw %3, 3
	103	mova %6, [pw_pixel_max]
	104	CLIPW %3, %7, %5
	105	pxor %7, %7
	106	paddw %1, %3
	107	psubw %2, %3
	108	CLIPW %1, %7, %6
	109	CLIPW %2, %7, %6
	110	%endmacro
	111
	112	; in: %1=x2, %2=x1, %3=p0, %4=q0 %5=mask&tc, %6=tmp
	113	%macro LUMA_Q1 6
	114	pavgw %6, %3, %4 ; (p0+q0+1)>>1
	115	paddw %1, %6
	116	pxor %6, %6
	117	psraw %1, 1
	118	psubw %6, %5
	119	psubw %1, %2
	120	CLIPW %1, %6, %5
	121	paddw %1, %2
	122	%endmacro
	123
	124	%macro LUMA_DEBLOCK_ONE 3
	125	DIFF_LT m5, %1, bm, m4, m6
	126	pxor m6, m6
	127	mova %3, m4
	128	pcmpgtw m6, tcm
	129	pand m4, tcm
	130	pandn m6, m7
	131	pand m4, m6
	132	LUMA_Q1 m5, %2, m1, m2, m4, m6
	133	%endmacro
	134
	135	%macro LUMA_H_STORE 2
	136	%if mmsize == 8
	137	movq [r0-4], m0
	138	movq [r0+r1-4], m1
	139	movq [r0+r1*2-4], m2
	140	movq [r0+%2-4], m3
	141	%else
	142	movq [r0-4], m0
	143	movhps [r0+r1-4], m0
	144	movq [r0+r1*2-4], m1
	145	movhps [%1-4], m1
	146	movq [%1+r1-4], m2
	147	movhps [%1+r1*2-4], m2
	148	movq [%1+%2-4], m3
	149	movhps [%1+r1*4-4], m3
	150	%endif
	151	%endmacro
	152
	153	%macro DEBLOCK_LUMA 0
	154	;-----------------------------------------------------------------------------
	155	; void ff_deblock_v_luma_10(uint16_t *pix, int stride, int alpha, int beta,
	156	; int8_t *tc0)
	157	;-----------------------------------------------------------------------------
	158	cglobal deblock_v_luma_10, 5,5,8*(mmsize/16)
	159	%assign pad 5*mmsize+12-(stack_offset&15)
	160	%define tcm [rsp]
	161	%define ms1 [rsp+mmsize]
	162	%define ms2 [rsp+mmsize*2]
	163	%define am [rsp+mmsize*3]
	164	%define bm [rsp+mmsize*4]
	165	SUB rsp, pad
	166	shl r2d, 2
	167	shl r3d, 2
	168	LOAD_AB m4, m5, r2d, r3d
	169	mov r3, 32/mmsize
	170	mov r2, r0
	171	sub r0, r1
	172	mova am, m4
	173	sub r0, r1
	174	mova bm, m5
	175	sub r0, r1
	176	.loop:
	177	mova m0, [r0+r1]
	178	mova m1, [r0+r1*2]
	179	mova m2, [r2]
	180	mova m3, [r2+r1]
	181
	182	LOAD_MASK m0, m1, m2, m3, am, bm, m7, m4, m6
	183	LOAD_TC m6, r4
	184	mova tcm, m6
	185
	186	mova m5, [r0]
	187	LUMA_DEBLOCK_ONE m1, m0, ms1
	188	mova [r0+r1], m5
	189
	190	mova m5, [r2+r1*2]
	191	LUMA_DEBLOCK_ONE m2, m3, ms2
	192	mova [r2+r1], m5
	193
	194	pxor m5, m5
	195	mova m6, tcm
	196	pcmpgtw m5, tcm
	197	psubw m6, ms1
	198	pandn m5, m7
	199	psubw m6, ms2
	200	pand m5, m6
	201	DEBLOCK_P0_Q0 m1, m2, m0, m3, m5, m7, m6
	202	mova [r0+r1*2], m1
	203	mova [r2], m2
	204
	205	add r0, mmsize
	206	add r2, mmsize
	207	add r4, mmsize/8
	208	dec r3
	209	jg .loop
	210	ADD rsp, pad
	211	RET
	212
	213	cglobal deblock_h_luma_10, 5,6,8*(mmsize/16)
	214	%assign pad 7*mmsize+12-(stack_offset&15)
	215	%define tcm [rsp]
	216	%define ms1 [rsp+mmsize]
	217	%define ms2 [rsp+mmsize*2]
	218	%define p1m [rsp+mmsize*3]
	219	%define p2m [rsp+mmsize*4]
	220	%define am [rsp+mmsize*5]
	221	%define bm [rsp+mmsize*6]
	222	SUB rsp, pad
	223	shl r2d, 2
	224	shl r3d, 2
	225	LOAD_AB m4, m5, r2d, r3d
	226	mov r3, r1
	227	mova am, m4
	228	add r3, r1
	229	mov r5, 32/mmsize
	230	mova bm, m5
	231	add r3, r1
	232	%if mmsize == 16
	233	mov r2, r0
	234	add r2, r3
	235	%endif
	236	.loop:
	237	%if mmsize == 8
	238	movq m2, [r0-8] ; y q2 q1 q0
	239	movq m7, [r0+0]
	240	movq m5, [r0+r1-8]
	241	movq m3, [r0+r1+0]
	242	movq m0, [r0+r1*2-8]
	243	movq m6, [r0+r1*2+0]
	244	movq m1, [r0+r3-8]
	245	TRANSPOSE4x4W 2, 5, 0, 1, 4
	246	SWAP 2, 7
	247	movq m7, [r0+r3]
	248	TRANSPOSE4x4W 2, 3, 6, 7, 4
	249	%else
	250	movu m5, [r0-8] ; y q2 q1 q0 p0 p1 p2 x
	251	movu m0, [r0+r1-8]
	252	movu m2, [r0+r1*2-8]
	253	movu m3, [r2-8]
	254	TRANSPOSE4x4W 5, 0, 2, 3, 6
	255	mova tcm, m3
	256
	257	movu m4, [r2+r1-8]
	258	movu m1, [r2+r1*2-8]
	259	movu m3, [r2+r3-8]
	260	movu m7, [r2+r1*4-8]
	261	TRANSPOSE4x4W 4, 1, 3, 7, 6
	262
	263	mova m6, tcm
	264	punpcklqdq m6, m7
	265	punpckhqdq m5, m4
	266	SBUTTERFLY qdq, 0, 1, 7
	267	SBUTTERFLY qdq, 2, 3, 7
	268	%endif
	269
	270	mova p2m, m6
	271	LOAD_MASK m0, m1, m2, m3, am, bm, m7, m4, m6
	272	LOAD_TC m6, r4
	273	mova tcm, m6
	274
	275	LUMA_DEBLOCK_ONE m1, m0, ms1
	276	mova p1m, m5
	277
	278	mova m5, p2m
	279	LUMA_DEBLOCK_ONE m2, m3, ms2
	280	mova p2m, m5
	281
	282	pxor m5, m5
	283	mova m6, tcm
	284	pcmpgtw m5, tcm
	285	psubw m6, ms1
	286	pandn m5, m7
	287	psubw m6, ms2
	288	pand m5, m6
	289	DEBLOCK_P0_Q0 m1, m2, m0, m3, m5, m7, m6
	290	mova m0, p1m
	291	mova m3, p2m
	292	TRANSPOSE4x4W 0, 1, 2, 3, 4
	293	LUMA_H_STORE r2, r3
	294
	295	add r4, mmsize/8
	296	lea r0, [r0+r1*(mmsize/2)]
	297	lea r2, [r2+r1*(mmsize/2)]
	298	dec r5
	299	jg .loop
	300	ADD rsp, pad
	301	RET
	302	%endmacro
	303
	304	%if ARCH_X86_64
	305	; in: m0=p1, m1=p0, m2=q0, m3=q1, m8=p2, m9=q2
	306	; m12=alpha, m13=beta
	307	; out: m0=p1', m3=q1', m1=p0', m2=q0'
	308	; clobbers: m4, m5, m6, m7, m10, m11, m14
	309	%macro DEBLOCK_LUMA_INTER_SSE2 0
	310	LOAD_MASK m0, m1, m2, m3, m12, m13, m7, m4, m6
	311	LOAD_TC m6, r4
	312	DIFF_LT m8, m1, m13, m10, m4
	313	DIFF_LT m9, m2, m13, m11, m4
	314	pand m6, m7
	315
	316	mova m14, m6
	317	pxor m4, m4
	318	pcmpgtw m6, m4
	319	pand m6, m14
	320
	321	mova m5, m10
	322	pand m5, m6
	323	LUMA_Q1 m8, m0, m1, m2, m5, m4
	324
	325	mova m5, m11
	326	pand m5, m6
	327	LUMA_Q1 m9, m3, m1, m2, m5, m4
	328
	329	pxor m4, m4
	330	psubw m6, m10
	331	pcmpgtw m4, m14
	332	pandn m4, m7
	333	psubw m6, m11
	334	pand m4, m6
	335	DEBLOCK_P0_Q0 m1, m2, m0, m3, m4, m5, m6
	336
	337	SWAP 0, 8
	338	SWAP 3, 9
	339	%endmacro
	340
	341	%macro DEBLOCK_LUMA_64 0
	342	cglobal deblock_v_luma_10, 5,5,15
	343	%define p2 m8
	344	%define p1 m0
	345	%define p0 m1
	346	%define q0 m2
	347	%define q1 m3
	348	%define q2 m9
	349	%define mask0 m7
	350	%define mask1 m10
	351	%define mask2 m11
	352	shl r2d, 2
	353	shl r3d, 2
	354	LOAD_AB m12, m13, r2d, r3d
	355	mov r2, r0
	356	sub r0, r1
	357	sub r0, r1
	358	sub r0, r1
	359	mov r3, 2
	360	.loop:
	361	mova p2, [r0]
	362	mova p1, [r0+r1]
	363	mova p0, [r0+r1*2]
	364	mova q0, [r2]
	365	mova q1, [r2+r1]
	366	mova q2, [r2+r1*2]
	367	DEBLOCK_LUMA_INTER_SSE2
	368	mova [r0+r1], p1
	369	mova [r0+r1*2], p0
	370	mova [r2], q0
	371	mova [r2+r1], q1
	372	add r0, mmsize
	373	add r2, mmsize
	374	add r4, 2
	375	dec r3
	376	jg .loop
	377	REP_RET
	378
	379	cglobal deblock_h_luma_10, 5,7,15
	380	shl r2d, 2
	381	shl r3d, 2
	382	LOAD_AB m12, m13, r2d, r3d
	383	mov r2, r1
	384	add r2, r1
	385	add r2, r1
	386	mov r5, r0
	387	add r5, r2
	388	mov r6, 2
	389	.loop:
	390	movu m8, [r0-8] ; y q2 q1 q0 p0 p1 p2 x
	391	movu m0, [r0+r1-8]
	392	movu m2, [r0+r1*2-8]
	393	movu m9, [r5-8]
	394	movu m5, [r5+r1-8]
	395	movu m1, [r5+r1*2-8]
	396	movu m3, [r5+r2-8]
	397	movu m7, [r5+r1*4-8]
	398
	399	TRANSPOSE4x4W 8, 0, 2, 9, 10
	400	TRANSPOSE4x4W 5, 1, 3, 7, 10
	401
	402	punpckhqdq m8, m5
	403	SBUTTERFLY qdq, 0, 1, 10
	404	SBUTTERFLY qdq, 2, 3, 10
	405	punpcklqdq m9, m7
	406
	407	DEBLOCK_LUMA_INTER_SSE2
	408
	409	TRANSPOSE4x4W 0, 1, 2, 3, 4
	410	LUMA_H_STORE r5, r2
	411	add r4, 2
	412	lea r0, [r0+r1*8]
	413	lea r5, [r5+r1*8]
	414	dec r6
	415	jg .loop
	416	REP_RET
	417	%endmacro
	418
	419	INIT_XMM sse2
	420	DEBLOCK_LUMA_64
	421	%if HAVE_AVX_EXTERNAL
	422	INIT_XMM avx
	423	DEBLOCK_LUMA_64
	424	%endif
	425	%endif
	426
	427	%macro SWAPMOVA 2
	428	%ifid %1
	429	SWAP %1, %2
	430	%else
	431	mova %1, %2
	432	%endif
	433	%endmacro
	434
	435	; in: t0-t2: tmp registers
	436	; %1=p0 %2=p1 %3=p2 %4=p3 %5=q0 %6=q1 %7=mask0
	437	; %8=mask1p %9=2 %10=p0' %11=p1' %12=p2'
	438	%macro LUMA_INTRA_P012 12 ; p0..p3 in memory
	439	%if ARCH_X86_64
	440	paddw t0, %3, %2
	441	mova t2, %4
	442	paddw t2, %3
	443	%else
	444	mova t0, %3
	445	mova t2, %4
	446	paddw t0, %2
	447	paddw t2, %3
	448	%endif
	449	paddw t0, %1
	450	paddw t2, t2
	451	paddw t0, %5
	452	paddw t2, %9
	453	paddw t0, %9 ; (p2 + p1 + p0 + q0 + 2)
	454	paddw t2, t0 ; (2p3 + 3p2 + p1 + p0 + q0 + 4)
	455
	456	psrlw t2, 3
	457	psrlw t1, t0, 2
	458	psubw t2, %3
	459	psubw t1, %2
	460	pand t2, %8
	461	pand t1, %8
	462	paddw t2, %3
	463	paddw t1, %2
	464	SWAPMOVA %11, t1
	465
	466	psubw t1, t0, %3
	467	paddw t0, t0
	468	psubw t1, %5
	469	psubw t0, %3
	470	paddw t1, %6
	471	paddw t1, %2
	472	paddw t0, %6
	473	psrlw t1, 2 ; (2*p1 + p0 + q1 + 2)/4
	474	psrlw t0, 3 ; (p2 + 2p1 + 2p0 + 2*q0 + q1 + 4)>>3
	475
	476	pxor t0, t1
	477	pxor t1, %1
	478	pand t0, %8
	479	pand t1, %7
	480	pxor t0, t1
	481	pxor t0, %1
	482	SWAPMOVA %10, t0
	483	SWAPMOVA %12, t2
	484	%endmacro
	485
	486	%macro LUMA_INTRA_INIT 1
	487	%xdefine pad %1mmsize+((gprsize3) % mmsize)-(stack_offset&15)
	488	%define t0 m4
	489	%define t1 m5
	490	%define t2 m6
	491	%define t3 m7
	492	%assign i 4
	493	%rep %1
	494	CAT_XDEFINE t, i, [rsp+mmsize*(i-4)]
	495	%assign i i+1
	496	%endrep
	497	SUB rsp, pad
	498	%endmacro
	499
	500	; in: %1-%3=tmp, %4=p2, %5=q2
	501	%macro LUMA_INTRA_INTER 5
	502	LOAD_AB t0, t1, r2d, r3d
	503	mova %1, t0
	504	LOAD_MASK m0, m1, m2, m3, %1, t1, t0, t2, t3
	505	%if ARCH_X86_64
	506	mova %2, t0 ; mask0
	507	psrlw t3, %1, 2
	508	%else
	509	mova t3, %1
	510	mova %2, t0 ; mask0
	511	psrlw t3, 2
	512	%endif
	513	paddw t3, [pw_2] ; alpha/4+2
	514	DIFF_LT m1, m2, t3, t2, t0 ; t2 = \|p0-q0\| < alpha/4+2
	515	pand t2, %2
	516	mova t3, %5 ; q2
	517	mova %1, t2 ; mask1
	518	DIFF_LT t3, m2, t1, t2, t0 ; t2 = \|q2-q0\| < beta
	519	pand t2, %1
	520	mova t3, %4 ; p2
	521	mova %3, t2 ; mask1q
	522	DIFF_LT t3, m1, t1, t2, t0 ; t2 = \|p2-p0\| < beta
	523	pand t2, %1
	524	mova %1, t2 ; mask1p
	525	%endmacro
	526
	527	%macro LUMA_H_INTRA_LOAD 0
	528	%if mmsize == 8
	529	movu t0, [r0-8]
	530	movu t1, [r0+r1-8]
	531	movu m0, [r0+r1*2-8]
	532	movu m1, [r0+r4-8]
	533	TRANSPOSE4x4W 4, 5, 0, 1, 2
	534	mova t4, t0 ; p3
	535	mova t5, t1 ; p2
	536
	537	movu m2, [r0]
	538	movu m3, [r0+r1]
	539	movu t0, [r0+r1*2]
	540	movu t1, [r0+r4]
	541	TRANSPOSE4x4W 2, 3, 4, 5, 6
	542	mova t6, t0 ; q2
	543	mova t7, t1 ; q3
	544	%else
	545	movu t0, [r0-8]
	546	movu t1, [r0+r1-8]
	547	movu m0, [r0+r1*2-8]
	548	movu m1, [r0+r5-8]
	549	movu m2, [r4-8]
	550	movu m3, [r4+r1-8]
	551	movu t2, [r4+r1*2-8]
	552	movu t3, [r4+r5-8]
	553	TRANSPOSE8x8W 4, 5, 0, 1, 2, 3, 6, 7, t4, t5
	554	mova t4, t0 ; p3
	555	mova t5, t1 ; p2
	556	mova t6, t2 ; q2
	557	mova t7, t3 ; q3
	558	%endif
	559	%endmacro
	560
	561	; in: %1=q3 %2=q2' %3=q1' %4=q0' %5=p0' %6=p1' %7=p2' %8=p3 %9=tmp
	562	%macro LUMA_H_INTRA_STORE 9
	563	%if mmsize == 8
	564	TRANSPOSE4x4W %1, %2, %3, %4, %9
	565	movq [r0-8], m%1
	566	movq [r0+r1-8], m%2
	567	movq [r0+r1*2-8], m%3
	568	movq [r0+r4-8], m%4
	569	movq m%1, %8
	570	TRANSPOSE4x4W %5, %6, %7, %1, %9
	571	movq [r0], m%5
	572	movq [r0+r1], m%6
	573	movq [r0+r1*2], m%7
	574	movq [r0+r4], m%1
	575	%else
	576	TRANSPOSE2x4x4W %1, %2, %3, %4, %9
	577	movq [r0-8], m%1
	578	movq [r0+r1-8], m%2
	579	movq [r0+r1*2-8], m%3
	580	movq [r0+r5-8], m%4
	581	movhps [r4-8], m%1
	582	movhps [r4+r1-8], m%2
	583	movhps [r4+r1*2-8], m%3
	584	movhps [r4+r5-8], m%4
	585	%ifnum %8
	586	SWAP %1, %8
	587	%else
	588	mova m%1, %8
	589	%endif
	590	TRANSPOSE2x4x4W %5, %6, %7, %1, %9
	591	movq [r0], m%5
	592	movq [r0+r1], m%6
	593	movq [r0+r1*2], m%7
	594	movq [r0+r5], m%1
	595	movhps [r4], m%5
	596	movhps [r4+r1], m%6
	597	movhps [r4+r1*2], m%7
	598	movhps [r4+r5], m%1
	599	%endif
	600	%endmacro
	601
	602	%if ARCH_X86_64
	603	;-----------------------------------------------------------------------------
	604	; void ff_deblock_v_luma_intra_10(uint16_t *pix, int stride, int alpha,
	605	; int beta)
	606	;-----------------------------------------------------------------------------
	607	%macro DEBLOCK_LUMA_INTRA_64 0
	608	cglobal deblock_v_luma_intra_10, 4,7,16
	609	%define t0 m1
	610	%define t1 m2
	611	%define t2 m4
	612	%define p2 m8
	613	%define p1 m9
	614	%define p0 m10
	615	%define q0 m11
	616	%define q1 m12
	617	%define q2 m13
	618	%define aa m5
	619	%define bb m14
	620	lea r4, [r1*4]
	621	lea r5, [r13] ; 3stride
	622	neg r4
	623	add r4, r0 ; pix-4*stride
	624	mov r6, 2
	625	mova m0, [pw_2]
	626	shl r2d, 2
	627	shl r3d, 2
	628	LOAD_AB aa, bb, r2d, r3d
	629	.loop:
	630	mova p2, [r4+r1]
	631	mova p1, [r4+2*r1]
	632	mova p0, [r4+r5]
	633	mova q0, [r0]
	634	mova q1, [r0+r1]
	635	mova q2, [r0+2*r1]
	636
	637	LOAD_MASK p1, p0, q0, q1, aa, bb, m3, t0, t1
	638	mova t2, aa
	639	psrlw t2, 2
	640	paddw t2, m0 ; alpha/4+2
	641	DIFF_LT p0, q0, t2, m6, t0 ; m6 = \|p0-q0\| < alpha/4+2
	642	DIFF_LT p2, p0, bb, t1, t0 ; m7 = \|p2-p0\| < beta
	643	DIFF_LT q2, q0, bb, m7, t0 ; t1 = \|q2-q0\| < beta
	644	pand m6, m3
	645	pand m7, m6
	646	pand m6, t1
	647	LUMA_INTRA_P012 p0, p1, p2, [r4], q0, q1, m3, m6, m0, [r4+r5], [r4+2*r1], [r4+r1]
	648	LUMA_INTRA_P012 q0, q1, q2, [r0+r5], p0, p1, m3, m7, m0, [r0], [r0+r1], [r0+2*r1]
	649	add r0, mmsize
	650	add r4, mmsize
	651	dec r6
	652	jg .loop
	653	REP_RET
	654
	655	;-----------------------------------------------------------------------------
	656	; void ff_deblock_h_luma_intra_10(uint16_t *pix, int stride, int alpha,
	657	; int beta)
	658	;-----------------------------------------------------------------------------
	659	cglobal deblock_h_luma_intra_10, 4,7,16
	660	%define t0 m15
	661	%define t1 m14
	662	%define t2 m2
	663	%define q3 m5
	664	%define q2 m8
	665	%define q1 m9
	666	%define q0 m10
	667	%define p0 m11
	668	%define p1 m12
	669	%define p2 m13
	670	%define p3 m4
	671	%define spill [rsp]
	672	%assign pad 24-(stack_offset&15)
	673	SUB rsp, pad
	674	lea r4, [r1*4]
	675	lea r5, [r13] ; 3stride
	676	add r4, r0 ; pix+4*stride
	677	mov r6, 2
	678	mova m0, [pw_2]
	679	shl r2d, 2
	680	shl r3d, 2
	681	.loop:
	682	movu q3, [r0-8]
	683	movu q2, [r0+r1-8]
	684	movu q1, [r0+r1*2-8]
	685	movu q0, [r0+r5-8]
	686	movu p0, [r4-8]
	687	movu p1, [r4+r1-8]
	688	movu p2, [r4+r1*2-8]
	689	movu p3, [r4+r5-8]
	690	TRANSPOSE8x8W 5, 8, 9, 10, 11, 12, 13, 4, 1
	691
	692	LOAD_AB m1, m2, r2d, r3d
	693	LOAD_MASK q1, q0, p0, p1, m1, m2, m3, t0, t1
	694	psrlw m1, 2
	695	paddw m1, m0 ; alpha/4+2
	696	DIFF_LT p0, q0, m1, m6, t0 ; m6 = \|p0-q0\| < alpha/4+2
	697	DIFF_LT q2, q0, m2, t1, t0 ; t1 = \|q2-q0\| < beta
	698	DIFF_LT p0, p2, m2, m7, t0 ; m7 = \|p2-p0\| < beta
	699	pand m6, m3
	700	pand m7, m6
	701	pand m6, t1
	702
	703	mova spill, q3
	704	LUMA_INTRA_P012 q0, q1, q2, q3, p0, p1, m3, m6, m0, m5, m1, q2
	705	LUMA_INTRA_P012 p0, p1, p2, p3, q0, q1, m3, m7, m0, p0, m6, p2
	706	mova m7, spill
	707
	708	LUMA_H_INTRA_STORE 7, 8, 1, 5, 11, 6, 13, 4, 14
	709
	710	lea r0, [r0+r1*8]
	711	lea r4, [r4+r1*8]
	712	dec r6
	713	jg .loop
	714	ADD rsp, pad
	715	RET
	716	%endmacro
	717
	718	INIT_XMM sse2
	719	DEBLOCK_LUMA_INTRA_64
	720	%if HAVE_AVX_EXTERNAL
	721	INIT_XMM avx
	722	DEBLOCK_LUMA_INTRA_64
	723	%endif
	724
	725	%endif
	726
	727	%macro DEBLOCK_LUMA_INTRA 0
	728	;-----------------------------------------------------------------------------
	729	; void ff_deblock_v_luma_intra_10(uint16_t *pix, int stride, int alpha,
	730	; int beta)
	731	;-----------------------------------------------------------------------------
	732	cglobal deblock_v_luma_intra_10, 4,7,8*(mmsize/16)
	733	LUMA_INTRA_INIT 3
	734	lea r4, [r1*4]
	735	lea r5, [r1*3]
	736	neg r4
	737	add r4, r0
	738	mov r6, 32/mmsize
	739	shl r2d, 2
	740	shl r3d, 2
	741	.loop:
	742	mova m0, [r4+r1*2] ; p1
	743	mova m1, [r4+r5] ; p0
	744	mova m2, [r0] ; q0
	745	mova m3, [r0+r1] ; q1
	746	LUMA_INTRA_INTER t4, t5, t6, [r4+r1], [r0+r1*2]
	747	LUMA_INTRA_P012 m1, m0, t3, [r4], m2, m3, t5, t4, [pw_2], [r4+r5], [r4+2*r1], [r4+r1]
	748	mova t3, [r0+r1*2] ; q2
	749	LUMA_INTRA_P012 m2, m3, t3, [r0+r5], m1, m0, t5, t6, [pw_2], [r0], [r0+r1], [r0+2*r1]
	750	add r0, mmsize
	751	add r4, mmsize
	752	dec r6
	753	jg .loop
	754	ADD rsp, pad
	755	RET
	756
	757	;-----------------------------------------------------------------------------
	758	; void ff_deblock_h_luma_intra_10(uint16_t *pix, int stride, int alpha,
	759	; int beta)
	760	;-----------------------------------------------------------------------------
	761	cglobal deblock_h_luma_intra_10, 4,7,8*(mmsize/16)
	762	LUMA_INTRA_INIT 8
	763	%if mmsize == 8
	764	lea r4, [r1*3]
	765	mov r5, 32/mmsize
	766	%else
	767	lea r4, [r1*4]
	768	lea r5, [r13] ; 3stride
	769	add r4, r0 ; pix+4*stride
	770	mov r6, 32/mmsize
	771	%endif
	772	shl r2d, 2
	773	shl r3d, 2
	774	.loop:
	775	LUMA_H_INTRA_LOAD
	776	LUMA_INTRA_INTER t8, t9, t10, t5, t6
	777
	778	LUMA_INTRA_P012 m1, m0, t3, t4, m2, m3, t9, t8, [pw_2], t8, t5, t11
	779	mova t3, t6 ; q2
	780	LUMA_INTRA_P012 m2, m3, t3, t7, m1, m0, t9, t10, [pw_2], m4, t6, m5
	781
	782	mova m2, t4
	783	mova m0, t11
	784	mova m1, t5
	785	mova m3, t8
	786	mova m6, t6
	787
	788	LUMA_H_INTRA_STORE 2, 0, 1, 3, 4, 6, 5, t7, 7
	789
	790	lea r0, [r0+r1*(mmsize/2)]
	791	%if mmsize == 8
	792	dec r5
	793	%else
	794	lea r4, [r4+r1*(mmsize/2)]
	795	dec r6
	796	%endif
	797	jg .loop
	798	ADD rsp, pad
	799	RET
	800	%endmacro
	801
	802	%if ARCH_X86_64 == 0
	803	INIT_MMX mmxext
	804	DEBLOCK_LUMA
	805	DEBLOCK_LUMA_INTRA
	806	INIT_XMM sse2
	807	DEBLOCK_LUMA
	808	DEBLOCK_LUMA_INTRA
	809	%if HAVE_AVX_EXTERNAL
	810	INIT_XMM avx
	811	DEBLOCK_LUMA
	812	DEBLOCK_LUMA_INTRA
	813	%endif
	814	%endif
	815
	816	; in: %1=p0, %2=q0, %3=p1, %4=q1, %5=mask, %6=tmp, %7=tmp
	817	; out: %1=p0', %2=q0'
	818	%macro CHROMA_DEBLOCK_P0_Q0_INTRA 7
	819	mova %6, [pw_2]
	820	paddw %6, %3
	821	paddw %6, %4
	822	paddw %7, %6, %2
	823	paddw %6, %1
	824	paddw %6, %3
	825	paddw %7, %4
	826	psraw %6, 2
	827	psraw %7, 2
	828	psubw %6, %1
	829	psubw %7, %2
	830	pand %6, %5
	831	pand %7, %5
	832	paddw %1, %6
	833	paddw %2, %7
	834	%endmacro
	835
	836	%macro CHROMA_V_LOAD 1
	837	mova m0, [r0] ; p1
	838	mova m1, [r0+r1] ; p0
	839	mova m2, [%1] ; q0
	840	mova m3, [%1+r1] ; q1
	841	%endmacro
	842
	843	%macro CHROMA_V_STORE 0
	844	mova [r0+1*r1], m1
	845	mova [r0+2*r1], m2
	846	%endmacro
	847
	848	%macro CHROMA_V_LOAD_TC 2
	849	movd %1, [%2]
	850	punpcklbw %1, %1
	851	punpcklwd %1, %1
	852	psraw %1, 6
	853	%endmacro
	854
	855	%macro DEBLOCK_CHROMA 0
	856	;-----------------------------------------------------------------------------
	857	; void ff_deblock_v_chroma_10(uint16_t *pix, int stride, int alpha, int beta,
	858	; int8_t *tc0)
	859	;-----------------------------------------------------------------------------
	860	cglobal deblock_v_chroma_10, 5,7-(mmsize/16),8*(mmsize/16)
	861	mov r5, r0
	862	sub r0, r1
	863	sub r0, r1
	864	shl r2d, 2
	865	shl r3d, 2
	866	%if mmsize < 16
	867	mov r6, 16/mmsize
	868	.loop:
	869	%endif
	870	CHROMA_V_LOAD r5
	871	LOAD_AB m4, m5, r2d, r3d
	872	LOAD_MASK m0, m1, m2, m3, m4, m5, m7, m6, m4
	873	pxor m4, m4
	874	CHROMA_V_LOAD_TC m6, r4
	875	psubw m6, [pw_3]
	876	pmaxsw m6, m4
	877	pand m7, m6
	878	DEBLOCK_P0_Q0 m1, m2, m0, m3, m7, m5, m6
	879	CHROMA_V_STORE
	880	%if mmsize < 16
	881	add r0, mmsize
	882	add r5, mmsize
	883	add r4, mmsize/4
	884	dec r6
	885	jg .loop
	886	REP_RET
	887	%else
	888	RET
	889	%endif
	890
	891	;-----------------------------------------------------------------------------
	892	; void ff_deblock_v_chroma_intra_10(uint16_t *pix, int stride, int alpha,
	893	; int beta)
	894	;-----------------------------------------------------------------------------
	895	cglobal deblock_v_chroma_intra_10, 4,6-(mmsize/16),8*(mmsize/16)
	896	mov r4, r0
	897	sub r0, r1
	898	sub r0, r1
	899	shl r2d, 2
	900	shl r3d, 2
	901	%if mmsize < 16
	902	mov r5, 16/mmsize
	903	.loop:
	904	%endif
	905	CHROMA_V_LOAD r4
	906	LOAD_AB m4, m5, r2d, r3d
	907	LOAD_MASK m0, m1, m2, m3, m4, m5, m7, m6, m4
	908	CHROMA_DEBLOCK_P0_Q0_INTRA m1, m2, m0, m3, m7, m5, m6
	909	CHROMA_V_STORE
	910	%if mmsize < 16
	911	add r0, mmsize
	912	add r4, mmsize
	913	dec r5
	914	jg .loop
	915	REP_RET
	916	%else
	917	RET
	918	%endif
	919	%endmacro
	920
	921	%if ARCH_X86_64 == 0
	922	INIT_MMX mmxext
	923	DEBLOCK_CHROMA
	924	%endif
	925	INIT_XMM sse2
	926	DEBLOCK_CHROMA
	927	%if HAVE_AVX_EXTERNAL
	928	INIT_XMM avx
	929	DEBLOCK_CHROMA
	930	%endif