[deb_ffmpeg.git] / ffmpeg / libavcodec / x86 / vc1dsp.asm

;******************************************************************************
;* VC1 deblocking optimizations
;* Copyright (c) 2009 David Conrad
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "libavutil/x86/x86util.asm"

cextern pw_4
cextern pw_5

section .text

; dst_low, dst_high (src), zero
; zero-extends one vector from 8 to 16 bits
%macro UNPACK_8TO16 4
    mova      m%2, m%3
    punpckh%1 m%3, m%4
    punpckl%1 m%2, m%4
%endmacro

%macro STORE_4_WORDS 6
%if cpuflag(sse4)
    pextrw %1, %5, %6+0
    pextrw %2, %5, %6+1
    pextrw %3, %5, %6+2
    pextrw %4, %5, %6+3
%else
    movd  %6d, %5
%if mmsize==16
    psrldq %5, 4
%else
    psrlq  %5, 32
%endif
    mov    %1, %6w
    shr    %6, 16
    mov    %2, %6w
    movd  %6d, %5
    mov    %3, %6w
    shr    %6, 16
    mov    %4, %6w
%endif
%endmacro

; in:  p1 p0 q0 q1, clobbers p0
; out: p1 = (2*(p1 - q1) - 5*(p0 - q0) + 4) >> 3
%macro VC1_LOOP_FILTER_A0 4
    psubw  %1, %4
    psubw  %2, %3
    paddw  %1, %1
    pmullw %2, [pw_5]
    psubw  %1, %2
    paddw  %1, [pw_4]
    psraw  %1, 3
%endmacro

; in: p0 q0 a0 a1 a2
;     m0 m1 m7 m6 m5
; %1: size
; out: m0=p0' m1=q0'
%macro VC1_FILTER 1
    PABSW   m4, m7
    PABSW   m3, m6
    PABSW   m2, m5
    mova    m6, m4
    pminsw  m3, m2
    pcmpgtw m6, m3  ; if (a2 < a0 || a1 < a0)
    psubw   m3, m4
    pmullw  m3, [pw_5]   ; 5*(a3 - a0)
    PABSW   m2, m3
    psraw   m2, 3   ; abs(d/8)
    pxor    m7, m3  ; d_sign ^= a0_sign

    pxor    m5, m5
    movd    m3, r2d
%if %1 > 4
    punpcklbw m3, m3
%endif
    punpcklbw m3, m5
    pcmpgtw m3, m4  ; if (a0 < pq)
    pand    m6, m3

    mova    m3, m0
    psubw   m3, m1
    PABSW   m4, m3
    psraw   m4, 1
    pxor    m3, m7  ; d_sign ^ clip_sign
    psraw   m3, 15
    pminsw  m2, m4  ; min(d, clip)
    pcmpgtw m4, m5
    pand    m6, m4  ; filt3 (C return value)

; each set of 4 pixels is not filtered if the 3rd is not
%if mmsize==16
    pshuflw m4, m6, 0xaa
%if %1 > 4
    pshufhw m4, m4, 0xaa
%endif
%else
    pshufw  m4, m6, 0xaa
%endif
    pandn   m3, m4
    pand    m2, m6
    pand    m3, m2  ; d final

    psraw   m7, 15
    pxor    m3, m7
    psubw   m3, m7
    psubw   m0, m3
    paddw   m1, m3
    packuswb m0, m0
    packuswb m1, m1
%endmacro

; 1st param: size of filter
; 2nd param: mov suffix equivalent to the filter size
%macro VC1_V_LOOP_FILTER 2
    pxor      m5, m5
    mov%2     m6, [r4]
    mov%2     m4, [r4+r1]
    mov%2     m7, [r4+2*r1]
    mov%2     m0, [r4+r3]
    punpcklbw m6, m5
    punpcklbw m4, m5
    punpcklbw m7, m5
    punpcklbw m0, m5

    VC1_LOOP_FILTER_A0 m6, m4, m7, m0
    mov%2     m1, [r0]
    mov%2     m2, [r0+r1]
    punpcklbw m1, m5
    punpcklbw m2, m5
    mova      m4, m0
    VC1_LOOP_FILTER_A0 m7, m4, m1, m2
    mov%2     m3, [r0+2*r1]
    mov%2     m4, [r0+r3]
    punpcklbw m3, m5
    punpcklbw m4, m5
    mova      m5, m1
    VC1_LOOP_FILTER_A0 m5, m2, m3, m4

    VC1_FILTER %1
    mov%2 [r4+r3], m0
    mov%2 [r0],    m1
%endmacro

; 1st param: size of filter
;     NOTE: UNPACK_8TO16 this number of 8 bit numbers are in half a register
; 2nd (optional) param: temp register to use for storing words
%macro VC1_H_LOOP_FILTER 1-2
%if %1 == 4
    movq      m0, [r0     -4]
    movq      m1, [r0+  r1-4]
    movq      m2, [r0+2*r1-4]
    movq      m3, [r0+  r3-4]
    TRANSPOSE4x4B 0, 1, 2, 3, 4
%else
    movq      m0, [r0     -4]
    movq      m4, [r0+  r1-4]
    movq      m1, [r0+2*r1-4]
    movq      m5, [r0+  r3-4]
    movq      m2, [r4     -4]
    movq      m6, [r4+  r1-4]
    movq      m3, [r4+2*r1-4]
    movq      m7, [r4+  r3-4]
    punpcklbw m0, m4
    punpcklbw m1, m5
    punpcklbw m2, m6
    punpcklbw m3, m7
    TRANSPOSE4x4W 0, 1, 2, 3, 4
%endif
    pxor      m5, m5

    UNPACK_8TO16 bw, 6, 0, 5
    UNPACK_8TO16 bw, 7, 1, 5
    VC1_LOOP_FILTER_A0 m6, m0, m7, m1
    UNPACK_8TO16 bw, 4, 2, 5
    mova    m0, m1                      ; m0 = p0
    VC1_LOOP_FILTER_A0 m7, m1, m4, m2
    UNPACK_8TO16 bw, 1, 3, 5
    mova    m5, m4
    VC1_LOOP_FILTER_A0 m5, m2, m1, m3
    SWAP 1, 4                           ; m1 = q0

    VC1_FILTER %1
    punpcklbw m0, m1
%if %0 > 1
    STORE_4_WORDS [r0-1], [r0+r1-1], [r0+2*r1-1], [r0+r3-1], m0, %2
%if %1 > 4
    psrldq m0, 4
    STORE_4_WORDS [r4-1], [r4+r1-1], [r4+2*r1-1], [r4+r3-1], m0, %2
%endif
%else
    STORE_4_WORDS [r0-1], [r0+r1-1], [r0+2*r1-1], [r0+r3-1], m0, 0
    STORE_4_WORDS [r4-1], [r4+r1-1], [r4+2*r1-1], [r4+r3-1], m0, 4
%endif
%endmacro


%macro START_V_FILTER 0
    mov  r4, r0
    lea  r3, [4*r1]
    sub  r4, r3
    lea  r3, [r1+2*r1]
    imul r2, 0x01010101
%endmacro

%macro START_H_FILTER 1
    lea  r3, [r1+2*r1]
%if %1 > 4
    lea  r4, [r0+4*r1]
%endif
    imul r2, 0x01010101
%endmacro

%macro VC1_LF 0
cglobal vc1_v_loop_filter_internal
    VC1_V_LOOP_FILTER 4, d
    ret

cglobal vc1_h_loop_filter_internal
    VC1_H_LOOP_FILTER 4, r4
    ret

; void ff_vc1_v_loop_filter4_mmxext(uint8_t *src, int stride, int pq)
cglobal vc1_v_loop_filter4, 3,5,0
    START_V_FILTER
    call vc1_v_loop_filter_internal
    RET

; void ff_vc1_h_loop_filter4_mmxext(uint8_t *src, int stride, int pq)
cglobal vc1_h_loop_filter4, 3,5,0
    START_H_FILTER 4
    call vc1_h_loop_filter_internal
    RET

; void ff_vc1_v_loop_filter8_mmxext(uint8_t *src, int stride, int pq)
cglobal vc1_v_loop_filter8, 3,5,0
    START_V_FILTER
    call vc1_v_loop_filter_internal
    add  r4, 4
    add  r0, 4
    call vc1_v_loop_filter_internal
    RET

; void ff_vc1_h_loop_filter8_mmxext(uint8_t *src, int stride, int pq)
cglobal vc1_h_loop_filter8, 3,5,0
    START_H_FILTER 4
    call vc1_h_loop_filter_internal
    lea  r0, [r0+4*r1]
    call vc1_h_loop_filter_internal
    RET
%endmacro

INIT_MMX mmxext
VC1_LF

INIT_XMM sse2
; void ff_vc1_v_loop_filter8_sse2(uint8_t *src, int stride, int pq)
cglobal vc1_v_loop_filter8, 3,5,8
    START_V_FILTER
    VC1_V_LOOP_FILTER 8, q
    RET

; void ff_vc1_h_loop_filter8_sse2(uint8_t *src, int stride, int pq)
cglobal vc1_h_loop_filter8, 3,6,8
    START_H_FILTER 8
    VC1_H_LOOP_FILTER 8, r5
    RET

INIT_MMX ssse3
; void ff_vc1_v_loop_filter4_ssse3(uint8_t *src, int stride, int pq)
cglobal vc1_v_loop_filter4, 3,5,0
    START_V_FILTER
    VC1_V_LOOP_FILTER 4, d
    RET

; void ff_vc1_h_loop_filter4_ssse3(uint8_t *src, int stride, int pq)
cglobal vc1_h_loop_filter4, 3,5,0
    START_H_FILTER 4
    VC1_H_LOOP_FILTER 4, r4
    RET

INIT_XMM ssse3
; void ff_vc1_v_loop_filter8_ssse3(uint8_t *src, int stride, int pq)
cglobal vc1_v_loop_filter8, 3,5,8
    START_V_FILTER
    VC1_V_LOOP_FILTER 8, q
    RET

; void ff_vc1_h_loop_filter8_ssse3(uint8_t *src, int stride, int pq)
cglobal vc1_h_loop_filter8, 3,6,8
    START_H_FILTER 8
    VC1_H_LOOP_FILTER 8, r5
    RET

INIT_XMM sse4
; void ff_vc1_h_loop_filter8_sse4(uint8_t *src, int stride, int pq)
cglobal vc1_h_loop_filter8, 3,5,8
    START_H_FILTER 8
    VC1_H_LOOP_FILTER 8
    RET
Commit	Line	Data
	1	;******************************************************************************
	2	;* VC1 deblocking optimizations
	3	;* Copyright (c) 2009 David Conrad
	4	;*
	5	;* This file is part of FFmpeg.
	6	;*
	7	;* FFmpeg is free software; you can redistribute it and/or
	8	;* modify it under the terms of the GNU Lesser General Public
	9	;* License as published by the Free Software Foundation; either
	10	;* version 2.1 of the License, or (at your option) any later version.
	11	;*
	12	;* FFmpeg is distributed in the hope that it will be useful,
	13	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	14	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	15	;* Lesser General Public License for more details.
	16	;*
	17	;* You should have received a copy of the GNU Lesser General Public
	18	;* License along with FFmpeg; if not, write to the Free Software
	19	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	20	;******************************************************************************
	21
	22	%include "libavutil/x86/x86util.asm"
	23
	24	cextern pw_4
	25	cextern pw_5
	26
	27	section .text
	28
	29	; dst_low, dst_high (src), zero
	30	; zero-extends one vector from 8 to 16 bits
	31	%macro UNPACK_8TO16 4
	32	mova m%2, m%3
	33	punpckh%1 m%3, m%4
	34	punpckl%1 m%2, m%4
	35	%endmacro
	36
	37	%macro STORE_4_WORDS 6
	38	%if cpuflag(sse4)
	39	pextrw %1, %5, %6+0
	40	pextrw %2, %5, %6+1
	41	pextrw %3, %5, %6+2
	42	pextrw %4, %5, %6+3
	43	%else
	44	movd %6d, %5
	45	%if mmsize==16
	46	psrldq %5, 4
	47	%else
	48	psrlq %5, 32
	49	%endif
	50	mov %1, %6w
	51	shr %6, 16
	52	mov %2, %6w
	53	movd %6d, %5
	54	mov %3, %6w
	55	shr %6, 16
	56	mov %4, %6w
	57	%endif
	58	%endmacro
	59
	60	; in: p1 p0 q0 q1, clobbers p0
	61	; out: p1 = (2(p1 - q1) - 5(p0 - q0) + 4) >> 3
	62	%macro VC1_LOOP_FILTER_A0 4
	63	psubw %1, %4
	64	psubw %2, %3
	65	paddw %1, %1
	66	pmullw %2, [pw_5]
	67	psubw %1, %2
	68	paddw %1, [pw_4]
	69	psraw %1, 3
	70	%endmacro
	71
	72	; in: p0 q0 a0 a1 a2
	73	; m0 m1 m7 m6 m5
	74	; %1: size
	75	; out: m0=p0' m1=q0'
	76	%macro VC1_FILTER 1
	77	PABSW m4, m7
	78	PABSW m3, m6
	79	PABSW m2, m5
	80	mova m6, m4
	81	pminsw m3, m2
	82	pcmpgtw m6, m3 ; if (a2 < a0 \|\| a1 < a0)
	83	psubw m3, m4
	84	pmullw m3, [pw_5] ; 5*(a3 - a0)
	85	PABSW m2, m3
	86	psraw m2, 3 ; abs(d/8)
	87	pxor m7, m3 ; d_sign ^= a0_sign
	88
	89	pxor m5, m5
	90	movd m3, r2d
	91	%if %1 > 4
	92	punpcklbw m3, m3
	93	%endif
	94	punpcklbw m3, m5
	95	pcmpgtw m3, m4 ; if (a0 < pq)
	96	pand m6, m3
	97
	98	mova m3, m0
	99	psubw m3, m1
	100	PABSW m4, m3
	101	psraw m4, 1
	102	pxor m3, m7 ; d_sign ^ clip_sign
	103	psraw m3, 15
	104	pminsw m2, m4 ; min(d, clip)
	105	pcmpgtw m4, m5
	106	pand m6, m4 ; filt3 (C return value)
	107
	108	; each set of 4 pixels is not filtered if the 3rd is not
	109	%if mmsize==16
	110	pshuflw m4, m6, 0xaa
	111	%if %1 > 4
	112	pshufhw m4, m4, 0xaa
	113	%endif
	114	%else
	115	pshufw m4, m6, 0xaa
	116	%endif
	117	pandn m3, m4
	118	pand m2, m6
	119	pand m3, m2 ; d final
	120
	121	psraw m7, 15
	122	pxor m3, m7
	123	psubw m3, m7
	124	psubw m0, m3
	125	paddw m1, m3
	126	packuswb m0, m0
	127	packuswb m1, m1
	128	%endmacro
	129
	130	; 1st param: size of filter
	131	; 2nd param: mov suffix equivalent to the filter size
	132	%macro VC1_V_LOOP_FILTER 2
	133	pxor m5, m5
	134	mov%2 m6, [r4]
	135	mov%2 m4, [r4+r1]
	136	mov%2 m7, [r4+2*r1]
	137	mov%2 m0, [r4+r3]
	138	punpcklbw m6, m5
	139	punpcklbw m4, m5
	140	punpcklbw m7, m5
	141	punpcklbw m0, m5
	142
	143	VC1_LOOP_FILTER_A0 m6, m4, m7, m0
	144	mov%2 m1, [r0]
	145	mov%2 m2, [r0+r1]
	146	punpcklbw m1, m5
	147	punpcklbw m2, m5
	148	mova m4, m0
	149	VC1_LOOP_FILTER_A0 m7, m4, m1, m2
	150	mov%2 m3, [r0+2*r1]
	151	mov%2 m4, [r0+r3]
	152	punpcklbw m3, m5
	153	punpcklbw m4, m5
	154	mova m5, m1
	155	VC1_LOOP_FILTER_A0 m5, m2, m3, m4
	156
	157	VC1_FILTER %1
	158	mov%2 [r4+r3], m0
	159	mov%2 [r0], m1
	160	%endmacro
	161
	162	; 1st param: size of filter
	163	; NOTE: UNPACK_8TO16 this number of 8 bit numbers are in half a register
	164	; 2nd (optional) param: temp register to use for storing words
	165	%macro VC1_H_LOOP_FILTER 1-2
	166	%if %1 == 4
	167	movq m0, [r0 -4]
	168	movq m1, [r0+ r1-4]
	169	movq m2, [r0+2*r1-4]
	170	movq m3, [r0+ r3-4]
	171	TRANSPOSE4x4B 0, 1, 2, 3, 4
	172	%else
	173	movq m0, [r0 -4]
	174	movq m4, [r0+ r1-4]
	175	movq m1, [r0+2*r1-4]
	176	movq m5, [r0+ r3-4]
	177	movq m2, [r4 -4]
	178	movq m6, [r4+ r1-4]
	179	movq m3, [r4+2*r1-4]
	180	movq m7, [r4+ r3-4]
	181	punpcklbw m0, m4
	182	punpcklbw m1, m5
	183	punpcklbw m2, m6
	184	punpcklbw m3, m7
	185	TRANSPOSE4x4W 0, 1, 2, 3, 4
	186	%endif
	187	pxor m5, m5
	188
	189	UNPACK_8TO16 bw, 6, 0, 5
	190	UNPACK_8TO16 bw, 7, 1, 5
	191	VC1_LOOP_FILTER_A0 m6, m0, m7, m1
	192	UNPACK_8TO16 bw, 4, 2, 5
	193	mova m0, m1 ; m0 = p0
	194	VC1_LOOP_FILTER_A0 m7, m1, m4, m2
	195	UNPACK_8TO16 bw, 1, 3, 5
	196	mova m5, m4
	197	VC1_LOOP_FILTER_A0 m5, m2, m1, m3
	198	SWAP 1, 4 ; m1 = q0
	199
	200	VC1_FILTER %1
	201	punpcklbw m0, m1
	202	%if %0 > 1
	203	STORE_4_WORDS [r0-1], [r0+r1-1], [r0+2*r1-1], [r0+r3-1], m0, %2
	204	%if %1 > 4
	205	psrldq m0, 4
	206	STORE_4_WORDS [r4-1], [r4+r1-1], [r4+2*r1-1], [r4+r3-1], m0, %2
	207	%endif
	208	%else
	209	STORE_4_WORDS [r0-1], [r0+r1-1], [r0+2*r1-1], [r0+r3-1], m0, 0
	210	STORE_4_WORDS [r4-1], [r4+r1-1], [r4+2*r1-1], [r4+r3-1], m0, 4
	211	%endif
	212	%endmacro
	213
	214
	215	%macro START_V_FILTER 0
	216	mov r4, r0
	217	lea r3, [4*r1]
	218	sub r4, r3
	219	lea r3, [r1+2*r1]
	220	imul r2, 0x01010101
	221	%endmacro
	222
	223	%macro START_H_FILTER 1
	224	lea r3, [r1+2*r1]
	225	%if %1 > 4
	226	lea r4, [r0+4*r1]
	227	%endif
	228	imul r2, 0x01010101
	229	%endmacro
	230
	231	%macro VC1_LF 0
	232	cglobal vc1_v_loop_filter_internal
	233	VC1_V_LOOP_FILTER 4, d
	234	ret
	235
	236	cglobal vc1_h_loop_filter_internal
	237	VC1_H_LOOP_FILTER 4, r4
	238	ret
	239
	240	; void ff_vc1_v_loop_filter4_mmxext(uint8_t *src, int stride, int pq)
	241	cglobal vc1_v_loop_filter4, 3,5,0
	242	START_V_FILTER
	243	call vc1_v_loop_filter_internal
	244	RET
	245
	246	; void ff_vc1_h_loop_filter4_mmxext(uint8_t *src, int stride, int pq)
	247	cglobal vc1_h_loop_filter4, 3,5,0
	248	START_H_FILTER 4
	249	call vc1_h_loop_filter_internal
	250	RET
	251
	252	; void ff_vc1_v_loop_filter8_mmxext(uint8_t *src, int stride, int pq)
	253	cglobal vc1_v_loop_filter8, 3,5,0
	254	START_V_FILTER
	255	call vc1_v_loop_filter_internal
	256	add r4, 4
	257	add r0, 4
	258	call vc1_v_loop_filter_internal
	259	RET
	260
	261	; void ff_vc1_h_loop_filter8_mmxext(uint8_t *src, int stride, int pq)
	262	cglobal vc1_h_loop_filter8, 3,5,0
	263	START_H_FILTER 4
	264	call vc1_h_loop_filter_internal
	265	lea r0, [r0+4*r1]
	266	call vc1_h_loop_filter_internal
	267	RET
	268	%endmacro
	269
	270	INIT_MMX mmxext
	271	VC1_LF
	272
	273	INIT_XMM sse2
	274	; void ff_vc1_v_loop_filter8_sse2(uint8_t *src, int stride, int pq)
	275	cglobal vc1_v_loop_filter8, 3,5,8
	276	START_V_FILTER
	277	VC1_V_LOOP_FILTER 8, q
	278	RET
	279
	280	; void ff_vc1_h_loop_filter8_sse2(uint8_t *src, int stride, int pq)
	281	cglobal vc1_h_loop_filter8, 3,6,8
	282	START_H_FILTER 8
	283	VC1_H_LOOP_FILTER 8, r5
	284	RET
	285
	286	INIT_MMX ssse3
	287	; void ff_vc1_v_loop_filter4_ssse3(uint8_t *src, int stride, int pq)
	288	cglobal vc1_v_loop_filter4, 3,5,0
	289	START_V_FILTER
	290	VC1_V_LOOP_FILTER 4, d
	291	RET
	292
	293	; void ff_vc1_h_loop_filter4_ssse3(uint8_t *src, int stride, int pq)
	294	cglobal vc1_h_loop_filter4, 3,5,0
	295	START_H_FILTER 4
	296	VC1_H_LOOP_FILTER 4, r4
	297	RET
	298
	299	INIT_XMM ssse3
	300	; void ff_vc1_v_loop_filter8_ssse3(uint8_t *src, int stride, int pq)
	301	cglobal vc1_v_loop_filter8, 3,5,8
	302	START_V_FILTER
	303	VC1_V_LOOP_FILTER 8, q
	304	RET
	305
	306	; void ff_vc1_h_loop_filter8_ssse3(uint8_t *src, int stride, int pq)
	307	cglobal vc1_h_loop_filter8, 3,6,8
	308	START_H_FILTER 8
	309	VC1_H_LOOP_FILTER 8, r5
	310	RET
	311
	312	INIT_XMM sse4
	313	; void ff_vc1_h_loop_filter8_sse4(uint8_t *src, int stride, int pq)
	314	cglobal vc1_h_loop_filter8, 3,5,8
	315	START_H_FILTER 8
	316	VC1_H_LOOP_FILTER 8
	317	RET