[deb_ffmpeg.git] / ffmpeg / libavcodec / x86 / lossless_videodsp.asm

;******************************************************************************
;* SIMD lossless video DSP utils
;* Copyright (c) 2008 Loren Merritt
;* Copyright (c) 2014 Michael Niedermayer
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "libavutil/x86/x86util.asm"

SECTION_RODATA

pb_ef: times 8 db 14,15
pb_67: times 8 db  6, 7
pb_zzzz2323zzzzabab: db -1,-1,-1,-1, 2, 3, 2, 3,-1,-1,-1,-1,10,11,10,11
pb_zzzzzzzz67676767: db -1,-1,-1,-1,-1,-1,-1,-1, 6, 7, 6, 7, 6, 7, 6, 7

SECTION_TEXT

%macro INT16_LOOP 2 ; %1 = a/u (aligned/unaligned), %2 = add/sub
    movd    m4, maskd
    SPLATW  m4, m4
    add     wd, wd
    test    wq, 2*mmsize - 1
    jz %%.tomainloop
    push  tmpq
%%.wordloop:
    sub     wq, 2
%ifidn %2, add
    mov   tmpw, [srcq+wq]
    add   tmpw, [dstq+wq]
%else
    mov   tmpw, [src1q+wq]
    sub   tmpw, [src2q+wq]
%endif
    and   tmpw, maskw
    mov     [dstq+wq], tmpw
    test    wq, 2*mmsize - 1
    jnz %%.wordloop
    pop   tmpq
%%.tomainloop:
%ifidn %2, add
    add     srcq, wq
%else
    add     src1q, wq
    add     src2q, wq
%endif
    add     dstq, wq
    neg     wq
    jz      %%.end
%%.loop:
%ifidn %2, add
    mov%1   m0, [srcq+wq]
    mov%1   m1, [dstq+wq]
    mov%1   m2, [srcq+wq+mmsize]
    mov%1   m3, [dstq+wq+mmsize]
%else
    mov%1   m0, [src1q+wq]
    mov%1   m1, [src2q+wq]
    mov%1   m2, [src1q+wq+mmsize]
    mov%1   m3, [src2q+wq+mmsize]
%endif
    p%2w    m0, m1
    p%2w    m2, m3
    pand    m0, m4
    pand    m2, m4
    mov%1   [dstq+wq]       , m0
    mov%1   [dstq+wq+mmsize], m2
    add     wq, 2*mmsize
    jl %%.loop
%%.end:
    RET
%endmacro

INIT_MMX mmx
cglobal add_int16, 4,4,5, dst, src, mask, w, tmp
    INT16_LOOP a, add

INIT_XMM sse2
cglobal add_int16, 4,4,5, dst, src, mask, w, tmp
    test srcq, mmsize-1
    jnz .unaligned
    test dstq, mmsize-1
    jnz .unaligned
    INT16_LOOP a, add
.unaligned:
    INT16_LOOP u, add

INIT_MMX mmx
cglobal diff_int16, 5,5,5, dst, src1, src2, mask, w, tmp
    INT16_LOOP a, sub

INIT_XMM sse2
cglobal diff_int16, 5,5,5, dst, src1, src2, mask, w, tmp
    test src1q, mmsize-1
    jnz .unaligned
    test src2q, mmsize-1
    jnz .unaligned
    test dstq, mmsize-1
    jnz .unaligned
    INT16_LOOP a, sub
.unaligned:
    INT16_LOOP u, sub


%macro ADD_HFYU_LEFT_LOOP_INT16 2 ; %1 = dst alignment (a/u), %2 = src alignment (a/u)
    add     wd, wd
    add     srcq, wq
    add     dstq, wq
    neg     wq
%%.loop:
    mov%2   m1, [srcq+wq]
    mova    m2, m1
    pslld   m1, 16
    paddw   m1, m2
    mova    m2, m1

    pshufb  m1, m3
    paddw   m1, m2
    pshufb  m0, m5
%if mmsize == 16
    mova    m2, m1
    pshufb  m1, m4
    paddw   m1, m2
%endif
    paddw   m0, m1
    pand    m0, m7
%ifidn %1, a
    mova    [dstq+wq], m0
%else
    movq    [dstq+wq], m0
    movhps  [dstq+wq+8], m0
%endif
    add     wq, mmsize
    jl %%.loop
    mov     eax, mmsize-1
    sub     eax, wd
    mov     wd, eax
    shl     wd, 8
    lea     eax, [wd+eax-1]
    movd    m1, eax
    pshufb  m0, m1
    movd    eax, m0
    RET
%endmacro

; int add_hfyu_left_pred_int16(uint16_t *dst, const uint16_t *src, unsigned mask, int w, int left)
INIT_MMX ssse3
cglobal add_hfyu_left_pred_int16, 4,4,8, dst, src, mask, w, left
.skip_prologue:
    mova    m5, [pb_67]
    mova    m3, [pb_zzzz2323zzzzabab]
    movd    m0, leftm
    psllq   m0, 48
    movd    m7, maskm
    SPLATW  m7 ,m7
    ADD_HFYU_LEFT_LOOP_INT16 a, a

INIT_XMM sse4
cglobal add_hfyu_left_pred_int16, 4,4,8, dst, src, mask, w, left
    mova    m5, [pb_ef]
    mova    m4, [pb_zzzzzzzz67676767]
    mova    m3, [pb_zzzz2323zzzzabab]
    movd    m0, leftm
    pslldq  m0, 14
    movd    m7, maskm
    SPLATW  m7 ,m7
    test    srcq, 15
    jnz .src_unaligned
    test    dstq, 15
    jnz .dst_unaligned
    ADD_HFYU_LEFT_LOOP_INT16 a, a
.dst_unaligned:
    ADD_HFYU_LEFT_LOOP_INT16 u, a
.src_unaligned:
    ADD_HFYU_LEFT_LOOP_INT16 u, u

; void add_hfyu_median_prediction_mmxext(uint8_t *dst, const uint8_t *top, const uint8_t *diff, int mask, int w, int *left, int *left_top)
INIT_MMX mmxext
cglobal add_hfyu_median_pred_int16, 7,7,0, dst, top, diff, mask, w, left, left_top
    add      wd, wd
    movd    mm6, maskd
    SPLATW  mm6, mm6
    movq    mm0, [topq]
    movq    mm2, mm0
    movd    mm4, [left_topq]
    psllq   mm2, 16
    movq    mm1, mm0
    por     mm4, mm2
    movd    mm3, [leftq]
    psubw   mm0, mm4 ; t-tl
    add    dstq, wq
    add    topq, wq
    add   diffq, wq
    neg      wq
    jmp .skip
.loop:
    movq    mm4, [topq+wq]
    movq    mm0, mm4
    psllq   mm4, 16
    por     mm4, mm1
    movq    mm1, mm0 ; t
    psubw   mm0, mm4 ; t-tl
.skip:
    movq    mm2, [diffq+wq]
%assign i 0
%rep 4
    movq    mm4, mm0
    paddw   mm4, mm3 ; t-tl+l
    pand    mm4, mm6
    movq    mm5, mm3
    pmaxsw  mm3, mm1
    pminsw  mm5, mm1
    pminsw  mm3, mm4
    pmaxsw  mm3, mm5 ; median
    paddw   mm3, mm2 ; +residual
    pand    mm3, mm6
%if i==0
    movq    mm7, mm3
    psllq   mm7, 48
%else
    movq    mm4, mm3
    psrlq   mm7, 16
    psllq   mm4, 48
    por     mm7, mm4
%endif
%if i<3
    psrlq   mm0, 16
    psrlq   mm1, 16
    psrlq   mm2, 16
%endif
%assign i i+1
%endrep
    movq [dstq+wq], mm7
    add      wq, 8
    jl .loop
    movzx   r2d, word [dstq-2]
    mov [leftq], r2d
    movzx   r2d, word [topq-2]
    mov [left_topq], r2d
    RET

cglobal sub_hfyu_median_pred_int16, 7,7,0, dst, src1, src2, mask, w, left, left_top
    add      wd, wd
    movd    mm7, maskd
    SPLATW  mm7, mm7
    movq    mm0, [src1q]
    movq    mm2, [src2q]
    psllq   mm0, 16
    psllq   mm2, 16
    movd    mm6, [left_topq]
    por     mm0, mm6
    movd    mm6, [leftq]
    por     mm2, mm6
    xor     maskq, maskq
.loop:
    movq    mm1, [src1q + maskq]
    movq    mm3, [src2q + maskq]
    movq    mm4, mm2
    psubw   mm2, mm0
    paddw   mm2, mm1
    pand    mm2, mm7
    movq    mm5, mm4
    pmaxsw  mm4, mm1
    pminsw  mm1, mm5
    pminsw  mm4, mm2
    pmaxsw  mm4, mm1
    psubw   mm3, mm4
    pand    mm3, mm7
    movq    [dstq + maskq], mm3
    add     maskq, 8
    movq    mm0, [src1q + maskq - 2]
    movq    mm2, [src2q + maskq - 2]
    cmp     maskq, wq
        jb .loop
    movzx maskd, word [src1q + wq - 2]
    mov [left_topq], maskd
    movzx maskd, word [src2q + wq - 2]
    mov [leftq], maskd
    RET
Commit	Line	Data
	1	;******************************************************************************
	2	;* SIMD lossless video DSP utils
	3	;* Copyright (c) 2008 Loren Merritt
	4	;* Copyright (c) 2014 Michael Niedermayer
	5	;*
	6	;* This file is part of FFmpeg.
	7	;*
	8	;* FFmpeg is free software; you can redistribute it and/or
	9	;* modify it under the terms of the GNU Lesser General Public
	10	;* License as published by the Free Software Foundation; either
	11	;* version 2.1 of the License, or (at your option) any later version.
	12	;*
	13	;* FFmpeg is distributed in the hope that it will be useful,
	14	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	15	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	16	;* Lesser General Public License for more details.
	17	;*
	18	;* You should have received a copy of the GNU Lesser General Public
	19	;* License along with FFmpeg; if not, write to the Free Software
	20	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	21	;******************************************************************************
	22
	23	%include "libavutil/x86/x86util.asm"
	24
	25	SECTION_RODATA
	26
	27	pb_ef: times 8 db 14,15
	28	pb_67: times 8 db 6, 7
	29	pb_zzzz2323zzzzabab: db -1,-1,-1,-1, 2, 3, 2, 3,-1,-1,-1,-1,10,11,10,11
	30	pb_zzzzzzzz67676767: db -1,-1,-1,-1,-1,-1,-1,-1, 6, 7, 6, 7, 6, 7, 6, 7
	31
	32	SECTION_TEXT
	33
	34	%macro INT16_LOOP 2 ; %1 = a/u (aligned/unaligned), %2 = add/sub
	35	movd m4, maskd
	36	SPLATW m4, m4
	37	add wd, wd
	38	test wq, 2*mmsize - 1
	39	jz %%.tomainloop
	40	push tmpq
	41	%%.wordloop:
	42	sub wq, 2
	43	%ifidn %2, add
	44	mov tmpw, [srcq+wq]
	45	add tmpw, [dstq+wq]
	46	%else
	47	mov tmpw, [src1q+wq]
	48	sub tmpw, [src2q+wq]
	49	%endif
	50	and tmpw, maskw
	51	mov [dstq+wq], tmpw
	52	test wq, 2*mmsize - 1
	53	jnz %%.wordloop
	54	pop tmpq
	55	%%.tomainloop:
	56	%ifidn %2, add
	57	add srcq, wq
	58	%else
	59	add src1q, wq
	60	add src2q, wq
	61	%endif
	62	add dstq, wq
	63	neg wq
	64	jz %%.end
	65	%%.loop:
	66	%ifidn %2, add
	67	mov%1 m0, [srcq+wq]
	68	mov%1 m1, [dstq+wq]
	69	mov%1 m2, [srcq+wq+mmsize]
	70	mov%1 m3, [dstq+wq+mmsize]
	71	%else
	72	mov%1 m0, [src1q+wq]
	73	mov%1 m1, [src2q+wq]
	74	mov%1 m2, [src1q+wq+mmsize]
	75	mov%1 m3, [src2q+wq+mmsize]
	76	%endif
	77	p%2w m0, m1
	78	p%2w m2, m3
	79	pand m0, m4
	80	pand m2, m4
	81	mov%1 [dstq+wq] , m0
	82	mov%1 [dstq+wq+mmsize], m2
	83	add wq, 2*mmsize
	84	jl %%.loop
	85	%%.end:
	86	RET
	87	%endmacro
	88
	89	INIT_MMX mmx
	90	cglobal add_int16, 4,4,5, dst, src, mask, w, tmp
	91	INT16_LOOP a, add
	92
	93	INIT_XMM sse2
	94	cglobal add_int16, 4,4,5, dst, src, mask, w, tmp
	95	test srcq, mmsize-1
	96	jnz .unaligned
	97	test dstq, mmsize-1
	98	jnz .unaligned
	99	INT16_LOOP a, add
	100	.unaligned:
	101	INT16_LOOP u, add
	102
	103	INIT_MMX mmx
	104	cglobal diff_int16, 5,5,5, dst, src1, src2, mask, w, tmp
	105	INT16_LOOP a, sub
	106
	107	INIT_XMM sse2
	108	cglobal diff_int16, 5,5,5, dst, src1, src2, mask, w, tmp
	109	test src1q, mmsize-1
	110	jnz .unaligned
	111	test src2q, mmsize-1
	112	jnz .unaligned
	113	test dstq, mmsize-1
	114	jnz .unaligned
	115	INT16_LOOP a, sub
	116	.unaligned:
	117	INT16_LOOP u, sub
	118
	119
	120	%macro ADD_HFYU_LEFT_LOOP_INT16 2 ; %1 = dst alignment (a/u), %2 = src alignment (a/u)
	121	add wd, wd
	122	add srcq, wq
	123	add dstq, wq
	124	neg wq
	125	%%.loop:
	126	mov%2 m1, [srcq+wq]
	127	mova m2, m1
	128	pslld m1, 16
	129	paddw m1, m2
	130	mova m2, m1
	131
	132	pshufb m1, m3
	133	paddw m1, m2
	134	pshufb m0, m5
	135	%if mmsize == 16
	136	mova m2, m1
	137	pshufb m1, m4
	138	paddw m1, m2
	139	%endif
	140	paddw m0, m1
	141	pand m0, m7
	142	%ifidn %1, a
	143	mova [dstq+wq], m0
	144	%else
	145	movq [dstq+wq], m0
	146	movhps [dstq+wq+8], m0
	147	%endif
	148	add wq, mmsize
	149	jl %%.loop
	150	mov eax, mmsize-1
	151	sub eax, wd
	152	mov wd, eax
	153	shl wd, 8
	154	lea eax, [wd+eax-1]
	155	movd m1, eax
	156	pshufb m0, m1
	157	movd eax, m0
	158	RET
	159	%endmacro
	160
	161	; int add_hfyu_left_pred_int16(uint16_t dst, const uint16_t src, unsigned mask, int w, int left)
	162	INIT_MMX ssse3
	163	cglobal add_hfyu_left_pred_int16, 4,4,8, dst, src, mask, w, left
	164	.skip_prologue:
	165	mova m5, [pb_67]
	166	mova m3, [pb_zzzz2323zzzzabab]
	167	movd m0, leftm
	168	psllq m0, 48
	169	movd m7, maskm
	170	SPLATW m7 ,m7
	171	ADD_HFYU_LEFT_LOOP_INT16 a, a
	172
	173	INIT_XMM sse4
	174	cglobal add_hfyu_left_pred_int16, 4,4,8, dst, src, mask, w, left
	175	mova m5, [pb_ef]
	176	mova m4, [pb_zzzzzzzz67676767]
	177	mova m3, [pb_zzzz2323zzzzabab]
	178	movd m0, leftm
	179	pslldq m0, 14
	180	movd m7, maskm
	181	SPLATW m7 ,m7
	182	test srcq, 15
	183	jnz .src_unaligned
	184	test dstq, 15
	185	jnz .dst_unaligned
	186	ADD_HFYU_LEFT_LOOP_INT16 a, a
	187	.dst_unaligned:
	188	ADD_HFYU_LEFT_LOOP_INT16 u, a
	189	.src_unaligned:
	190	ADD_HFYU_LEFT_LOOP_INT16 u, u
	191
	192	; void add_hfyu_median_prediction_mmxext(uint8_t dst, const uint8_t top, const uint8_t diff, int mask, int w, int left, int *left_top)
	193	INIT_MMX mmxext
	194	cglobal add_hfyu_median_pred_int16, 7,7,0, dst, top, diff, mask, w, left, left_top
	195	add wd, wd
	196	movd mm6, maskd
	197	SPLATW mm6, mm6
	198	movq mm0, [topq]
	199	movq mm2, mm0
	200	movd mm4, [left_topq]
	201	psllq mm2, 16
	202	movq mm1, mm0
	203	por mm4, mm2
	204	movd mm3, [leftq]
	205	psubw mm0, mm4 ; t-tl
	206	add dstq, wq
	207	add topq, wq
	208	add diffq, wq
	209	neg wq
	210	jmp .skip
	211	.loop:
	212	movq mm4, [topq+wq]
	213	movq mm0, mm4
	214	psllq mm4, 16
	215	por mm4, mm1
	216	movq mm1, mm0 ; t
	217	psubw mm0, mm4 ; t-tl
	218	.skip:
	219	movq mm2, [diffq+wq]
	220	%assign i 0
	221	%rep 4
	222	movq mm4, mm0
	223	paddw mm4, mm3 ; t-tl+l
	224	pand mm4, mm6
	225	movq mm5, mm3
	226	pmaxsw mm3, mm1
	227	pminsw mm5, mm1
	228	pminsw mm3, mm4
	229	pmaxsw mm3, mm5 ; median
	230	paddw mm3, mm2 ; +residual
	231	pand mm3, mm6
	232	%if i==0
	233	movq mm7, mm3
	234	psllq mm7, 48
	235	%else
	236	movq mm4, mm3
	237	psrlq mm7, 16
	238	psllq mm4, 48
	239	por mm7, mm4
	240	%endif
	241	%if i<3
	242	psrlq mm0, 16
	243	psrlq mm1, 16
	244	psrlq mm2, 16
	245	%endif
	246	%assign i i+1
	247	%endrep
	248	movq [dstq+wq], mm7
	249	add wq, 8
	250	jl .loop
	251	movzx r2d, word [dstq-2]
	252	mov [leftq], r2d
	253	movzx r2d, word [topq-2]
	254	mov [left_topq], r2d
	255	RET
	256
	257	cglobal sub_hfyu_median_pred_int16, 7,7,0, dst, src1, src2, mask, w, left, left_top
	258	add wd, wd
	259	movd mm7, maskd
	260	SPLATW mm7, mm7
	261	movq mm0, [src1q]
	262	movq mm2, [src2q]
	263	psllq mm0, 16
	264	psllq mm2, 16
	265	movd mm6, [left_topq]
	266	por mm0, mm6
	267	movd mm6, [leftq]
	268	por mm2, mm6
	269	xor maskq, maskq
	270	.loop:
	271	movq mm1, [src1q + maskq]
	272	movq mm3, [src2q + maskq]
	273	movq mm4, mm2
	274	psubw mm2, mm0
	275	paddw mm2, mm1
	276	pand mm2, mm7
	277	movq mm5, mm4
	278	pmaxsw mm4, mm1
	279	pminsw mm1, mm5
	280	pminsw mm4, mm2
	281	pmaxsw mm4, mm1
	282	psubw mm3, mm4
	283	pand mm3, mm7
	284	movq [dstq + maskq], mm3
	285	add maskq, 8
	286	movq mm0, [src1q + maskq - 2]
	287	movq mm2, [src2q + maskq - 2]
	288	cmp maskq, wq
	289	jb .loop
	290	movzx maskd, word [src1q + wq - 2]
	291	mov [left_topq], maskd
	292	movzx maskd, word [src2q + wq - 2]
	293	mov [leftq], maskd
	294	RET