[deb_ffmpeg.git] / ffmpeg / libavcodec / x86 / pngdsp.asm

;******************************************************************************
;* x86 optimizations for PNG decoding
;*
;* Copyright (c) 2008 Loren Merritt <lorenm@u.washington.edu>
;* Copyright (c) 2012 Ronald S. Bultje <rsbultje@gmail.com>
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* 51, Inc., Foundation Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "libavutil/x86/x86util.asm"

SECTION_RODATA

cextern pw_255

SECTION_TEXT

; %1 = nr. of xmm registers used
%macro ADD_BYTES_FN 1
cglobal add_bytes_l2, 4, 6, %1, dst, src1, src2, wa, w, i
%if ARCH_X86_64
    movsxd             waq, wad
%endif
    xor                 iq, iq

    ; vector loop
    mov                 wq, waq
    and                waq, ~(mmsize*2-1)
    jmp .end_v
.loop_v:
    mova                m0, [src1q+iq]
    mova                m1, [src1q+iq+mmsize]
    paddb               m0, [src2q+iq]
    paddb               m1, [src2q+iq+mmsize]
    mova  [dstq+iq       ], m0
    mova  [dstq+iq+mmsize], m1
    add                 iq, mmsize*2
.end_v:
    cmp                 iq, waq
    jl .loop_v

%if mmsize == 16
    ; vector loop
    mov                waq, wq
    and                waq, ~7
    jmp .end_l
.loop_l:
    movq               mm0, [src1q+iq]
    paddb              mm0, [src2q+iq]
    movq  [dstq+iq       ], mm0
    add                 iq, 8
.end_l:
    cmp                 iq, waq
    jl .loop_l
%endif

    ; scalar loop for leftover
    jmp .end_s
.loop_s:
    mov                wab, [src1q+iq]
    add                wab, [src2q+iq]
    mov          [dstq+iq], wab
    inc                 iq
.end_s:
    cmp                 iq, wq
    jl .loop_s
    REP_RET
%endmacro

%if ARCH_X86_32
INIT_MMX mmx
ADD_BYTES_FN 0
%endif

INIT_XMM sse2
ADD_BYTES_FN 2

%macro ADD_PAETH_PRED_FN 1
cglobal add_png_paeth_prediction, 5, 7, %1, dst, src, top, w, bpp, end, cntr
%if ARCH_X86_64
    movsxd            bppq, bppd
    movsxd              wq, wd
%endif
    lea               endq, [dstq+wq-(mmsize/2-1)]
    sub               topq, dstq
    sub               srcq, dstq
    sub               dstq, bppq
    pxor                m7, m7

    PUSH              dstq
    lea              cntrq, [bppq-1]
    shr              cntrq, 2 + mmsize/16
.bpp_loop:
    lea               dstq, [dstq+cntrq*(mmsize/2)]
    movh                m0, [dstq]
    movh                m1, [topq+dstq]
    punpcklbw           m0, m7
    punpcklbw           m1, m7
    add               dstq, bppq
.loop:
    mova                m2, m1
    movh                m1, [topq+dstq]
    mova                m3, m2
    punpcklbw           m1, m7
    mova                m4, m2
    psubw               m3, m1
    psubw               m4, m0
    mova                m5, m3
    paddw               m5, m4
%if cpuflag(ssse3)
    pabsw               m3, m3
    pabsw               m4, m4
    pabsw               m5, m5
%else ; !cpuflag(ssse3)
    psubw               m7, m5
    pmaxsw              m5, m7
    pxor                m6, m6
    pxor                m7, m7
    psubw               m6, m3
    psubw               m7, m4
    pmaxsw              m3, m6
    pmaxsw              m4, m7
    pxor                m7, m7
%endif ; cpuflag(ssse3)
    mova                m6, m4
    pminsw              m6, m5
    pcmpgtw             m3, m6
    pcmpgtw             m4, m5
    mova                m6, m4
    pand                m4, m3
    pandn               m6, m3
    pandn               m3, m0
    movh                m0, [srcq+dstq]
    pand                m6, m1
    pand                m2, m4
    punpcklbw           m0, m7
    paddw               m0, m6
    paddw               m3, m2
    paddw               m0, m3
    pand                m0, [pw_255]
    mova                m3, m0
    packuswb            m3, m3
    movh            [dstq], m3
    add               dstq, bppq
    cmp               dstq, endq
    jle .loop

    mov               dstq, [rsp]
    dec              cntrq
    jge .bpp_loop
    POP               dstq
    RET
%endmacro

INIT_MMX mmxext
ADD_PAETH_PRED_FN 0

INIT_MMX ssse3
ADD_PAETH_PRED_FN 0
Commit	Line	Data
	1	;******************************************************************************
	2	;* x86 optimizations for PNG decoding
	3	;*
	4	;* Copyright (c) 2008 Loren Merritt <lorenm@u.washington.edu>
	5	;* Copyright (c) 2012 Ronald S. Bultje <rsbultje@gmail.com>
	6	;*
	7	;* This file is part of FFmpeg.
	8	;*
	9	;* FFmpeg is free software; you can redistribute it and/or
	10	;* modify it under the terms of the GNU Lesser General Public
	11	;* License as published by the Free Software Foundation; either
	12	;* version 2.1 of the License, or (at your option) any later version.
	13	;*
	14	;* FFmpeg is distributed in the hope that it will be useful,
	15	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	16	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	17	;* Lesser General Public License for more details.
	18	;*
	19	;* You should have received a copy of the GNU Lesser General Public
	20	;* License along with FFmpeg; if not, write to the Free Software
	21	;* 51, Inc., Foundation Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	22	;******************************************************************************
	23
	24	%include "libavutil/x86/x86util.asm"
	25
	26	SECTION_RODATA
	27
	28	cextern pw_255
	29
	30	SECTION_TEXT
	31
	32	; %1 = nr. of xmm registers used
	33	%macro ADD_BYTES_FN 1
	34	cglobal add_bytes_l2, 4, 6, %1, dst, src1, src2, wa, w, i
	35	%if ARCH_X86_64
	36	movsxd waq, wad
	37	%endif
	38	xor iq, iq
	39
	40	; vector loop
	41	mov wq, waq
	42	and waq, ~(mmsize*2-1)
	43	jmp .end_v
	44	.loop_v:
	45	mova m0, [src1q+iq]
	46	mova m1, [src1q+iq+mmsize]
	47	paddb m0, [src2q+iq]
	48	paddb m1, [src2q+iq+mmsize]
	49	mova [dstq+iq ], m0
	50	mova [dstq+iq+mmsize], m1
	51	add iq, mmsize*2
	52	.end_v:
	53	cmp iq, waq
	54	jl .loop_v
	55
	56	%if mmsize == 16
	57	; vector loop
	58	mov waq, wq
	59	and waq, ~7
	60	jmp .end_l
	61	.loop_l:
	62	movq mm0, [src1q+iq]
	63	paddb mm0, [src2q+iq]
	64	movq [dstq+iq ], mm0
	65	add iq, 8
	66	.end_l:
	67	cmp iq, waq
	68	jl .loop_l
	69	%endif
	70
	71	; scalar loop for leftover
	72	jmp .end_s
	73	.loop_s:
	74	mov wab, [src1q+iq]
	75	add wab, [src2q+iq]
	76	mov [dstq+iq], wab
	77	inc iq
	78	.end_s:
	79	cmp iq, wq
	80	jl .loop_s
	81	REP_RET
	82	%endmacro
	83
	84	%if ARCH_X86_32
	85	INIT_MMX mmx
	86	ADD_BYTES_FN 0
	87	%endif
	88
	89	INIT_XMM sse2
	90	ADD_BYTES_FN 2
	91
	92	%macro ADD_PAETH_PRED_FN 1
	93	cglobal add_png_paeth_prediction, 5, 7, %1, dst, src, top, w, bpp, end, cntr
	94	%if ARCH_X86_64
	95	movsxd bppq, bppd
	96	movsxd wq, wd
	97	%endif
	98	lea endq, [dstq+wq-(mmsize/2-1)]
	99	sub topq, dstq
	100	sub srcq, dstq
	101	sub dstq, bppq
	102	pxor m7, m7
	103
	104	PUSH dstq
	105	lea cntrq, [bppq-1]
	106	shr cntrq, 2 + mmsize/16
	107	.bpp_loop:
	108	lea dstq, [dstq+cntrq*(mmsize/2)]
	109	movh m0, [dstq]
	110	movh m1, [topq+dstq]
	111	punpcklbw m0, m7
	112	punpcklbw m1, m7
	113	add dstq, bppq
	114	.loop:
	115	mova m2, m1
	116	movh m1, [topq+dstq]
	117	mova m3, m2
	118	punpcklbw m1, m7
	119	mova m4, m2
	120	psubw m3, m1
	121	psubw m4, m0
	122	mova m5, m3
	123	paddw m5, m4
	124	%if cpuflag(ssse3)
	125	pabsw m3, m3
	126	pabsw m4, m4
	127	pabsw m5, m5
	128	%else ; !cpuflag(ssse3)
	129	psubw m7, m5
	130	pmaxsw m5, m7
	131	pxor m6, m6
	132	pxor m7, m7
	133	psubw m6, m3
	134	psubw m7, m4
	135	pmaxsw m3, m6
	136	pmaxsw m4, m7
	137	pxor m7, m7
	138	%endif ; cpuflag(ssse3)
	139	mova m6, m4
	140	pminsw m6, m5
	141	pcmpgtw m3, m6
	142	pcmpgtw m4, m5
	143	mova m6, m4
	144	pand m4, m3
	145	pandn m6, m3
	146	pandn m3, m0
	147	movh m0, [srcq+dstq]
	148	pand m6, m1
	149	pand m2, m4
	150	punpcklbw m0, m7
	151	paddw m0, m6
	152	paddw m3, m2
	153	paddw m0, m3
	154	pand m0, [pw_255]
	155	mova m3, m0
	156	packuswb m3, m3
	157	movh [dstq], m3
	158	add dstq, bppq
	159	cmp dstq, endq
	160	jle .loop
	161
	162	mov dstq, [rsp]
	163	dec cntrq
	164	jge .bpp_loop
	165	POP dstq
	166	RET
	167	%endmacro
	168
	169	INIT_MMX mmxext
	170	ADD_PAETH_PRED_FN 0
	171
	172	INIT_MMX ssse3
	173	ADD_PAETH_PRED_FN 0