[deb_ffmpeg.git] / ffmpeg / libavcodec / x86 / lossless_audiodsp.asm

;******************************************************************************
;* Copyright (c) 2008 Loren Merritt
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "libavutil/x86/x86util.asm"

SECTION_TEXT

%macro SCALARPRODUCT 0
; int ff_scalarproduct_and_madd_int16(int16_t *v1, int16_t *v2, int16_t *v3,
;                                     int order, int mul)
cglobal scalarproduct_and_madd_int16, 4,4,8, v1, v2, v3, order, mul
%if mmsize == 16
    test orderq, 8
        jnz scalarproduct_and_madd_int16_fallback
%else
    scalarproduct_and_madd_int16_fallback
%endif
    shl orderq, 1
    movd    m7, mulm
%if mmsize == 16
    pshuflw m7, m7, 0
    punpcklqdq m7, m7
%else
    pshufw  m7, m7, 0
%endif
    pxor    m6, m6
    add v1q, orderq
    add v2q, orderq
    add v3q, orderq
    neg orderq
.loop:
    movu    m0, [v2q + orderq]
    movu    m1, [v2q + orderq + mmsize]
    mova    m4, [v1q + orderq]
    mova    m5, [v1q + orderq + mmsize]
    movu    m2, [v3q + orderq]
    movu    m3, [v3q + orderq + mmsize]
    pmaddwd m0, m4
    pmaddwd m1, m5
    pmullw  m2, m7
    pmullw  m3, m7
    paddd   m6, m0
    paddd   m6, m1
    paddw   m2, m4
    paddw   m3, m5
    mova    [v1q + orderq], m2
    mova    [v1q + orderq + mmsize], m3
    add     orderq, mmsize*2
    jl .loop
    HADDD   m6, m0
    movd   eax, m6
    RET
%endmacro

INIT_MMX mmxext
SCALARPRODUCT
INIT_XMM sse2
SCALARPRODUCT

%macro SCALARPRODUCT_LOOP 1
align 16
.loop%1:
    sub     orderq, mmsize*2
%if %1
    mova    m1, m4
    mova    m4, [v2q + orderq]
    mova    m0, [v2q + orderq + mmsize]
    palignr m1, m0, %1
    palignr m0, m4, %1
    mova    m3, m5
    mova    m5, [v3q + orderq]
    mova    m2, [v3q + orderq + mmsize]
    palignr m3, m2, %1
    palignr m2, m5, %1
%else
    mova    m0, [v2q + orderq]
    mova    m1, [v2q + orderq + mmsize]
    mova    m2, [v3q + orderq]
    mova    m3, [v3q + orderq + mmsize]
%endif
    %define t0  [v1q + orderq]
    %define t1  [v1q + orderq + mmsize]
%if ARCH_X86_64
    mova    m8, t0
    mova    m9, t1
    %define t0  m8
    %define t1  m9
%endif
    pmaddwd m0, t0
    pmaddwd m1, t1
    pmullw  m2, m7
    pmullw  m3, m7
    paddw   m2, t0
    paddw   m3, t1
    paddd   m6, m0
    paddd   m6, m1
    mova    [v1q + orderq], m2
    mova    [v1q + orderq + mmsize], m3
    jg .loop%1
%if %1
    jmp .end
%endif
%endmacro

; int ff_scalarproduct_and_madd_int16(int16_t *v1, int16_t *v2, int16_t *v3,
;                                     int order, int mul)
INIT_XMM ssse3
cglobal scalarproduct_and_madd_int16, 4,5,10, v1, v2, v3, order, mul
    test orderq, 8
        jnz scalarproduct_and_madd_int16_fallback
    shl orderq, 1
    movd    m7, mulm
    pshuflw m7, m7, 0
    punpcklqdq m7, m7
    pxor    m6, m6
    mov    r4d, v2d
    and    r4d, 15
    and    v2q, ~15
    and    v3q, ~15
    mova    m4, [v2q + orderq]
    mova    m5, [v3q + orderq]
    ; linear is faster than branch tree or jump table, because the branches taken are cyclic (i.e. predictable)
    cmp    r4d, 0
    je .loop0
    cmp    r4d, 2
    je .loop2
    cmp    r4d, 4
    je .loop4
    cmp    r4d, 6
    je .loop6
    cmp    r4d, 8
    je .loop8
    cmp    r4d, 10
    je .loop10
    cmp    r4d, 12
    je .loop12
SCALARPRODUCT_LOOP 14
SCALARPRODUCT_LOOP 12
SCALARPRODUCT_LOOP 10
SCALARPRODUCT_LOOP 8
SCALARPRODUCT_LOOP 6
SCALARPRODUCT_LOOP 4
SCALARPRODUCT_LOOP 2
SCALARPRODUCT_LOOP 0
.end:
    HADDD   m6, m0
    movd   eax, m6
    RET
Commit	Line	Data
	1	;******************************************************************************
	2	;* Copyright (c) 2008 Loren Merritt
	3	;*
	4	;* This file is part of FFmpeg.
	5	;*
	6	;* FFmpeg is free software; you can redistribute it and/or
	7	;* modify it under the terms of the GNU Lesser General Public
	8	;* License as published by the Free Software Foundation; either
	9	;* version 2.1 of the License, or (at your option) any later version.
	10	;*
	11	;* FFmpeg is distributed in the hope that it will be useful,
	12	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	13	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	14	;* Lesser General Public License for more details.
	15	;*
	16	;* You should have received a copy of the GNU Lesser General Public
	17	;* License along with FFmpeg; if not, write to the Free Software
	18	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	19	;******************************************************************************
	20
	21	%include "libavutil/x86/x86util.asm"
	22
	23	SECTION_TEXT
	24
	25	%macro SCALARPRODUCT 0
	26	; int ff_scalarproduct_and_madd_int16(int16_t v1, int16_t v2, int16_t *v3,
	27	; int order, int mul)
	28	cglobal scalarproduct_and_madd_int16, 4,4,8, v1, v2, v3, order, mul
	29	%if mmsize == 16
	30	test orderq, 8
	31	jnz scalarproduct_and_madd_int16_fallback
	32	%else
	33	scalarproduct_and_madd_int16_fallback
	34	%endif
	35	shl orderq, 1
	36	movd m7, mulm
	37	%if mmsize == 16
	38	pshuflw m7, m7, 0
	39	punpcklqdq m7, m7
	40	%else
	41	pshufw m7, m7, 0
	42	%endif
	43	pxor m6, m6
	44	add v1q, orderq
	45	add v2q, orderq
	46	add v3q, orderq
	47	neg orderq
	48	.loop:
	49	movu m0, [v2q + orderq]
	50	movu m1, [v2q + orderq + mmsize]
	51	mova m4, [v1q + orderq]
	52	mova m5, [v1q + orderq + mmsize]
	53	movu m2, [v3q + orderq]
	54	movu m3, [v3q + orderq + mmsize]
	55	pmaddwd m0, m4
	56	pmaddwd m1, m5
	57	pmullw m2, m7
	58	pmullw m3, m7
	59	paddd m6, m0
	60	paddd m6, m1
	61	paddw m2, m4
	62	paddw m3, m5
	63	mova [v1q + orderq], m2
	64	mova [v1q + orderq + mmsize], m3
	65	add orderq, mmsize*2
	66	jl .loop
	67	HADDD m6, m0
	68	movd eax, m6
	69	RET
	70	%endmacro
	71
	72	INIT_MMX mmxext
	73	SCALARPRODUCT
	74	INIT_XMM sse2
	75	SCALARPRODUCT
	76
	77	%macro SCALARPRODUCT_LOOP 1
	78	align 16
	79	.loop%1:
	80	sub orderq, mmsize*2
	81	%if %1
	82	mova m1, m4
	83	mova m4, [v2q + orderq]
	84	mova m0, [v2q + orderq + mmsize]
	85	palignr m1, m0, %1
	86	palignr m0, m4, %1
	87	mova m3, m5
	88	mova m5, [v3q + orderq]
	89	mova m2, [v3q + orderq + mmsize]
	90	palignr m3, m2, %1
	91	palignr m2, m5, %1
	92	%else
	93	mova m0, [v2q + orderq]
	94	mova m1, [v2q + orderq + mmsize]
	95	mova m2, [v3q + orderq]
	96	mova m3, [v3q + orderq + mmsize]
	97	%endif
	98	%define t0 [v1q + orderq]
	99	%define t1 [v1q + orderq + mmsize]
	100	%if ARCH_X86_64
	101	mova m8, t0
	102	mova m9, t1
	103	%define t0 m8
	104	%define t1 m9
	105	%endif
	106	pmaddwd m0, t0
	107	pmaddwd m1, t1
	108	pmullw m2, m7
	109	pmullw m3, m7
	110	paddw m2, t0
	111	paddw m3, t1
	112	paddd m6, m0
	113	paddd m6, m1
	114	mova [v1q + orderq], m2
	115	mova [v1q + orderq + mmsize], m3
	116	jg .loop%1
	117	%if %1
	118	jmp .end
	119	%endif
	120	%endmacro
	121
	122	; int ff_scalarproduct_and_madd_int16(int16_t v1, int16_t v2, int16_t *v3,
	123	; int order, int mul)
	124	INIT_XMM ssse3
	125	cglobal scalarproduct_and_madd_int16, 4,5,10, v1, v2, v3, order, mul
	126	test orderq, 8
	127	jnz scalarproduct_and_madd_int16_fallback
	128	shl orderq, 1
	129	movd m7, mulm
	130	pshuflw m7, m7, 0
	131	punpcklqdq m7, m7
	132	pxor m6, m6
	133	mov r4d, v2d
	134	and r4d, 15
	135	and v2q, ~15
	136	and v3q, ~15
	137	mova m4, [v2q + orderq]
	138	mova m5, [v3q + orderq]
	139	; linear is faster than branch tree or jump table, because the branches taken are cyclic (i.e. predictable)
	140	cmp r4d, 0
	141	je .loop0
	142	cmp r4d, 2
	143	je .loop2
	144	cmp r4d, 4
	145	je .loop4
	146	cmp r4d, 6
	147	je .loop6
	148	cmp r4d, 8
	149	je .loop8
	150	cmp r4d, 10
	151	je .loop10
	152	cmp r4d, 12
	153	je .loop12
	154	SCALARPRODUCT_LOOP 14
	155	SCALARPRODUCT_LOOP 12
	156	SCALARPRODUCT_LOOP 10
	157	SCALARPRODUCT_LOOP 8
	158	SCALARPRODUCT_LOOP 6
	159	SCALARPRODUCT_LOOP 4
	160	SCALARPRODUCT_LOOP 2
	161	SCALARPRODUCT_LOOP 0
	162	.end:
	163	HADDD m6, m0
	164	movd eax, m6
	165	RET