[deb_ffmpeg.git] / ffmpeg / libswresample / x86 / rematrix.asm

;******************************************************************************
;* Copyright (c) 2012 Michael Niedermayer
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "libavutil/x86/x86util.asm"


SECTION_RODATA 32
dw1: times 8  dd 1
w1 : times 16 dw 1

SECTION .text

%macro MIX2_FLT 1
cglobal mix_2_1_%1_float, 7, 7, 6, out, in1, in2, coeffp, index1, index2, len
%ifidn %1, a
    test in1q, mmsize-1
        jne mix_2_1_float_u_int %+ SUFFIX
    test in2q, mmsize-1
        jne mix_2_1_float_u_int %+ SUFFIX
    test outq, mmsize-1
        jne mix_2_1_float_u_int %+ SUFFIX
%else
mix_2_1_float_u_int %+ SUFFIX
%endif
    VBROADCASTSS m4, [coeffpq + 4*index1q]
    VBROADCASTSS m5, [coeffpq + 4*index2q]
    shl lend    , 2
    add in1q    , lenq
    add in2q    , lenq
    add outq    , lenq
    neg lenq
.next:
%ifidn %1, a
    mulps        m0, m4, [in1q + lenq         ]
    mulps        m1, m5, [in2q + lenq         ]
    mulps        m2, m4, [in1q + lenq + mmsize]
    mulps        m3, m5, [in2q + lenq + mmsize]
%else
    movu         m0, [in1q + lenq         ]
    movu         m1, [in2q + lenq         ]
    movu         m2, [in1q + lenq + mmsize]
    movu         m3, [in2q + lenq + mmsize]
    mulps        m0, m0, m4
    mulps        m1, m1, m5
    mulps        m2, m2, m4
    mulps        m3, m3, m5
%endif
    addps        m0, m0, m1
    addps        m2, m2, m3
    mov%1  [outq + lenq         ], m0
    mov%1  [outq + lenq + mmsize], m2
    add        lenq, mmsize*2
        jl .next
    REP_RET
%endmacro

%macro MIX1_FLT 1
cglobal mix_1_1_%1_float, 5, 5, 3, out, in, coeffp, index, len
%ifidn %1, a
    test inq, mmsize-1
        jne mix_1_1_float_u_int %+ SUFFIX
    test outq, mmsize-1
        jne mix_1_1_float_u_int %+ SUFFIX
%else
mix_1_1_float_u_int %+ SUFFIX
%endif
    VBROADCASTSS m2, [coeffpq + 4*indexq]
    shl lenq    , 2
    add inq     , lenq
    add outq    , lenq
    neg lenq
.next:
%ifidn %1, a
    mulps        m0, m2, [inq + lenq         ]
    mulps        m1, m2, [inq + lenq + mmsize]
%else
    movu         m0, [inq + lenq         ]
    movu         m1, [inq + lenq + mmsize]
    mulps        m0, m0, m2
    mulps        m1, m1, m2
%endif
    mov%1  [outq + lenq         ], m0
    mov%1  [outq + lenq + mmsize], m1
    add        lenq, mmsize*2
        jl .next
    REP_RET
%endmacro

%macro MIX1_INT16 1
cglobal mix_1_1_%1_int16, 5, 5, 6, out, in, coeffp, index, len
%ifidn %1, a
    test inq, mmsize-1
        jne mix_1_1_int16_u_int %+ SUFFIX
    test outq, mmsize-1
        jne mix_1_1_int16_u_int %+ SUFFIX
%else
mix_1_1_int16_u_int %+ SUFFIX
%endif
    movd   m4, [coeffpq + 4*indexq]
    SPLATW m5, m4
    psllq  m4, 32
    psrlq  m4, 48
    mova   m0, [w1]
    psllw  m0, m4
    psrlw  m0, 1
    punpcklwd m5, m0
    add lenq    , lenq
    add inq     , lenq
    add outq    , lenq
    neg lenq
.next:
    mov%1        m0, [inq + lenq         ]
    mov%1        m2, [inq + lenq + mmsize]
    mova         m1, m0
    mova         m3, m2
    punpcklwd    m0, [w1]
    punpckhwd    m1, [w1]
    punpcklwd    m2, [w1]
    punpckhwd    m3, [w1]
    pmaddwd      m0, m5
    pmaddwd      m1, m5
    pmaddwd      m2, m5
    pmaddwd      m3, m5
    psrad        m0, m4
    psrad        m1, m4
    psrad        m2, m4
    psrad        m3, m4
    packssdw     m0, m1
    packssdw     m2, m3
    mov%1  [outq + lenq         ], m0
    mov%1  [outq + lenq + mmsize], m2
    add        lenq, mmsize*2
        jl .next
%if mmsize == 8
    emms
    RET
%else
    REP_RET
%endif
%endmacro

%macro MIX2_INT16 1
cglobal mix_2_1_%1_int16, 7, 7, 8, out, in1, in2, coeffp, index1, index2, len
%ifidn %1, a
    test in1q, mmsize-1
        jne mix_2_1_int16_u_int %+ SUFFIX
    test in2q, mmsize-1
        jne mix_2_1_int16_u_int %+ SUFFIX
    test outq, mmsize-1
        jne mix_2_1_int16_u_int %+ SUFFIX
%else
mix_2_1_int16_u_int %+ SUFFIX
%endif
    movd   m4, [coeffpq + 4*index1q]
    movd   m6, [coeffpq + 4*index2q]
    SPLATW m5, m4
    SPLATW m6, m6
    psllq  m4, 32
    psrlq  m4, 48
    mova   m7, [dw1]
    pslld  m7, m4
    psrld  m7, 1
    punpcklwd m5, m6
    add lend    , lend
    add in1q    , lenq
    add in2q    , lenq
    add outq    , lenq
    neg lenq
.next:
    mov%1        m0, [in1q + lenq         ]
    mov%1        m2, [in2q + lenq         ]
    mova         m1, m0
    punpcklwd    m0, m2
    punpckhwd    m1, m2

    mov%1        m2, [in1q + lenq + mmsize]
    mov%1        m6, [in2q + lenq + mmsize]
    mova         m3, m2
    punpcklwd    m2, m6
    punpckhwd    m3, m6

    pmaddwd      m0, m5
    pmaddwd      m1, m5
    pmaddwd      m2, m5
    pmaddwd      m3, m5
    paddd        m0, m7
    paddd        m1, m7
    paddd        m2, m7
    paddd        m3, m7
    psrad        m0, m4
    psrad        m1, m4
    psrad        m2, m4
    psrad        m3, m4
    packssdw     m0, m1
    packssdw     m2, m3
    mov%1  [outq + lenq         ], m0
    mov%1  [outq + lenq + mmsize], m2
    add        lenq, mmsize*2
        jl .next
%if mmsize == 8
    emms
    RET
%else
    REP_RET
%endif
%endmacro


INIT_MMX mmx
MIX1_INT16 u
MIX1_INT16 a
MIX2_INT16 u
MIX2_INT16 a

INIT_XMM sse
MIX2_FLT u
MIX2_FLT a
MIX1_FLT u
MIX1_FLT a

INIT_XMM sse2
MIX1_INT16 u
MIX1_INT16 a
MIX2_INT16 u
MIX2_INT16 a

%if HAVE_AVX_EXTERNAL
INIT_YMM avx
MIX2_FLT u
MIX2_FLT a
MIX1_FLT u
MIX1_FLT a
%endif
Commit	Line	Data
	1	;******************************************************************************
	2	;* Copyright (c) 2012 Michael Niedermayer
	3	;*
	4	;* This file is part of FFmpeg.
	5	;*
	6	;* FFmpeg is free software; you can redistribute it and/or
	7	;* modify it under the terms of the GNU Lesser General Public
	8	;* License as published by the Free Software Foundation; either
	9	;* version 2.1 of the License, or (at your option) any later version.
	10	;*
	11	;* FFmpeg is distributed in the hope that it will be useful,
	12	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	13	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	14	;* Lesser General Public License for more details.
	15	;*
	16	;* You should have received a copy of the GNU Lesser General Public
	17	;* License along with FFmpeg; if not, write to the Free Software
	18	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	19	;******************************************************************************
	20
	21	%include "libavutil/x86/x86util.asm"
	22
	23
	24	SECTION_RODATA 32
	25	dw1: times 8 dd 1
	26	w1 : times 16 dw 1
	27
	28	SECTION .text
	29
	30	%macro MIX2_FLT 1
	31	cglobal mix_2_1_%1_float, 7, 7, 6, out, in1, in2, coeffp, index1, index2, len
	32	%ifidn %1, a
	33	test in1q, mmsize-1
	34	jne mix_2_1_float_u_int %+ SUFFIX
	35	test in2q, mmsize-1
	36	jne mix_2_1_float_u_int %+ SUFFIX
	37	test outq, mmsize-1
	38	jne mix_2_1_float_u_int %+ SUFFIX
	39	%else
	40	mix_2_1_float_u_int %+ SUFFIX
	41	%endif
	42	VBROADCASTSS m4, [coeffpq + 4*index1q]
	43	VBROADCASTSS m5, [coeffpq + 4*index2q]
	44	shl lend , 2
	45	add in1q , lenq
	46	add in2q , lenq
	47	add outq , lenq
	48	neg lenq
	49	.next:
	50	%ifidn %1, a
	51	mulps m0, m4, [in1q + lenq ]
	52	mulps m1, m5, [in2q + lenq ]
	53	mulps m2, m4, [in1q + lenq + mmsize]
	54	mulps m3, m5, [in2q + lenq + mmsize]
	55	%else
	56	movu m0, [in1q + lenq ]
	57	movu m1, [in2q + lenq ]
	58	movu m2, [in1q + lenq + mmsize]
	59	movu m3, [in2q + lenq + mmsize]
	60	mulps m0, m0, m4
	61	mulps m1, m1, m5
	62	mulps m2, m2, m4
	63	mulps m3, m3, m5
	64	%endif
	65	addps m0, m0, m1
	66	addps m2, m2, m3
	67	mov%1 [outq + lenq ], m0
	68	mov%1 [outq + lenq + mmsize], m2
	69	add lenq, mmsize*2
	70	jl .next
	71	REP_RET
	72	%endmacro
	73
	74	%macro MIX1_FLT 1
	75	cglobal mix_1_1_%1_float, 5, 5, 3, out, in, coeffp, index, len
	76	%ifidn %1, a
	77	test inq, mmsize-1
	78	jne mix_1_1_float_u_int %+ SUFFIX
	79	test outq, mmsize-1
	80	jne mix_1_1_float_u_int %+ SUFFIX
	81	%else
	82	mix_1_1_float_u_int %+ SUFFIX
	83	%endif
	84	VBROADCASTSS m2, [coeffpq + 4*indexq]
	85	shl lenq , 2
	86	add inq , lenq
	87	add outq , lenq
	88	neg lenq
	89	.next:
	90	%ifidn %1, a
	91	mulps m0, m2, [inq + lenq ]
	92	mulps m1, m2, [inq + lenq + mmsize]
	93	%else
	94	movu m0, [inq + lenq ]
	95	movu m1, [inq + lenq + mmsize]
	96	mulps m0, m0, m2
	97	mulps m1, m1, m2
	98	%endif
	99	mov%1 [outq + lenq ], m0
	100	mov%1 [outq + lenq + mmsize], m1
	101	add lenq, mmsize*2
	102	jl .next
	103	REP_RET
	104	%endmacro
	105
	106	%macro MIX1_INT16 1
	107	cglobal mix_1_1_%1_int16, 5, 5, 6, out, in, coeffp, index, len
	108	%ifidn %1, a
	109	test inq, mmsize-1
	110	jne mix_1_1_int16_u_int %+ SUFFIX
	111	test outq, mmsize-1
	112	jne mix_1_1_int16_u_int %+ SUFFIX
	113	%else
	114	mix_1_1_int16_u_int %+ SUFFIX
	115	%endif
	116	movd m4, [coeffpq + 4*indexq]
	117	SPLATW m5, m4
	118	psllq m4, 32
	119	psrlq m4, 48
	120	mova m0, [w1]
	121	psllw m0, m4
	122	psrlw m0, 1
	123	punpcklwd m5, m0
	124	add lenq , lenq
	125	add inq , lenq
	126	add outq , lenq
	127	neg lenq
	128	.next:
	129	mov%1 m0, [inq + lenq ]
	130	mov%1 m2, [inq + lenq + mmsize]
	131	mova m1, m0
	132	mova m3, m2
	133	punpcklwd m0, [w1]
	134	punpckhwd m1, [w1]
	135	punpcklwd m2, [w1]
	136	punpckhwd m3, [w1]
	137	pmaddwd m0, m5
	138	pmaddwd m1, m5
	139	pmaddwd m2, m5
	140	pmaddwd m3, m5
	141	psrad m0, m4
	142	psrad m1, m4
	143	psrad m2, m4
	144	psrad m3, m4
	145	packssdw m0, m1
	146	packssdw m2, m3
	147	mov%1 [outq + lenq ], m0
	148	mov%1 [outq + lenq + mmsize], m2
	149	add lenq, mmsize*2
	150	jl .next
	151	%if mmsize == 8
	152	emms
	153	RET
	154	%else
	155	REP_RET
	156	%endif
	157	%endmacro
	158
	159	%macro MIX2_INT16 1
	160	cglobal mix_2_1_%1_int16, 7, 7, 8, out, in1, in2, coeffp, index1, index2, len
	161	%ifidn %1, a
	162	test in1q, mmsize-1
	163	jne mix_2_1_int16_u_int %+ SUFFIX
	164	test in2q, mmsize-1
	165	jne mix_2_1_int16_u_int %+ SUFFIX
	166	test outq, mmsize-1
	167	jne mix_2_1_int16_u_int %+ SUFFIX
	168	%else
	169	mix_2_1_int16_u_int %+ SUFFIX
	170	%endif
	171	movd m4, [coeffpq + 4*index1q]
	172	movd m6, [coeffpq + 4*index2q]
	173	SPLATW m5, m4
	174	SPLATW m6, m6
	175	psllq m4, 32
	176	psrlq m4, 48
	177	mova m7, [dw1]
	178	pslld m7, m4
	179	psrld m7, 1
	180	punpcklwd m5, m6
	181	add lend , lend
	182	add in1q , lenq
	183	add in2q , lenq
	184	add outq , lenq
	185	neg lenq
	186	.next:
	187	mov%1 m0, [in1q + lenq ]
	188	mov%1 m2, [in2q + lenq ]
	189	mova m1, m0
	190	punpcklwd m0, m2
	191	punpckhwd m1, m2
	192
	193	mov%1 m2, [in1q + lenq + mmsize]
	194	mov%1 m6, [in2q + lenq + mmsize]
	195	mova m3, m2
	196	punpcklwd m2, m6
	197	punpckhwd m3, m6
	198
	199	pmaddwd m0, m5
	200	pmaddwd m1, m5
	201	pmaddwd m2, m5
	202	pmaddwd m3, m5
	203	paddd m0, m7
	204	paddd m1, m7
	205	paddd m2, m7
	206	paddd m3, m7
	207	psrad m0, m4
	208	psrad m1, m4
	209	psrad m2, m4
	210	psrad m3, m4
	211	packssdw m0, m1
	212	packssdw m2, m3
	213	mov%1 [outq + lenq ], m0
	214	mov%1 [outq + lenq + mmsize], m2
	215	add lenq, mmsize*2
	216	jl .next
	217	%if mmsize == 8
	218	emms
	219	RET
	220	%else
	221	REP_RET
	222	%endif
	223	%endmacro
	224
	225
	226	INIT_MMX mmx
	227	MIX1_INT16 u
	228	MIX1_INT16 a
	229	MIX2_INT16 u
	230	MIX2_INT16 a
	231
	232	INIT_XMM sse
	233	MIX2_FLT u
	234	MIX2_FLT a
	235	MIX1_FLT u
	236	MIX1_FLT a
	237
	238	INIT_XMM sse2
	239	MIX1_INT16 u
	240	MIX1_INT16 a
	241	MIX2_INT16 u
	242	MIX2_INT16 a
	243
	244	%if HAVE_AVX_EXTERNAL
	245	INIT_YMM avx
	246	MIX2_FLT u
	247	MIX2_FLT a
	248	MIX1_FLT u
	249	MIX1_FLT a
	250	%endif