[deb_ffmpeg.git] / ffmpeg / libavutil / arm / float_dsp_neon.S

/*
 * ARM NEON optimised Float DSP functions
 * Copyright (c) 2008 Mans Rullgard <mans@mansr.com>
 *
 * This file is part of FFmpeg.
 *
 * FFmpeg is free software; you can redistribute it and/or
 * modify it under the terms of the GNU Lesser General Public
 * License as published by the Free Software Foundation; either
 * version 2.1 of the License, or (at your option) any later version.
 *
 * FFmpeg is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 * Lesser General Public License for more details.
 *
 * You should have received a copy of the GNU Lesser General Public
 * License along with FFmpeg; if not, write to the Free Software
 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
 */

#include "config.h"
#include "asm.S"

function ff_vector_fmul_neon, export=1
        subs            r3,  r3,  #8
        vld1.32         {d0-d3},  [r1,:128]!
        vld1.32         {d4-d7},  [r2,:128]!
        vmul.f32        q8,  q0,  q2
        vmul.f32        q9,  q1,  q3
        beq             3f
        bics            ip,  r3,  #15
        beq             2f
1:      subs            ip,  ip,  #16
        vld1.32         {d0-d1},  [r1,:128]!
        vld1.32         {d4-d5},  [r2,:128]!
        vmul.f32        q10, q0,  q2
        vld1.32         {d2-d3},  [r1,:128]!
        vld1.32         {d6-d7},  [r2,:128]!
        vmul.f32        q11, q1,  q3
        vst1.32         {d16-d19},[r0,:128]!
        vld1.32         {d0-d1},  [r1,:128]!
        vld1.32         {d4-d5},  [r2,:128]!
        vmul.f32        q8,  q0,  q2
        vld1.32         {d2-d3},  [r1,:128]!
        vld1.32         {d6-d7},  [r2,:128]!
        vmul.f32        q9,  q1,  q3
        vst1.32         {d20-d23},[r0,:128]!
        bne             1b
        ands            r3,  r3,  #15
        beq             3f
2:      vld1.32         {d0-d1},  [r1,:128]!
        vld1.32         {d4-d5},  [r2,:128]!
        vst1.32         {d16-d17},[r0,:128]!
        vmul.f32        q8,  q0,  q2
        vld1.32         {d2-d3},  [r1,:128]!
        vld1.32         {d6-d7},  [r2,:128]!
        vst1.32         {d18-d19},[r0,:128]!
        vmul.f32        q9,  q1,  q3
3:      vst1.32         {d16-d19},[r0,:128]!
        bx              lr
endfunc

function ff_vector_fmac_scalar_neon, export=1
VFP     len .req r2
VFP     acc .req r3
NOVFP   len .req r3
NOVFP   acc .req r2
VFP     vdup.32         q15, d0[0]
NOVFP   vdup.32         q15, r2
        bics            r12, len, #15
        mov             acc, r0
        beq             3f
        vld1.32         {q0},     [r1,:128]!
        vld1.32         {q8},     [acc,:128]!
        vld1.32         {q1},     [r1,:128]!
        vld1.32         {q9},     [acc,:128]!
1:      vmla.f32        q8,  q0,  q15
        vld1.32         {q2},     [r1,:128]!
        vld1.32         {q10},    [acc,:128]!
        vmla.f32        q9,  q1,  q15
        vld1.32         {q3},     [r1,:128]!
        vld1.32         {q11},    [acc,:128]!
        vmla.f32        q10, q2,  q15
        vst1.32         {q8},     [r0,:128]!
        vmla.f32        q11, q3,  q15
        vst1.32         {q9},     [r0,:128]!
        subs            r12, r12, #16
        beq             2f
        vld1.32         {q0},     [r1,:128]!
        vld1.32         {q8},     [acc,:128]!
        vst1.32         {q10},    [r0,:128]!
        vld1.32         {q1},     [r1,:128]!
        vld1.32         {q9},     [acc,:128]!
        vst1.32         {q11},    [r0,:128]!
        b               1b
2:      vst1.32         {q10},    [r0,:128]!
        vst1.32         {q11},    [r0,:128]!
        ands            len, len, #15
        it              eq
        bxeq            lr
3:      vld1.32         {q0},     [r1,:128]!
        vld1.32         {q8},     [acc,:128]!
        vmla.f32        q8,  q0,  q15
        vst1.32         {q8},     [r0,:128]!
        subs            len, len, #4
        bgt             3b
        bx              lr
        .unreq          len
endfunc

function ff_vector_fmul_scalar_neon, export=1
VFP     len .req r2
NOVFP   len .req r3
VFP     vdup.32         q8,  d0[0]
NOVFP   vdup.32         q8,  r2
        bics            r12, len, #15
        beq             3f
        vld1.32         {q0},[r1,:128]!
        vld1.32         {q1},[r1,:128]!
1:      vmul.f32        q0,  q0,  q8
        vld1.32         {q2},[r1,:128]!
        vmul.f32        q1,  q1,  q8
        vld1.32         {q3},[r1,:128]!
        vmul.f32        q2,  q2,  q8
        vst1.32         {q0},[r0,:128]!
        vmul.f32        q3,  q3,  q8
        vst1.32         {q1},[r0,:128]!
        subs            r12, r12, #16
        beq             2f
        vld1.32         {q0},[r1,:128]!
        vst1.32         {q2},[r0,:128]!
        vld1.32         {q1},[r1,:128]!
        vst1.32         {q3},[r0,:128]!
        b               1b
2:      vst1.32         {q2},[r0,:128]!
        vst1.32         {q3},[r0,:128]!
        ands            len, len, #15
        it              eq
        bxeq            lr
3:      vld1.32         {q0},[r1,:128]!
        vmul.f32        q0,  q0,  q8
        vst1.32         {q0},[r0,:128]!
        subs            len, len, #4
        bgt             3b
        bx              lr
        .unreq          len
endfunc

function ff_vector_fmul_window_neon, export=1
        push            {r4,r5,lr}
        ldr             lr,  [sp, #12]
        sub             r2,  r2,  #8
        sub             r5,  lr,  #2
        add             r2,  r2,  r5, lsl #2
        add             r4,  r3,  r5, lsl #3
        add             ip,  r0,  r5, lsl #3
        mov             r5,  #-16
        vld1.32         {d0,d1},  [r1,:128]!
        vld1.32         {d2,d3},  [r2,:128], r5
        vld1.32         {d4,d5},  [r3,:128]!
        vld1.32         {d6,d7},  [r4,:128], r5
1:      subs            lr,  lr,  #4
        vmul.f32        d22, d0,  d4
        vrev64.32       q3,  q3
        vmul.f32        d23, d1,  d5
        vrev64.32       q1,  q1
        vmul.f32        d20, d0,  d7
        vmul.f32        d21, d1,  d6
        beq             2f
        vmla.f32        d22, d3,  d7
        vld1.32         {d0,d1},  [r1,:128]!
        vmla.f32        d23, d2,  d6
        vld1.32         {d18,d19},[r2,:128], r5
        vmls.f32        d20, d3,  d4
        vld1.32         {d24,d25},[r3,:128]!
        vmls.f32        d21, d2,  d5
        vld1.32         {d6,d7},  [r4,:128], r5
        vmov            q1,  q9
        vrev64.32       q11, q11
        vmov            q2,  q12
        vswp            d22, d23
        vst1.32         {d20,d21},[r0,:128]!
        vst1.32         {d22,d23},[ip,:128], r5
        b               1b
2:      vmla.f32        d22, d3,  d7
        vmla.f32        d23, d2,  d6
        vmls.f32        d20, d3,  d4
        vmls.f32        d21, d2,  d5
        vrev64.32       q11, q11
        vswp            d22, d23
        vst1.32         {d20,d21},[r0,:128]!
        vst1.32         {d22,d23},[ip,:128], r5
        pop             {r4,r5,pc}
endfunc

function ff_vector_fmul_add_neon, export=1
        ldr             r12, [sp]
        vld1.32         {q0-q1},  [r1,:128]!
        vld1.32         {q8-q9},  [r2,:128]!
        vld1.32         {q2-q3},  [r3,:128]!
        vmul.f32        q10, q0,  q8
        vmul.f32        q11, q1,  q9
1:      vadd.f32        q12, q2,  q10
        vadd.f32        q13, q3,  q11
        pld             [r1, #16]
        pld             [r2, #16]
        pld             [r3, #16]
        subs            r12, r12, #8
        beq             2f
        vld1.32         {q0},     [r1,:128]!
        vld1.32         {q8},     [r2,:128]!
        vmul.f32        q10, q0,  q8
        vld1.32         {q1},     [r1,:128]!
        vld1.32         {q9},     [r2,:128]!
        vmul.f32        q11, q1,  q9
        vld1.32         {q2-q3},  [r3,:128]!
        vst1.32         {q12-q13},[r0,:128]!
        b               1b
2:      vst1.32         {q12-q13},[r0,:128]!
        bx              lr
endfunc

function ff_vector_fmul_reverse_neon, export=1
        add             r2,  r2,  r3,  lsl #2
        sub             r2,  r2,  #32
        mov             r12, #-32
        vld1.32         {q0-q1},  [r1,:128]!
        vld1.32         {q2-q3},  [r2,:128], r12
1:      pld             [r1, #32]
        vrev64.32       q3,  q3
        vmul.f32        d16, d0,  d7
        vmul.f32        d17, d1,  d6
        pld             [r2, #-32]
        vrev64.32       q2,  q2
        vmul.f32        d18, d2,  d5
        vmul.f32        d19, d3,  d4
        subs            r3,  r3,  #8
        beq             2f
        vld1.32         {q0-q1},  [r1,:128]!
        vld1.32         {q2-q3},  [r2,:128], r12
        vst1.32         {q8-q9},  [r0,:128]!
        b               1b
2:      vst1.32         {q8-q9},  [r0,:128]!
        bx              lr
endfunc

function ff_butterflies_float_neon, export=1
1:      vld1.32         {q0},[r0,:128]
        vld1.32         {q1},[r1,:128]
        vsub.f32        q2,  q0,  q1
        vadd.f32        q1,  q0,  q1
        vst1.32         {q2},[r1,:128]!
        vst1.32         {q1},[r0,:128]!
        subs            r2,  r2,  #4
        bgt             1b
        bx              lr
endfunc

function ff_scalarproduct_float_neon, export=1
        vmov.f32        q2,  #0.0
1:      vld1.32         {q0},[r0,:128]!
        vld1.32         {q1},[r1,:128]!
        vmla.f32        q2,  q0,  q1
        subs            r2,  r2,  #4
        bgt             1b
        vadd.f32        d0,  d4,  d5
        vpadd.f32       d0,  d0,  d0
NOVFP   vmov.32         r0,  d0[0]
        bx              lr
endfunc
Commit	Line	Data
2ba45a60 DM	1	/*
	2	* ARM NEON optimised Float DSP functions
	3	* Copyright (c) 2008 Mans Rullgard <mans@mansr.com>
	4	*
	5	* This file is part of FFmpeg.
	6	*
	7	* FFmpeg is free software; you can redistribute it and/or
	8	* modify it under the terms of the GNU Lesser General Public
	9	* License as published by the Free Software Foundation; either
	10	* version 2.1 of the License, or (at your option) any later version.
	11	*
	12	* FFmpeg is distributed in the hope that it will be useful,
	13	* but WITHOUT ANY WARRANTY; without even the implied warranty of
	14	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	15	* Lesser General Public License for more details.
	16	*
	17	* You should have received a copy of the GNU Lesser General Public
	18	* License along with FFmpeg; if not, write to the Free Software
	19	* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	20	*/
	21
	22	#include "config.h"
	23	#include "asm.S"
	24
	25	function ff_vector_fmul_neon, export=1
	26	subs r3, r3, #8
	27	vld1.32 {d0-d3}, [r1,:128]!
	28	vld1.32 {d4-d7}, [r2,:128]!
	29	vmul.f32 q8, q0, q2
	30	vmul.f32 q9, q1, q3
	31	beq 3f
	32	bics ip, r3, #15
	33	beq 2f
	34	1: subs ip, ip, #16
	35	vld1.32 {d0-d1}, [r1,:128]!
	36	vld1.32 {d4-d5}, [r2,:128]!
	37	vmul.f32 q10, q0, q2
	38	vld1.32 {d2-d3}, [r1,:128]!
	39	vld1.32 {d6-d7}, [r2,:128]!
	40	vmul.f32 q11, q1, q3
	41	vst1.32 {d16-d19},[r0,:128]!
	42	vld1.32 {d0-d1}, [r1,:128]!
	43	vld1.32 {d4-d5}, [r2,:128]!
	44	vmul.f32 q8, q0, q2
	45	vld1.32 {d2-d3}, [r1,:128]!
	46	vld1.32 {d6-d7}, [r2,:128]!
	47	vmul.f32 q9, q1, q3
	48	vst1.32 {d20-d23},[r0,:128]!
	49	bne 1b
	50	ands r3, r3, #15
	51	beq 3f
	52	2: vld1.32 {d0-d1}, [r1,:128]!
	53	vld1.32 {d4-d5}, [r2,:128]!
	54	vst1.32 {d16-d17},[r0,:128]!
	55	vmul.f32 q8, q0, q2
	56	vld1.32 {d2-d3}, [r1,:128]!
	57	vld1.32 {d6-d7}, [r2,:128]!
	58	vst1.32 {d18-d19},[r0,:128]!
	59	vmul.f32 q9, q1, q3
	60	3: vst1.32 {d16-d19},[r0,:128]!
	61	bx lr
	62	endfunc
	63
	64	function ff_vector_fmac_scalar_neon, export=1
65	VFP len .req r2
66	VFP acc .req r3
67	NOVFP len .req r3
68	NOVFP acc .req r2
69	VFP vdup.32 q15, d0[0]
70	NOVFP vdup.32 q15, r2
71	bics r12, len, #15
72	mov acc, r0
73	beq 3f
74	vld1.32 {q0}, [r1,:128]!
75	vld1.32 {q8}, [acc,:128]!
76	vld1.32 {q1}, [r1,:128]!
77	vld1.32 {q9}, [acc,:128]!
78	1: vmla.f32 q8, q0, q15
79	vld1.32 {q2}, [r1,:128]!
80	vld1.32 {q10}, [acc,:128]!
81	vmla.f32 q9, q1, q15
82	vld1.32 {q3}, [r1,:128]!
83	vld1.32 {q11}, [acc,:128]!
84	vmla.f32 q10, q2, q15
85	vst1.32 {q8}, [r0,:128]!
86	vmla.f32 q11, q3, q15
87	vst1.32 {q9}, [r0,:128]!
88	subs r12, r12, #16
89	beq 2f
90	vld1.32 {q0}, [r1,:128]!
91	vld1.32 {q8}, [acc,:128]!
92	vst1.32 {q10}, [r0,:128]!
93	vld1.32 {q1}, [r1,:128]!
94	vld1.32 {q9}, [acc,:128]!
95	vst1.32 {q11}, [r0,:128]!
96	b 1b
97	2: vst1.32 {q10}, [r0,:128]!
98	vst1.32 {q11}, [r0,:128]!
99	ands len, len, #15
100	it eq
101	bxeq lr
102	3: vld1.32 {q0}, [r1,:128]!
103	vld1.32 {q8}, [acc,:128]!
104	vmla.f32 q8, q0, q15
105	vst1.32 {q8}, [r0,:128]!
106	subs len, len, #4
107	bgt 3b
108	bx lr
109	.unreq len
110	endfunc
111
112	function ff_vector_fmul_scalar_neon, export=1
113	VFP len .req r2
114	NOVFP len .req r3
115	VFP vdup.32 q8, d0[0]
116	NOVFP vdup.32 q8, r2
117	bics r12, len, #15
118	beq 3f
119	vld1.32 {q0},[r1,:128]!
120	vld1.32 {q1},[r1,:128]!
121	1: vmul.f32 q0, q0, q8
122	vld1.32 {q2},[r1,:128]!
123	vmul.f32 q1, q1, q8
124	vld1.32 {q3},[r1,:128]!
125	vmul.f32 q2, q2, q8
126	vst1.32 {q0},[r0,:128]!
127	vmul.f32 q3, q3, q8
128	vst1.32 {q1},[r0,:128]!
129	subs r12, r12, #16
130	beq 2f
131	vld1.32 {q0},[r1,:128]!
132	vst1.32 {q2},[r0,:128]!
133	vld1.32 {q1},[r1,:128]!
134	vst1.32 {q3},[r0,:128]!
135	b 1b
136	2: vst1.32 {q2},[r0,:128]!
137	vst1.32 {q3},[r0,:128]!
138	ands len, len, #15
139	it eq
140	bxeq lr
141	3: vld1.32 {q0},[r1,:128]!
142	vmul.f32 q0, q0, q8
143	vst1.32 {q0},[r0,:128]!
144	subs len, len, #4
145	bgt 3b
146	bx lr
147	.unreq len
148	endfunc
149
150	function ff_vector_fmul_window_neon, export=1
151	push {r4,r5,lr}
152	ldr lr, [sp, #12]
153	sub r2, r2, #8
154	sub r5, lr, #2
155	add r2, r2, r5, lsl #2
156	add r4, r3, r5, lsl #3
157	add ip, r0, r5, lsl #3
158	mov r5, #-16
159	vld1.32 {d0,d1}, [r1,:128]!
160	vld1.32 {d2,d3}, [r2,:128], r5
161	vld1.32 {d4,d5}, [r3,:128]!
162	vld1.32 {d6,d7}, [r4,:128], r5
163	1: subs lr, lr, #4
164	vmul.f32 d22, d0, d4
165	vrev64.32 q3, q3
166	vmul.f32 d23, d1, d5
167	vrev64.32 q1, q1
168	vmul.f32 d20, d0, d7
169	vmul.f32 d21, d1, d6
170	beq 2f
171	vmla.f32 d22, d3, d7
172	vld1.32 {d0,d1}, [r1,:128]!
173	vmla.f32 d23, d2, d6
174	vld1.32 {d18,d19},[r2,:128], r5
175	vmls.f32 d20, d3, d4
176	vld1.32 {d24,d25},[r3,:128]!
177	vmls.f32 d21, d2, d5
178	vld1.32 {d6,d7}, [r4,:128], r5
179	vmov q1, q9
180	vrev64.32 q11, q11
181	vmov q2, q12
182	vswp d22, d23
183	vst1.32 {d20,d21},[r0,:128]!
184	vst1.32 {d22,d23},[ip,:128], r5
185	b 1b
186	2: vmla.f32 d22, d3, d7
187	vmla.f32 d23, d2, d6
188	vmls.f32 d20, d3, d4
189	vmls.f32 d21, d2, d5
190	vrev64.32 q11, q11
191	vswp d22, d23
192	vst1.32 {d20,d21},[r0,:128]!
193	vst1.32 {d22,d23},[ip,:128], r5
194	pop {r4,r5,pc}
195	endfunc
196
197	function ff_vector_fmul_add_neon, export=1
198	ldr r12, [sp]
199	vld1.32 {q0-q1}, [r1,:128]!
200	vld1.32 {q8-q9}, [r2,:128]!
201	vld1.32 {q2-q3}, [r3,:128]!
202	vmul.f32 q10, q0, q8
203	vmul.f32 q11, q1, q9
204	1: vadd.f32 q12, q2, q10
205	vadd.f32 q13, q3, q11
206	pld [r1, #16]
207	pld [r2, #16]
208	pld [r3, #16]
209	subs r12, r12, #8
210	beq 2f
211	vld1.32 {q0}, [r1,:128]!
212	vld1.32 {q8}, [r2,:128]!
213	vmul.f32 q10, q0, q8
214	vld1.32 {q1}, [r1,:128]!
215	vld1.32 {q9}, [r2,:128]!
216	vmul.f32 q11, q1, q9
217	vld1.32 {q2-q3}, [r3,:128]!
218	vst1.32 {q12-q13},[r0,:128]!
219	b 1b
220	2: vst1.32 {q12-q13},[r0,:128]!
221	bx lr
222	endfunc
223
224	function ff_vector_fmul_reverse_neon, export=1
225	add r2, r2, r3, lsl #2
226	sub r2, r2, #32
227	mov r12, #-32
228	vld1.32 {q0-q1}, [r1,:128]!
229	vld1.32 {q2-q3}, [r2,:128], r12
230	1: pld [r1, #32]
231	vrev64.32 q3, q3
232	vmul.f32 d16, d0, d7
233	vmul.f32 d17, d1, d6
234	pld [r2, #-32]
235	vrev64.32 q2, q2
236	vmul.f32 d18, d2, d5
237	vmul.f32 d19, d3, d4
238	subs r3, r3, #8
239	beq 2f
240	vld1.32 {q0-q1}, [r1,:128]!
241	vld1.32 {q2-q3}, [r2,:128], r12
242	vst1.32 {q8-q9}, [r0,:128]!
243	b 1b
244	2: vst1.32 {q8-q9}, [r0,:128]!
245	bx lr
246	endfunc
247
248	function ff_butterflies_float_neon, export=1
249	1: vld1.32 {q0},[r0,:128]
250	vld1.32 {q1},[r1,:128]
251	vsub.f32 q2, q0, q1
252	vadd.f32 q1, q0, q1
253	vst1.32 {q2},[r1,:128]!
254	vst1.32 {q1},[r0,:128]!
255	subs r2, r2, #4
256	bgt 1b
257	bx lr
258	endfunc
259
260	function ff_scalarproduct_float_neon, export=1
261	vmov.f32 q2, #0.0
262	1: vld1.32 {q0},[r0,:128]!
263	vld1.32 {q1},[r1,:128]!
264	vmla.f32 q2, q0, q1
265	subs r2, r2, #4
266	bgt 1b
267	vadd.f32 d0, d4, d5
268	vpadd.f32 d0, d0, d0
269	NOVFP vmov.32 r0, d0[0]
270	bx lr
271	endfunc