[deb_ffmpeg.git] / ffmpeg / libavcodec / arm / h264dsp_neon.S

/*
 * Copyright (c) 2008 Mans Rullgard <mans@mansr.com>
 *
 * This file is part of FFmpeg.
 *
 * FFmpeg is free software; you can redistribute it and/or
 * modify it under the terms of the GNU Lesser General Public
 * License as published by the Free Software Foundation; either
 * version 2.1 of the License, or (at your option) any later version.
 *
 * FFmpeg is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 * Lesser General Public License for more details.
 *
 * You should have received a copy of the GNU Lesser General Public
 * License along with FFmpeg; if not, write to the Free Software
 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
 */

#include "libavutil/arm/asm.S"
#include "neon.S"

        /* H.264 loop filter */

.macro  h264_loop_filter_start
        ldr             r12, [sp]
        tst             r2,  r2
        ldr             r12, [r12]
        it              ne
        tstne           r3,  r3
        vmov.32         d24[0], r12
        and             r12, r12, r12, lsl #16
        it              eq
        bxeq            lr
        ands            r12, r12, r12, lsl #8
        it              lt
        bxlt            lr
.endm

.macro  h264_loop_filter_luma
        vdup.8          q11, r2         @ alpha
        vmovl.u8        q12, d24
        vabd.u8         q6,  q8,  q0    @ abs(p0 - q0)
        vmovl.u16       q12, d24
        vabd.u8         q14, q9,  q8    @ abs(p1 - p0)
        vsli.16         q12, q12, #8
        vabd.u8         q15, q1,  q0    @ abs(q1 - q0)
        vsli.32         q12, q12, #16
        vclt.u8         q6,  q6,  q11   @ < alpha
        vdup.8          q11, r3         @ beta
        vclt.s8         q7,  q12, #0
        vclt.u8         q14, q14, q11   @ < beta
        vclt.u8         q15, q15, q11   @ < beta
        vbic            q6,  q6,  q7
        vabd.u8         q4,  q10, q8    @ abs(p2 - p0)
        vand            q6,  q6,  q14
        vabd.u8         q5,  q2,  q0    @ abs(q2 - q0)
        vclt.u8         q4,  q4,  q11   @ < beta
        vand            q6,  q6,  q15
        vclt.u8         q5,  q5,  q11   @ < beta
        vand            q4,  q4,  q6
        vand            q5,  q5,  q6
        vand            q12, q12, q6
        vrhadd.u8       q14, q8,  q0
        vsub.i8         q6,  q12, q4
        vqadd.u8        q7,  q9,  q12
        vhadd.u8        q10, q10, q14
        vsub.i8         q6,  q6,  q5
        vhadd.u8        q14, q2,  q14
        vmin.u8         q7,  q7,  q10
        vqsub.u8        q11, q9,  q12
        vqadd.u8        q2,  q1,  q12
        vmax.u8         q7,  q7,  q11
        vqsub.u8        q11, q1,  q12
        vmin.u8         q14, q2,  q14
        vmovl.u8        q2,  d0
        vmax.u8         q14, q14, q11
        vmovl.u8        q10, d1
        vsubw.u8        q2,  q2,  d16
        vsubw.u8        q10, q10, d17
        vshl.i16        q2,  q2,  #2
        vshl.i16        q10, q10, #2
        vaddw.u8        q2,  q2,  d18
        vaddw.u8        q10, q10, d19
        vsubw.u8        q2,  q2,  d2
        vsubw.u8        q10, q10, d3
        vrshrn.i16      d4,  q2,  #3
        vrshrn.i16      d5,  q10, #3
        vbsl            q4,  q7,  q9
        vbsl            q5,  q14, q1
        vneg.s8         q7,  q6
        vmovl.u8        q14, d16
        vmin.s8         q2,  q2,  q6
        vmovl.u8        q6,  d17
        vmax.s8         q2,  q2,  q7
        vmovl.u8        q11, d0
        vmovl.u8        q12, d1
        vaddw.s8        q14, q14, d4
        vaddw.s8        q6,  q6,  d5
        vsubw.s8        q11, q11, d4
        vsubw.s8        q12, q12, d5
        vqmovun.s16     d16, q14
        vqmovun.s16     d17, q6
        vqmovun.s16     d0,  q11
        vqmovun.s16     d1,  q12
.endm

function ff_h264_v_loop_filter_luma_neon, export=1
        h264_loop_filter_start

        vld1.8          {d0, d1},  [r0,:128], r1
        vld1.8          {d2, d3},  [r0,:128], r1
        vld1.8          {d4, d5},  [r0,:128], r1
        sub             r0,  r0,  r1, lsl #2
        sub             r0,  r0,  r1, lsl #1
        vld1.8          {d20,d21}, [r0,:128], r1
        vld1.8          {d18,d19}, [r0,:128], r1
        vld1.8          {d16,d17}, [r0,:128], r1

        vpush           {d8-d15}

        h264_loop_filter_luma

        sub             r0,  r0,  r1, lsl #1
        vst1.8          {d8, d9},  [r0,:128], r1
        vst1.8          {d16,d17}, [r0,:128], r1
        vst1.8          {d0, d1},  [r0,:128], r1
        vst1.8          {d10,d11}, [r0,:128]

        vpop            {d8-d15}
        bx              lr
endfunc

function ff_h264_h_loop_filter_luma_neon, export=1
        h264_loop_filter_start

        sub             r0,  r0,  #4
        vld1.8          {d6},  [r0], r1
        vld1.8          {d20}, [r0], r1
        vld1.8          {d18}, [r0], r1
        vld1.8          {d16}, [r0], r1
        vld1.8          {d0},  [r0], r1
        vld1.8          {d2},  [r0], r1
        vld1.8          {d4},  [r0], r1
        vld1.8          {d26}, [r0], r1
        vld1.8          {d7},  [r0], r1
        vld1.8          {d21}, [r0], r1
        vld1.8          {d19}, [r0], r1
        vld1.8          {d17}, [r0], r1
        vld1.8          {d1},  [r0], r1
        vld1.8          {d3},  [r0], r1
        vld1.8          {d5},  [r0], r1
        vld1.8          {d27}, [r0], r1

        transpose_8x8   q3, q10, q9, q8, q0, q1, q2, q13

        vpush           {d8-d15}

        h264_loop_filter_luma

        transpose_4x4   q4, q8, q0, q5

        sub             r0,  r0,  r1, lsl #4
        add             r0,  r0,  #2
        vst1.32         {d8[0]},  [r0], r1
        vst1.32         {d16[0]}, [r0], r1
        vst1.32         {d0[0]},  [r0], r1
        vst1.32         {d10[0]}, [r0], r1
        vst1.32         {d8[1]},  [r0], r1
        vst1.32         {d16[1]}, [r0], r1
        vst1.32         {d0[1]},  [r0], r1
        vst1.32         {d10[1]}, [r0], r1
        vst1.32         {d9[0]},  [r0], r1
        vst1.32         {d17[0]}, [r0], r1
        vst1.32         {d1[0]},  [r0], r1
        vst1.32         {d11[0]}, [r0], r1
        vst1.32         {d9[1]},  [r0], r1
        vst1.32         {d17[1]}, [r0], r1
        vst1.32         {d1[1]},  [r0], r1
        vst1.32         {d11[1]}, [r0], r1

        vpop            {d8-d15}
        bx              lr
endfunc

.macro  h264_loop_filter_chroma
        vdup.8          d22, r2         @ alpha
        vmovl.u8        q12, d24
        vabd.u8         d26, d16, d0    @ abs(p0 - q0)
        vmovl.u8        q2,  d0
        vabd.u8         d28, d18, d16   @ abs(p1 - p0)
        vsubw.u8        q2,  q2,  d16
        vsli.16         d24, d24, #8
        vshl.i16        q2,  q2,  #2
        vabd.u8         d30, d2,  d0    @ abs(q1 - q0)
        vaddw.u8        q2,  q2,  d18
        vclt.u8         d26, d26, d22   @ < alpha
        vsubw.u8        q2,  q2,  d2
        vdup.8          d22, r3         @ beta
        vrshrn.i16      d4,  q2,  #3
        vclt.u8         d28, d28, d22   @ < beta
        vclt.u8         d30, d30, d22   @ < beta
        vmin.s8         d4,  d4,  d24
        vneg.s8         d25, d24
        vand            d26, d26, d28
        vmax.s8         d4,  d4,  d25
        vand            d26, d26, d30
        vmovl.u8        q11, d0
        vand            d4,  d4,  d26
        vmovl.u8        q14, d16
        vaddw.s8        q14, q14, d4
        vsubw.s8        q11, q11, d4
        vqmovun.s16     d16, q14
        vqmovun.s16     d0,  q11
.endm

function ff_h264_v_loop_filter_chroma_neon, export=1
        h264_loop_filter_start

        sub             r0,  r0,  r1, lsl #1
        vld1.8          {d18}, [r0,:64], r1
        vld1.8          {d16}, [r0,:64], r1
        vld1.8          {d0},  [r0,:64], r1
        vld1.8          {d2},  [r0,:64]

        h264_loop_filter_chroma

        sub             r0,  r0,  r1, lsl #1
        vst1.8          {d16}, [r0,:64], r1
        vst1.8          {d0},  [r0,:64], r1

        bx              lr
endfunc

function ff_h264_h_loop_filter_chroma_neon, export=1
        h264_loop_filter_start

        sub             r0,  r0,  #2
        vld1.32         {d18[0]}, [r0], r1
        vld1.32         {d16[0]}, [r0], r1
        vld1.32         {d0[0]},  [r0], r1
        vld1.32         {d2[0]},  [r0], r1
        vld1.32         {d18[1]}, [r0], r1
        vld1.32         {d16[1]}, [r0], r1
        vld1.32         {d0[1]},  [r0], r1
        vld1.32         {d2[1]},  [r0], r1

        vtrn.16         d18, d0
        vtrn.16         d16, d2
        vtrn.8          d18, d16
        vtrn.8          d0,  d2

        h264_loop_filter_chroma

        vtrn.16         d18, d0
        vtrn.16         d16, d2
        vtrn.8          d18, d16
        vtrn.8          d0,  d2

        sub             r0,  r0,  r1, lsl #3
        vst1.32         {d18[0]}, [r0], r1
        vst1.32         {d16[0]}, [r0], r1
        vst1.32         {d0[0]},  [r0], r1
        vst1.32         {d2[0]},  [r0], r1
        vst1.32         {d18[1]}, [r0], r1
        vst1.32         {d16[1]}, [r0], r1
        vst1.32         {d0[1]},  [r0], r1
        vst1.32         {d2[1]},  [r0], r1

        bx              lr
endfunc

@ Biweighted prediction

.macro  biweight_16     macs, macd
        vdup.8          d0,  r4
        vdup.8          d1,  r5
        vmov            q2,  q8
        vmov            q3,  q8
1:      subs            r3,  r3,  #2
        vld1.8          {d20-d21},[r0,:128], r2
        \macd           q2,  d0,  d20
        pld             [r0]
        \macd           q3,  d0,  d21
        vld1.8          {d22-d23},[r1,:128], r2
        \macs           q2,  d1,  d22
        pld             [r1]
        \macs           q3,  d1,  d23
        vmov            q12, q8
        vld1.8          {d28-d29},[r0,:128], r2
        vmov            q13, q8
        \macd           q12, d0,  d28
        pld             [r0]
        \macd           q13, d0,  d29
        vld1.8          {d30-d31},[r1,:128], r2
        \macs           q12, d1,  d30
        pld             [r1]
        \macs           q13, d1,  d31
        vshl.s16        q2,  q2,  q9
        vshl.s16        q3,  q3,  q9
        vqmovun.s16     d4,  q2
        vqmovun.s16     d5,  q3
        vshl.s16        q12, q12, q9
        vshl.s16        q13, q13, q9
        vqmovun.s16     d24, q12
        vqmovun.s16     d25, q13
        vmov            q3,  q8
        vst1.8          {d4- d5}, [r6,:128], r2
        vmov            q2,  q8
        vst1.8          {d24-d25},[r6,:128], r2
        bne             1b
        pop             {r4-r6, pc}
.endm

.macro  biweight_8      macs, macd
        vdup.8          d0,  r4
        vdup.8          d1,  r5
        vmov            q1,  q8
        vmov            q10, q8
1:      subs            r3,  r3,  #2
        vld1.8          {d4},[r0,:64], r2
        \macd           q1,  d0,  d4
        pld             [r0]
        vld1.8          {d5},[r1,:64], r2
        \macs           q1,  d1,  d5
        pld             [r1]
        vld1.8          {d6},[r0,:64], r2
        \macd           q10, d0,  d6
        pld             [r0]
        vld1.8          {d7},[r1,:64], r2
        \macs           q10, d1,  d7
        pld             [r1]
        vshl.s16        q1,  q1,  q9
        vqmovun.s16     d2,  q1
        vshl.s16        q10, q10, q9
        vqmovun.s16     d4,  q10
        vmov            q10, q8
        vst1.8          {d2},[r6,:64], r2
        vmov            q1,  q8
        vst1.8          {d4},[r6,:64], r2
        bne             1b
        pop             {r4-r6, pc}
.endm

.macro  biweight_4      macs, macd
        vdup.8          d0,  r4
        vdup.8          d1,  r5
        vmov            q1,  q8
        vmov            q10, q8
1:      subs            r3,  r3,  #4
        vld1.32         {d4[0]},[r0,:32], r2
        vld1.32         {d4[1]},[r0,:32], r2
        \macd           q1,  d0,  d4
        pld             [r0]
        vld1.32         {d5[0]},[r1,:32], r2
        vld1.32         {d5[1]},[r1,:32], r2
        \macs           q1,  d1,  d5
        pld             [r1]
        blt             2f
        vld1.32         {d6[0]},[r0,:32], r2
        vld1.32         {d6[1]},[r0,:32], r2
        \macd           q10, d0,  d6
        pld             [r0]
        vld1.32         {d7[0]},[r1,:32], r2
        vld1.32         {d7[1]},[r1,:32], r2
        \macs           q10, d1,  d7
        pld             [r1]
        vshl.s16        q1,  q1,  q9
        vqmovun.s16     d2,  q1
        vshl.s16        q10, q10, q9
        vqmovun.s16     d4,  q10
        vmov            q10, q8
        vst1.32         {d2[0]},[r6,:32], r2
        vst1.32         {d2[1]},[r6,:32], r2
        vmov            q1,  q8
        vst1.32         {d4[0]},[r6,:32], r2
        vst1.32         {d4[1]},[r6,:32], r2
        bne             1b
        pop             {r4-r6, pc}
2:      vshl.s16        q1,  q1,  q9
        vqmovun.s16     d2,  q1
        vst1.32         {d2[0]},[r6,:32], r2
        vst1.32         {d2[1]},[r6,:32], r2
        pop             {r4-r6, pc}
.endm

.macro  biweight_func   w
function ff_biweight_h264_pixels_\w\()_neon, export=1
        push            {r4-r6, lr}
        ldr             r12, [sp, #16]
        add             r4,  sp,  #20
        ldm             r4,  {r4-r6}
        lsr             lr,  r4,  #31
        add             r6,  r6,  #1
        eors            lr,  lr,  r5,  lsr #30
        orr             r6,  r6,  #1
        vdup.16         q9,  r12
        lsl             r6,  r6,  r12
        vmvn            q9,  q9
        vdup.16         q8,  r6
        mov             r6,  r0
        beq             10f
        subs            lr,  lr,  #1
        beq             20f
        subs            lr,  lr,  #1
        beq             30f
        b               40f
10:     biweight_\w     vmlal.u8, vmlal.u8
20:     rsb             r4,  r4,  #0
        biweight_\w     vmlal.u8, vmlsl.u8
30:     rsb             r4,  r4,  #0
        rsb             r5,  r5,  #0
        biweight_\w     vmlsl.u8, vmlsl.u8
40:     rsb             r5,  r5,  #0
        biweight_\w     vmlsl.u8, vmlal.u8
endfunc
.endm

        biweight_func   16
        biweight_func   8
        biweight_func   4

@ Weighted prediction

.macro  weight_16       add
        vdup.8          d0,  r12
1:      subs            r2,  r2,  #2
        vld1.8          {d20-d21},[r0,:128], r1
        vmull.u8        q2,  d0,  d20
        pld             [r0]
        vmull.u8        q3,  d0,  d21
        vld1.8          {d28-d29},[r0,:128], r1
        vmull.u8        q12, d0,  d28
        pld             [r0]
        vmull.u8        q13, d0,  d29
        \add            q2,  q8,  q2
        vrshl.s16       q2,  q2,  q9
        \add            q3,  q8,  q3
        vrshl.s16       q3,  q3,  q9
        vqmovun.s16     d4,  q2
        vqmovun.s16     d5,  q3
        \add            q12, q8,  q12
        vrshl.s16       q12, q12, q9
        \add            q13, q8,  q13
        vrshl.s16       q13, q13, q9
        vqmovun.s16     d24, q12
        vqmovun.s16     d25, q13
        vst1.8          {d4- d5}, [r4,:128], r1
        vst1.8          {d24-d25},[r4,:128], r1
        bne             1b
        pop             {r4, pc}
.endm

.macro  weight_8        add
        vdup.8          d0,  r12
1:      subs            r2,  r2,  #2
        vld1.8          {d4},[r0,:64], r1
        vmull.u8        q1,  d0,  d4
        pld             [r0]
        vld1.8          {d6},[r0,:64], r1
        vmull.u8        q10, d0,  d6
        \add            q1,  q8,  q1
        pld             [r0]
        vrshl.s16       q1,  q1,  q9
        vqmovun.s16     d2,  q1
        \add            q10, q8,  q10
        vrshl.s16       q10, q10, q9
        vqmovun.s16     d4,  q10
        vst1.8          {d2},[r4,:64], r1
        vst1.8          {d4},[r4,:64], r1
        bne             1b
        pop             {r4, pc}
.endm

.macro  weight_4        add
        vdup.8          d0,  r12
        vmov            q1,  q8
        vmov            q10, q8
1:      subs            r2,  r2,  #4
        vld1.32         {d4[0]},[r0,:32], r1
        vld1.32         {d4[1]},[r0,:32], r1
        vmull.u8        q1,  d0,  d4
        pld             [r0]
        blt             2f
        vld1.32         {d6[0]},[r0,:32], r1
        vld1.32         {d6[1]},[r0,:32], r1
        vmull.u8        q10, d0,  d6
        pld             [r0]
        \add            q1,  q8,  q1
        vrshl.s16       q1,  q1,  q9
        vqmovun.s16     d2,  q1
        \add            q10, q8,  q10
        vrshl.s16       q10, q10, q9
        vqmovun.s16     d4,  q10
        vmov            q10, q8
        vst1.32         {d2[0]},[r4,:32], r1
        vst1.32         {d2[1]},[r4,:32], r1
        vmov            q1,  q8
        vst1.32         {d4[0]},[r4,:32], r1
        vst1.32         {d4[1]},[r4,:32], r1
        bne             1b
        pop             {r4, pc}
2:      \add            q1,  q8,  q1
        vrshl.s16       q1,  q1,  q9
        vqmovun.s16     d2,  q1
        vst1.32         {d2[0]},[r4,:32], r1
        vst1.32         {d2[1]},[r4,:32], r1
        pop             {r4, pc}
.endm

.macro  weight_func     w
function ff_weight_h264_pixels_\w\()_neon, export=1
        push            {r4, lr}
        ldr             r12, [sp, #8]
        ldr             r4,  [sp, #12]
        cmp             r3,  #1
        lsl             r4,  r4,  r3
        vdup.16         q8,  r4
        mov             r4,  r0
        ble             20f
        rsb             lr,  r3,  #1
        vdup.16         q9,  lr
        cmp             r12, #0
        blt             10f
        weight_\w       vhadd.s16
10:     rsb             r12, r12, #0
        weight_\w       vhsub.s16
20:     rsb             lr,  r3,  #0
        vdup.16         q9,  lr
        cmp             r12, #0
        blt             10f
        weight_\w       vadd.s16
10:     rsb             r12, r12, #0
        weight_\w       vsub.s16
endfunc
.endm

        weight_func     16
        weight_func     8
        weight_func     4
Commit	Line	Data
2ba45a60 DM	1	/*
	2	* Copyright (c) 2008 Mans Rullgard <mans@mansr.com>
	3	*
	4	* This file is part of FFmpeg.
	5	*
	6	* FFmpeg is free software; you can redistribute it and/or
	7	* modify it under the terms of the GNU Lesser General Public
	8	* License as published by the Free Software Foundation; either
	9	* version 2.1 of the License, or (at your option) any later version.
	10	*
	11	* FFmpeg is distributed in the hope that it will be useful,
	12	* but WITHOUT ANY WARRANTY; without even the implied warranty of
	13	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	14	* Lesser General Public License for more details.
	15	*
	16	* You should have received a copy of the GNU Lesser General Public
	17	* License along with FFmpeg; if not, write to the Free Software
	18	* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	19	*/
	20
	21	#include "libavutil/arm/asm.S"
	22	#include "neon.S"
	23
	24	/* H.264 loop filter */
	25
	26	.macro h264_loop_filter_start
	27	ldr r12, [sp]
	28	tst r2, r2
	29	ldr r12, [r12]
	30	it ne
	31	tstne r3, r3
	32	vmov.32 d24[0], r12
	33	and r12, r12, r12, lsl #16
	34	it eq
	35	bxeq lr
	36	ands r12, r12, r12, lsl #8
	37	it lt
	38	bxlt lr
	39	.endm
	40
	41	.macro h264_loop_filter_luma
	42	vdup.8 q11, r2 @ alpha
	43	vmovl.u8 q12, d24
	44	vabd.u8 q6, q8, q0 @ abs(p0 - q0)
	45	vmovl.u16 q12, d24
	46	vabd.u8 q14, q9, q8 @ abs(p1 - p0)
	47	vsli.16 q12, q12, #8
	48	vabd.u8 q15, q1, q0 @ abs(q1 - q0)
	49	vsli.32 q12, q12, #16
	50	vclt.u8 q6, q6, q11 @ < alpha
	51	vdup.8 q11, r3 @ beta
	52	vclt.s8 q7, q12, #0
	53	vclt.u8 q14, q14, q11 @ < beta
	54	vclt.u8 q15, q15, q11 @ < beta
	55	vbic q6, q6, q7
	56	vabd.u8 q4, q10, q8 @ abs(p2 - p0)
	57	vand q6, q6, q14
	58	vabd.u8 q5, q2, q0 @ abs(q2 - q0)
	59	vclt.u8 q4, q4, q11 @ < beta
	60	vand q6, q6, q15
	61	vclt.u8 q5, q5, q11 @ < beta
	62	vand q4, q4, q6
	63	vand q5, q5, q6
	64	vand q12, q12, q6
65	vrhadd.u8 q14, q8, q0
66	vsub.i8 q6, q12, q4
67	vqadd.u8 q7, q9, q12
68	vhadd.u8 q10, q10, q14
69	vsub.i8 q6, q6, q5
70	vhadd.u8 q14, q2, q14
71	vmin.u8 q7, q7, q10
72	vqsub.u8 q11, q9, q12
73	vqadd.u8 q2, q1, q12
74	vmax.u8 q7, q7, q11
75	vqsub.u8 q11, q1, q12
76	vmin.u8 q14, q2, q14
77	vmovl.u8 q2, d0
78	vmax.u8 q14, q14, q11
79	vmovl.u8 q10, d1
80	vsubw.u8 q2, q2, d16
81	vsubw.u8 q10, q10, d17
82	vshl.i16 q2, q2, #2
83	vshl.i16 q10, q10, #2
84	vaddw.u8 q2, q2, d18
85	vaddw.u8 q10, q10, d19
86	vsubw.u8 q2, q2, d2
87	vsubw.u8 q10, q10, d3
88	vrshrn.i16 d4, q2, #3
89	vrshrn.i16 d5, q10, #3
90	vbsl q4, q7, q9
91	vbsl q5, q14, q1
92	vneg.s8 q7, q6
93	vmovl.u8 q14, d16
94	vmin.s8 q2, q2, q6
95	vmovl.u8 q6, d17
96	vmax.s8 q2, q2, q7
97	vmovl.u8 q11, d0
98	vmovl.u8 q12, d1
99	vaddw.s8 q14, q14, d4
100	vaddw.s8 q6, q6, d5
101	vsubw.s8 q11, q11, d4
102	vsubw.s8 q12, q12, d5
103	vqmovun.s16 d16, q14
104	vqmovun.s16 d17, q6
105	vqmovun.s16 d0, q11
106	vqmovun.s16 d1, q12
107	.endm
108
109	function ff_h264_v_loop_filter_luma_neon, export=1
110	h264_loop_filter_start
111
112	vld1.8 {d0, d1}, [r0,:128], r1
113	vld1.8 {d2, d3}, [r0,:128], r1
114	vld1.8 {d4, d5}, [r0,:128], r1
115	sub r0, r0, r1, lsl #2
116	sub r0, r0, r1, lsl #1
117	vld1.8 {d20,d21}, [r0,:128], r1
118	vld1.8 {d18,d19}, [r0,:128], r1
119	vld1.8 {d16,d17}, [r0,:128], r1
120
121	vpush {d8-d15}
122
123	h264_loop_filter_luma
124
125	sub r0, r0, r1, lsl #1
126	vst1.8 {d8, d9}, [r0,:128], r1
127	vst1.8 {d16,d17}, [r0,:128], r1
128	vst1.8 {d0, d1}, [r0,:128], r1
129	vst1.8 {d10,d11}, [r0,:128]
130
131	vpop {d8-d15}
132	bx lr
133	endfunc
134
135	function ff_h264_h_loop_filter_luma_neon, export=1
136	h264_loop_filter_start
137
138	sub r0, r0, #4
139	vld1.8 {d6}, [r0], r1
140	vld1.8 {d20}, [r0], r1
141	vld1.8 {d18}, [r0], r1
142	vld1.8 {d16}, [r0], r1
143	vld1.8 {d0}, [r0], r1
144	vld1.8 {d2}, [r0], r1
145	vld1.8 {d4}, [r0], r1
146	vld1.8 {d26}, [r0], r1
147	vld1.8 {d7}, [r0], r1
148	vld1.8 {d21}, [r0], r1
149	vld1.8 {d19}, [r0], r1
150	vld1.8 {d17}, [r0], r1
151	vld1.8 {d1}, [r0], r1
152	vld1.8 {d3}, [r0], r1
153	vld1.8 {d5}, [r0], r1
154	vld1.8 {d27}, [r0], r1
155
156	transpose_8x8 q3, q10, q9, q8, q0, q1, q2, q13
157
158	vpush {d8-d15}
159
160	h264_loop_filter_luma
161
162	transpose_4x4 q4, q8, q0, q5
163
164	sub r0, r0, r1, lsl #4
165	add r0, r0, #2
166	vst1.32 {d8[0]}, [r0], r1
167	vst1.32 {d16[0]}, [r0], r1
168	vst1.32 {d0[0]}, [r0], r1
169	vst1.32 {d10[0]}, [r0], r1
170	vst1.32 {d8[1]}, [r0], r1
171	vst1.32 {d16[1]}, [r0], r1
172	vst1.32 {d0[1]}, [r0], r1
173	vst1.32 {d10[1]}, [r0], r1
174	vst1.32 {d9[0]}, [r0], r1
175	vst1.32 {d17[0]}, [r0], r1
176	vst1.32 {d1[0]}, [r0], r1
177	vst1.32 {d11[0]}, [r0], r1
178	vst1.32 {d9[1]}, [r0], r1
179	vst1.32 {d17[1]}, [r0], r1
180	vst1.32 {d1[1]}, [r0], r1
181	vst1.32 {d11[1]}, [r0], r1
182
183	vpop {d8-d15}
184	bx lr
185	endfunc
186
187	.macro h264_loop_filter_chroma
188	vdup.8 d22, r2 @ alpha
189	vmovl.u8 q12, d24
190	vabd.u8 d26, d16, d0 @ abs(p0 - q0)
191	vmovl.u8 q2, d0
192	vabd.u8 d28, d18, d16 @ abs(p1 - p0)
193	vsubw.u8 q2, q2, d16
194	vsli.16 d24, d24, #8
195	vshl.i16 q2, q2, #2
196	vabd.u8 d30, d2, d0 @ abs(q1 - q0)
197	vaddw.u8 q2, q2, d18
198	vclt.u8 d26, d26, d22 @ < alpha
199	vsubw.u8 q2, q2, d2
200	vdup.8 d22, r3 @ beta
201	vrshrn.i16 d4, q2, #3
202	vclt.u8 d28, d28, d22 @ < beta
203	vclt.u8 d30, d30, d22 @ < beta
204	vmin.s8 d4, d4, d24
205	vneg.s8 d25, d24
206	vand d26, d26, d28
207	vmax.s8 d4, d4, d25
208	vand d26, d26, d30
209	vmovl.u8 q11, d0
210	vand d4, d4, d26
211	vmovl.u8 q14, d16
212	vaddw.s8 q14, q14, d4
213	vsubw.s8 q11, q11, d4
214	vqmovun.s16 d16, q14
215	vqmovun.s16 d0, q11
216	.endm
217
218	function ff_h264_v_loop_filter_chroma_neon, export=1
219	h264_loop_filter_start
220
221	sub r0, r0, r1, lsl #1
222	vld1.8 {d18}, [r0,:64], r1
223	vld1.8 {d16}, [r0,:64], r1
224	vld1.8 {d0}, [r0,:64], r1
225	vld1.8 {d2}, [r0,:64]
226
227	h264_loop_filter_chroma
228
229	sub r0, r0, r1, lsl #1
230	vst1.8 {d16}, [r0,:64], r1
231	vst1.8 {d0}, [r0,:64], r1
232
233	bx lr
234	endfunc
235
236	function ff_h264_h_loop_filter_chroma_neon, export=1
237	h264_loop_filter_start
238
239	sub r0, r0, #2
240	vld1.32 {d18[0]}, [r0], r1
241	vld1.32 {d16[0]}, [r0], r1
242	vld1.32 {d0[0]}, [r0], r1
243	vld1.32 {d2[0]}, [r0], r1
244	vld1.32 {d18[1]}, [r0], r1
245	vld1.32 {d16[1]}, [r0], r1
246	vld1.32 {d0[1]}, [r0], r1
247	vld1.32 {d2[1]}, [r0], r1
248
249	vtrn.16 d18, d0
250	vtrn.16 d16, d2
251	vtrn.8 d18, d16
252	vtrn.8 d0, d2
253
254	h264_loop_filter_chroma
255
256	vtrn.16 d18, d0
257	vtrn.16 d16, d2
258	vtrn.8 d18, d16
259	vtrn.8 d0, d2
260
261	sub r0, r0, r1, lsl #3
262	vst1.32 {d18[0]}, [r0], r1
263	vst1.32 {d16[0]}, [r0], r1
264	vst1.32 {d0[0]}, [r0], r1
265	vst1.32 {d2[0]}, [r0], r1
266	vst1.32 {d18[1]}, [r0], r1
267	vst1.32 {d16[1]}, [r0], r1
268	vst1.32 {d0[1]}, [r0], r1
269	vst1.32 {d2[1]}, [r0], r1
270
271	bx lr
272	endfunc
273
274	@ Biweighted prediction
275
276	.macro biweight_16 macs, macd
277	vdup.8 d0, r4
278	vdup.8 d1, r5
279	vmov q2, q8
280	vmov q3, q8
281	1: subs r3, r3, #2
282	vld1.8 {d20-d21},[r0,:128], r2
283	\macd q2, d0, d20
284	pld [r0]
285	\macd q3, d0, d21
286	vld1.8 {d22-d23},[r1,:128], r2
287	\macs q2, d1, d22
288	pld [r1]
289	\macs q3, d1, d23
290	vmov q12, q8
291	vld1.8 {d28-d29},[r0,:128], r2
292	vmov q13, q8
293	\macd q12, d0, d28
294	pld [r0]
295	\macd q13, d0, d29
296	vld1.8 {d30-d31},[r1,:128], r2
297	\macs q12, d1, d30
298	pld [r1]
299	\macs q13, d1, d31
300	vshl.s16 q2, q2, q9
301	vshl.s16 q3, q3, q9
302	vqmovun.s16 d4, q2
303	vqmovun.s16 d5, q3
304	vshl.s16 q12, q12, q9
305	vshl.s16 q13, q13, q9
306	vqmovun.s16 d24, q12
307	vqmovun.s16 d25, q13
308	vmov q3, q8
309	vst1.8 {d4- d5}, [r6,:128], r2
310	vmov q2, q8
311	vst1.8 {d24-d25},[r6,:128], r2
312	bne 1b
313	pop {r4-r6, pc}
314	.endm
315
316	.macro biweight_8 macs, macd
317	vdup.8 d0, r4
318	vdup.8 d1, r5
319	vmov q1, q8
320	vmov q10, q8
321	1: subs r3, r3, #2
322	vld1.8 {d4},[r0,:64], r2
323	\macd q1, d0, d4
324	pld [r0]
325	vld1.8 {d5},[r1,:64], r2
326	\macs q1, d1, d5
327	pld [r1]
328	vld1.8 {d6},[r0,:64], r2
329	\macd q10, d0, d6
330	pld [r0]
331	vld1.8 {d7},[r1,:64], r2
332	\macs q10, d1, d7
333	pld [r1]
334	vshl.s16 q1, q1, q9
335	vqmovun.s16 d2, q1
336	vshl.s16 q10, q10, q9
337	vqmovun.s16 d4, q10
338	vmov q10, q8
339	vst1.8 {d2},[r6,:64], r2
340	vmov q1, q8
341	vst1.8 {d4},[r6,:64], r2
342	bne 1b
343	pop {r4-r6, pc}
344	.endm
345
346	.macro biweight_4 macs, macd
347	vdup.8 d0, r4
348	vdup.8 d1, r5
349	vmov q1, q8
350	vmov q10, q8
351	1: subs r3, r3, #4
352	vld1.32 {d4[0]},[r0,:32], r2
353	vld1.32 {d4[1]},[r0,:32], r2
354	\macd q1, d0, d4
355	pld [r0]
356	vld1.32 {d5[0]},[r1,:32], r2
357	vld1.32 {d5[1]},[r1,:32], r2
358	\macs q1, d1, d5
359	pld [r1]
360	blt 2f
361	vld1.32 {d6[0]},[r0,:32], r2
362	vld1.32 {d6[1]},[r0,:32], r2
363	\macd q10, d0, d6
364	pld [r0]
365	vld1.32 {d7[0]},[r1,:32], r2
366	vld1.32 {d7[1]},[r1,:32], r2
367	\macs q10, d1, d7
368	pld [r1]
369	vshl.s16 q1, q1, q9
370	vqmovun.s16 d2, q1
371	vshl.s16 q10, q10, q9
372	vqmovun.s16 d4, q10
373	vmov q10, q8
374	vst1.32 {d2[0]},[r6,:32], r2
375	vst1.32 {d2[1]},[r6,:32], r2
376	vmov q1, q8
377	vst1.32 {d4[0]},[r6,:32], r2
378	vst1.32 {d4[1]},[r6,:32], r2
379	bne 1b
380	pop {r4-r6, pc}
381	2: vshl.s16 q1, q1, q9
382	vqmovun.s16 d2, q1
383	vst1.32 {d2[0]},[r6,:32], r2
384	vst1.32 {d2[1]},[r6,:32], r2
385	pop {r4-r6, pc}
386	.endm
387
388	.macro biweight_func w
389	function ff_biweight_h264_pixels_\w\()_neon, export=1
390	push {r4-r6, lr}
391	ldr r12, [sp, #16]
392	add r4, sp, #20
393	ldm r4, {r4-r6}
394	lsr lr, r4, #31
395	add r6, r6, #1
396	eors lr, lr, r5, lsr #30
397	orr r6, r6, #1
398	vdup.16 q9, r12
399	lsl r6, r6, r12
400	vmvn q9, q9
401	vdup.16 q8, r6
402	mov r6, r0
403	beq 10f
404	subs lr, lr, #1
405	beq 20f
406	subs lr, lr, #1
407	beq 30f
408	b 40f
409	10: biweight_\w vmlal.u8, vmlal.u8
410	20: rsb r4, r4, #0
411	biweight_\w vmlal.u8, vmlsl.u8
412	30: rsb r4, r4, #0
413	rsb r5, r5, #0
414	biweight_\w vmlsl.u8, vmlsl.u8
415	40: rsb r5, r5, #0
416	biweight_\w vmlsl.u8, vmlal.u8
417	endfunc
418	.endm
419
420	biweight_func 16
421	biweight_func 8
422	biweight_func 4
423
424	@ Weighted prediction
425
426	.macro weight_16 add
427	vdup.8 d0, r12
428	1: subs r2, r2, #2
429	vld1.8 {d20-d21},[r0,:128], r1
430	vmull.u8 q2, d0, d20
431	pld [r0]
432	vmull.u8 q3, d0, d21
433	vld1.8 {d28-d29},[r0,:128], r1
434	vmull.u8 q12, d0, d28
435	pld [r0]
436	vmull.u8 q13, d0, d29
437	\add q2, q8, q2
438	vrshl.s16 q2, q2, q9
439	\add q3, q8, q3
440	vrshl.s16 q3, q3, q9
441	vqmovun.s16 d4, q2
442	vqmovun.s16 d5, q3
443	\add q12, q8, q12
444	vrshl.s16 q12, q12, q9
445	\add q13, q8, q13
446	vrshl.s16 q13, q13, q9
447	vqmovun.s16 d24, q12
448	vqmovun.s16 d25, q13
449	vst1.8 {d4- d5}, [r4,:128], r1
450	vst1.8 {d24-d25},[r4,:128], r1
451	bne 1b
452	pop {r4, pc}
453	.endm
454
455	.macro weight_8 add
456	vdup.8 d0, r12
457	1: subs r2, r2, #2
458	vld1.8 {d4},[r0,:64], r1
459	vmull.u8 q1, d0, d4
460	pld [r0]
461	vld1.8 {d6},[r0,:64], r1
462	vmull.u8 q10, d0, d6
463	\add q1, q8, q1
464	pld [r0]
465	vrshl.s16 q1, q1, q9
466	vqmovun.s16 d2, q1
467	\add q10, q8, q10
468	vrshl.s16 q10, q10, q9
469	vqmovun.s16 d4, q10
470	vst1.8 {d2},[r4,:64], r1
471	vst1.8 {d4},[r4,:64], r1
472	bne 1b
473	pop {r4, pc}
474	.endm
475
476	.macro weight_4 add
477	vdup.8 d0, r12
478	vmov q1, q8
479	vmov q10, q8
480	1: subs r2, r2, #4
481	vld1.32 {d4[0]},[r0,:32], r1
482	vld1.32 {d4[1]},[r0,:32], r1
483	vmull.u8 q1, d0, d4
484	pld [r0]
485	blt 2f
486	vld1.32 {d6[0]},[r0,:32], r1
487	vld1.32 {d6[1]},[r0,:32], r1
488	vmull.u8 q10, d0, d6
489	pld [r0]
490	\add q1, q8, q1
491	vrshl.s16 q1, q1, q9
492	vqmovun.s16 d2, q1
493	\add q10, q8, q10
494	vrshl.s16 q10, q10, q9
495	vqmovun.s16 d4, q10
496	vmov q10, q8
497	vst1.32 {d2[0]},[r4,:32], r1
498	vst1.32 {d2[1]},[r4,:32], r1
499	vmov q1, q8
500	vst1.32 {d4[0]},[r4,:32], r1
501	vst1.32 {d4[1]},[r4,:32], r1
502	bne 1b
503	pop {r4, pc}
504	2: \add q1, q8, q1
505	vrshl.s16 q1, q1, q9
506	vqmovun.s16 d2, q1
507	vst1.32 {d2[0]},[r4,:32], r1
508	vst1.32 {d2[1]},[r4,:32], r1
509	pop {r4, pc}
510	.endm
511
512	.macro weight_func w
513	function ff_weight_h264_pixels_\w\()_neon, export=1
514	push {r4, lr}
515	ldr r12, [sp, #8]
516	ldr r4, [sp, #12]
517	cmp r3, #1
518	lsl r4, r4, r3
519	vdup.16 q8, r4
520	mov r4, r0
521	ble 20f
522	rsb lr, r3, #1
523	vdup.16 q9, lr
524	cmp r12, #0
525	blt 10f
526	weight_\w vhadd.s16
527	10: rsb r12, r12, #0
528	weight_\w vhsub.s16
529	20: rsb lr, r3, #0
530	vdup.16 q9, lr
531	cmp r12, #0
532	blt 10f
533	weight_\w vadd.s16
534	10: rsb r12, r12, #0
535	weight_\w vsub.s16
536	endfunc
537	.endm
538
539	weight_func 16
540	weight_func 8
541	weight_func 4