[deb_ffmpeg.git] / ffmpeg / libavcodec / arm / h264idct_neon.S

/*
 * Copyright (c) 2008 Mans Rullgard <mans@mansr.com>
 *
 * This file is part of FFmpeg.
 *
 * FFmpeg is free software; you can redistribute it and/or
 * modify it under the terms of the GNU Lesser General Public
 * License as published by the Free Software Foundation; either
 * version 2.1 of the License, or (at your option) any later version.
 *
 * FFmpeg is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 * Lesser General Public License for more details.
 *
 * You should have received a copy of the GNU Lesser General Public
 * License along with FFmpeg; if not, write to the Free Software
 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
 */

#include "libavutil/arm/asm.S"

function ff_h264_idct_add_neon, export=1
        vld1.64         {d0-d3},  [r1,:128]
        vmov.i16        q15, #0

        vswp            d1,  d2
        vst1.16         {q15},    [r1,:128]!
        vadd.i16        d4,  d0,  d1
        vst1.16         {q15},    [r1,:128]!
        vshr.s16        q8,  q1,  #1
        vsub.i16        d5,  d0,  d1
        vadd.i16        d6,  d2,  d17
        vsub.i16        d7,  d16, d3
        vadd.i16        q0,  q2,  q3
        vsub.i16        q1,  q2,  q3

        vtrn.16         d0,  d1
        vtrn.16         d3,  d2
        vtrn.32         d0,  d3
        vtrn.32         d1,  d2

        vadd.i16        d4,  d0,  d3
        vld1.32         {d18[0]}, [r0,:32], r2
        vswp            d1,  d3
        vshr.s16        q8,  q1,  #1
        vld1.32         {d19[1]}, [r0,:32], r2
        vsub.i16        d5,  d0,  d1
        vld1.32         {d18[1]}, [r0,:32], r2
        vadd.i16        d6,  d16, d3
        vld1.32         {d19[0]}, [r0,:32], r2
        vsub.i16        d7,  d2,  d17
        sub             r0,  r0,  r2, lsl #2
        vadd.i16        q0,  q2,  q3
        vsub.i16        q1,  q2,  q3

        vrshr.s16       q0,  q0,  #6
        vrshr.s16       q1,  q1,  #6

        vaddw.u8        q0,  q0,  d18
        vaddw.u8        q1,  q1,  d19

        vqmovun.s16     d0,  q0
        vqmovun.s16     d1,  q1

        vst1.32         {d0[0]},  [r0,:32], r2
        vst1.32         {d1[1]},  [r0,:32], r2
        vst1.32         {d0[1]},  [r0,:32], r2
        vst1.32         {d1[0]},  [r0,:32], r2

        sub             r1,  r1,  #32
        bx              lr
endfunc

function ff_h264_idct_dc_add_neon, export=1
        mov             r3,       #0
        vld1.16         {d2[],d3[]}, [r1,:16]
        strh            r3,       [r1]
        vrshr.s16       q1,  q1,  #6
        vld1.32         {d0[0]},  [r0,:32], r2
        vld1.32         {d0[1]},  [r0,:32], r2
        vaddw.u8        q2,  q1,  d0
        vld1.32         {d1[0]},  [r0,:32], r2
        vld1.32         {d1[1]},  [r0,:32], r2
        vaddw.u8        q1,  q1,  d1
        vqmovun.s16     d0,  q2
        vqmovun.s16     d1,  q1
        sub             r0,  r0,  r2, lsl #2
        vst1.32         {d0[0]},  [r0,:32], r2
        vst1.32         {d0[1]},  [r0,:32], r2
        vst1.32         {d1[0]},  [r0,:32], r2
        vst1.32         {d1[1]},  [r0,:32], r2
        bx              lr
endfunc

function ff_h264_idct_add16_neon, export=1
        push            {r4-r8,lr}
        mov             r4,  r0
        mov             r5,  r1
        mov             r1,  r2
        mov             r2,  r3
        ldr             r6,  [sp, #24]
        movrel          r7,  scan8
        mov             ip,  #16
1:      ldrb            r8,  [r7], #1
        ldr             r0,  [r5], #4
        ldrb            r8,  [r6, r8]
        subs            r8,  r8,  #1
        blt             2f
        ldrsh           lr,  [r1]
        add             r0,  r0,  r4
        it              ne
        movne           lr,  #0
        cmp             lr,  #0
        ite             ne
        adrne           lr,  X(ff_h264_idct_dc_add_neon) + CONFIG_THUMB
        adreq           lr,  X(ff_h264_idct_add_neon)    + CONFIG_THUMB
        blx             lr
2:      subs            ip,  ip,  #1
        add             r1,  r1,  #32
        bne             1b
        pop             {r4-r8,pc}
endfunc

function ff_h264_idct_add16intra_neon, export=1
        push            {r4-r8,lr}
        mov             r4,  r0
        mov             r5,  r1
        mov             r1,  r2
        mov             r2,  r3
        ldr             r6,  [sp, #24]
        movrel          r7,  scan8
        mov             ip,  #16
1:      ldrb            r8,  [r7], #1
        ldr             r0,  [r5], #4
        ldrb            r8,  [r6, r8]
        add             r0,  r0,  r4
        cmp             r8,  #0
        ldrsh           r8,  [r1]
        iteet           ne
        adrne           lr,  X(ff_h264_idct_add_neon)    + CONFIG_THUMB
        adreq           lr,  X(ff_h264_idct_dc_add_neon) + CONFIG_THUMB
        cmpeq           r8,  #0
        blxne           lr
        subs            ip,  ip,  #1
        add             r1,  r1,  #32
        bne             1b
        pop             {r4-r8,pc}
endfunc

function ff_h264_idct_add8_neon, export=1
        push            {r4-r10,lr}
        ldm             r0,  {r4,r9}
        add             r5,  r1,  #16*4
        add             r1,  r2,  #16*32
        mov             r2,  r3
        mov             r10, r1
        ldr             r6,  [sp, #32]
        movrel          r7,  scan8+16
        mov             r12, #0
1:      ldrb            r8,  [r7, r12]
        ldr             r0,  [r5, r12, lsl #2]
        ldrb            r8,  [r6, r8]
        add             r0,  r0,  r4
        add             r1,  r10, r12, lsl #5
        cmp             r8,  #0
        ldrsh           r8,  [r1]
        iteet           ne
        adrne           lr,  X(ff_h264_idct_add_neon)    + CONFIG_THUMB
        adreq           lr,  X(ff_h264_idct_dc_add_neon) + CONFIG_THUMB
        cmpeq           r8,  #0
        blxne           lr
        add             r12, r12, #1
        cmp             r12, #4
        itt             eq
        moveq           r12, #16
        moveq           r4,  r9
        cmp             r12, #20
        blt             1b
        pop             {r4-r10,pc}
endfunc

.macro  idct8x8_cols    pass
  .if \pass == 0
        qa      .req    q2
        qb      .req    q14
        vshr.s16        q2,  q10, #1
        vadd.i16        q0,  q8,  q12
        vld1.16         {q14-q15},[r1,:128]
        vst1.16         {q3},     [r1,:128]!
        vst1.16         {q3},     [r1,:128]!
        vsub.i16        q1,  q8,  q12
        vshr.s16        q3,  q14, #1
        vsub.i16        q2,  q2,  q14
        vadd.i16        q3,  q3,  q10
  .else
        qa      .req    q14
        qb      .req    q2
        vtrn.32         q8,  q10
        vtrn.16         q12, q13
        vtrn.32         q9,  q11
        vtrn.32         q12, q2
        vtrn.32         q13, q15
        vswp            d21, d4
        vshr.s16        q14, q10, #1
        vswp            d17, d24
        vshr.s16        q3,  q2,  #1
        vswp            d19, d26
        vadd.i16        q0,  q8,  q12
        vswp            d23, d30
        vsub.i16        q1,  q8,  q12
        vsub.i16        q14, q14, q2
        vadd.i16        q3,  q3,  q10
  .endif
        vadd.i16        q10, q1,  qa
        vsub.i16        q12, q1,  qa
        vadd.i16        q8,  q0,  q3
        vsub.i16        qb,  q0,  q3
        vsub.i16        q0,  q13, q11
        vadd.i16        q1,  q15, q9
        vsub.i16        qa,  q15, q9
        vadd.i16        q3,  q13, q11
        vsub.i16        q0,  q0,  q15
        vsub.i16        q1,  q1,  q11
        vadd.i16        qa,  qa,  q13
        vadd.i16        q3,  q3,  q9
        vshr.s16        q9,  q9,  #1
        vshr.s16        q11, q11, #1
        vshr.s16        q13, q13, #1
        vshr.s16        q15, q15, #1
        vsub.i16        q0,  q0,  q15
        vsub.i16        q1,  q1,  q11
        vadd.i16        qa,  qa,  q13
        vadd.i16        q3,  q3,  q9
        vshr.s16        q9,  q0,  #2
        vshr.s16        q11, q1,  #2
        vshr.s16        q13, qa,  #2
        vshr.s16        q15, q3,  #2
        vsub.i16        q3,  q3,  q9
        vsub.i16        qa,  q11, qa
        vadd.i16        q1,  q1,  q13
        vadd.i16        q0,  q0,  q15
  .if \pass == 0
        vsub.i16        q15, q8,  q3
        vadd.i16        q8,  q8,  q3
        vadd.i16        q9,  q10, q2
        vsub.i16        q2,  q10, q2
        vtrn.16         q8,  q9
        vadd.i16        q10, q12, q1
        vtrn.16         q2,  q15
        vadd.i16        q11, q14, q0
        vsub.i16        q13, q12, q1
        vtrn.16         q10, q11
        vsub.i16        q12, q14, q0
  .else
        vsub.i16        q15, q8,  q3
        vadd.i16        q8,  q8,  q3
        vadd.i16        q9,  q10, q14
        vsub.i16        q14, q10, q14
        vadd.i16        q10, q12, q1
        vsub.i16        q13, q12, q1
        vadd.i16        q11, q2, q0
        vsub.i16        q12, q2, q0
  .endif
        .unreq          qa
        .unreq          qb
.endm

function ff_h264_idct8_add_neon, export=1
        vmov.i16        q3,       #0
        vld1.16         {q8-q9},  [r1,:128]
        vst1.16         {q3},     [r1,:128]!
        vst1.16         {q3},     [r1,:128]!
        vld1.16         {q10-q11},[r1,:128]
        vst1.16         {q3},     [r1,:128]!
        vst1.16         {q3},     [r1,:128]!
        vld1.16         {q12-q13},[r1,:128]
        vst1.16         {q3},     [r1,:128]!
        vst1.16         {q3},     [r1,:128]!

        idct8x8_cols    0
        idct8x8_cols    1

        mov             r3,  r0
        vrshr.s16       q8,  q8,  #6
        vld1.8          {d0},     [r0,:64], r2
        vrshr.s16       q9,  q9,  #6
        vld1.8          {d1},     [r0,:64], r2
        vrshr.s16       q10, q10, #6
        vld1.8          {d2},     [r0,:64], r2
        vrshr.s16       q11, q11, #6
        vld1.8          {d3},     [r0,:64], r2
        vrshr.s16       q12, q12, #6
        vld1.8          {d4},     [r0,:64], r2
        vrshr.s16       q13, q13, #6
        vld1.8          {d5},     [r0,:64], r2
        vrshr.s16       q14, q14, #6
        vld1.8          {d6},     [r0,:64], r2
        vrshr.s16       q15, q15, #6
        vld1.8          {d7},     [r0,:64], r2
        vaddw.u8        q8,  q8,  d0
        vaddw.u8        q9,  q9,  d1
        vaddw.u8        q10, q10, d2
        vqmovun.s16     d0,  q8
        vaddw.u8        q11, q11, d3
        vqmovun.s16     d1,  q9
        vaddw.u8        q12, q12, d4
        vqmovun.s16     d2,  q10
        vst1.8          {d0},     [r3,:64], r2
        vaddw.u8        q13, q13, d5
        vqmovun.s16     d3,  q11
        vst1.8          {d1},     [r3,:64], r2
        vaddw.u8        q14, q14, d6
        vqmovun.s16     d4,  q12
        vst1.8          {d2},     [r3,:64], r2
        vaddw.u8        q15, q15, d7
        vqmovun.s16     d5,  q13
        vst1.8          {d3},     [r3,:64], r2
        vqmovun.s16     d6,  q14
        vqmovun.s16     d7,  q15
        vst1.8          {d4},     [r3,:64], r2
        vst1.8          {d5},     [r3,:64], r2
        vst1.8          {d6},     [r3,:64], r2
        vst1.8          {d7},     [r3,:64], r2

        sub             r1,  r1,  #128
        bx              lr
endfunc

function ff_h264_idct8_dc_add_neon, export=1
        mov             r3,       #0
        vld1.16         {d30[],d31[]},[r1,:16]
        strh            r3,       [r1]
        vld1.32         {d0},     [r0,:64], r2
        vrshr.s16       q15, q15, #6
        vld1.32         {d1},     [r0,:64], r2
        vld1.32         {d2},     [r0,:64], r2
        vaddw.u8        q8,  q15, d0
        vld1.32         {d3},     [r0,:64], r2
        vaddw.u8        q9,  q15, d1
        vld1.32         {d4},     [r0,:64], r2
        vaddw.u8        q10, q15, d2
        vld1.32         {d5},     [r0,:64], r2
        vaddw.u8        q11, q15, d3
        vld1.32         {d6},     [r0,:64], r2
        vaddw.u8        q12, q15, d4
        vld1.32         {d7},     [r0,:64], r2
        vaddw.u8        q13, q15, d5
        vaddw.u8        q14, q15, d6
        vaddw.u8        q15, q15, d7
        vqmovun.s16     d0,  q8
        vqmovun.s16     d1,  q9
        vqmovun.s16     d2,  q10
        vqmovun.s16     d3,  q11
        sub             r0,  r0,  r2, lsl #3
        vst1.32         {d0},     [r0,:64], r2
        vqmovun.s16     d4,  q12
        vst1.32         {d1},     [r0,:64], r2
        vqmovun.s16     d5,  q13
        vst1.32         {d2},     [r0,:64], r2
        vqmovun.s16     d6,  q14
        vst1.32         {d3},     [r0,:64], r2
        vqmovun.s16     d7,  q15
        vst1.32         {d4},     [r0,:64], r2
        vst1.32         {d5},     [r0,:64], r2
        vst1.32         {d6},     [r0,:64], r2
        vst1.32         {d7},     [r0,:64], r2
        bx              lr
endfunc

function ff_h264_idct8_add4_neon, export=1
        push            {r4-r8,lr}
        mov             r4,  r0
        mov             r5,  r1
        mov             r1,  r2
        mov             r2,  r3
        ldr             r6,  [sp, #24]
        movrel          r7,  scan8
        mov             r12, #16
1:      ldrb            r8,  [r7], #4
        ldr             r0,  [r5], #16
        ldrb            r8,  [r6, r8]
        subs            r8,  r8,  #1
        blt             2f
        ldrsh           lr,  [r1]
        add             r0,  r0,  r4
        it              ne
        movne           lr,  #0
        cmp             lr,  #0
        ite             ne
        adrne           lr,  X(ff_h264_idct8_dc_add_neon) + CONFIG_THUMB
        adreq           lr,  X(ff_h264_idct8_add_neon)    + CONFIG_THUMB
        blx             lr
2:      subs            r12, r12, #4
        add             r1,  r1,  #128
        bne             1b
        pop             {r4-r8,pc}
endfunc

const   scan8
        .byte           4+ 1*8, 5+ 1*8, 4+ 2*8, 5+ 2*8
        .byte           6+ 1*8, 7+ 1*8, 6+ 2*8, 7+ 2*8
        .byte           4+ 3*8, 5+ 3*8, 4+ 4*8, 5+ 4*8
        .byte           6+ 3*8, 7+ 3*8, 6+ 4*8, 7+ 4*8
        .byte           4+ 6*8, 5+ 6*8, 4+ 7*8, 5+ 7*8
        .byte           6+ 6*8, 7+ 6*8, 6+ 7*8, 7+ 7*8
        .byte           4+ 8*8, 5+ 8*8, 4+ 9*8, 5+ 9*8
        .byte           6+ 8*8, 7+ 8*8, 6+ 9*8, 7+ 9*8
        .byte           4+11*8, 5+11*8, 4+12*8, 5+12*8
        .byte           6+11*8, 7+11*8, 6+12*8, 7+12*8
        .byte           4+13*8, 5+13*8, 4+14*8, 5+14*8
        .byte           6+13*8, 7+13*8, 6+14*8, 7+14*8
endconst
Commit	Line	Data
	1	/*
	2	* Copyright (c) 2008 Mans Rullgard <mans@mansr.com>
	3	*
	4	* This file is part of FFmpeg.
	5	*
	6	* FFmpeg is free software; you can redistribute it and/or
	7	* modify it under the terms of the GNU Lesser General Public
	8	* License as published by the Free Software Foundation; either
	9	* version 2.1 of the License, or (at your option) any later version.
	10	*
	11	* FFmpeg is distributed in the hope that it will be useful,
	12	* but WITHOUT ANY WARRANTY; without even the implied warranty of
	13	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	14	* Lesser General Public License for more details.
	15	*
	16	* You should have received a copy of the GNU Lesser General Public
	17	* License along with FFmpeg; if not, write to the Free Software
	18	* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	19	*/
	20
	21	#include "libavutil/arm/asm.S"
	22
	23	function ff_h264_idct_add_neon, export=1
	24	vld1.64 {d0-d3}, [r1,:128]
	25	vmov.i16 q15, #0
	26
	27	vswp d1, d2
	28	vst1.16 {q15}, [r1,:128]!
	29	vadd.i16 d4, d0, d1
	30	vst1.16 {q15}, [r1,:128]!
	31	vshr.s16 q8, q1, #1
	32	vsub.i16 d5, d0, d1
	33	vadd.i16 d6, d2, d17
	34	vsub.i16 d7, d16, d3
	35	vadd.i16 q0, q2, q3
	36	vsub.i16 q1, q2, q3
	37
	38	vtrn.16 d0, d1
	39	vtrn.16 d3, d2
	40	vtrn.32 d0, d3
	41	vtrn.32 d1, d2
	42
	43	vadd.i16 d4, d0, d3
	44	vld1.32 {d18[0]}, [r0,:32], r2
	45	vswp d1, d3
	46	vshr.s16 q8, q1, #1
	47	vld1.32 {d19[1]}, [r0,:32], r2
	48	vsub.i16 d5, d0, d1
	49	vld1.32 {d18[1]}, [r0,:32], r2
	50	vadd.i16 d6, d16, d3
	51	vld1.32 {d19[0]}, [r0,:32], r2
	52	vsub.i16 d7, d2, d17
	53	sub r0, r0, r2, lsl #2
	54	vadd.i16 q0, q2, q3
	55	vsub.i16 q1, q2, q3
	56
	57	vrshr.s16 q0, q0, #6
	58	vrshr.s16 q1, q1, #6
	59
	60	vaddw.u8 q0, q0, d18
	61	vaddw.u8 q1, q1, d19
	62
	63	vqmovun.s16 d0, q0
	64	vqmovun.s16 d1, q1
	65
	66	vst1.32 {d0[0]}, [r0,:32], r2
	67	vst1.32 {d1[1]}, [r0,:32], r2
	68	vst1.32 {d0[1]}, [r0,:32], r2
	69	vst1.32 {d1[0]}, [r0,:32], r2
	70
	71	sub r1, r1, #32
	72	bx lr
	73	endfunc
	74
	75	function ff_h264_idct_dc_add_neon, export=1
	76	mov r3, #0
	77	vld1.16 {d2[],d3[]}, [r1,:16]
	78	strh r3, [r1]
	79	vrshr.s16 q1, q1, #6
	80	vld1.32 {d0[0]}, [r0,:32], r2
	81	vld1.32 {d0[1]}, [r0,:32], r2
	82	vaddw.u8 q2, q1, d0
	83	vld1.32 {d1[0]}, [r0,:32], r2
	84	vld1.32 {d1[1]}, [r0,:32], r2
	85	vaddw.u8 q1, q1, d1
	86	vqmovun.s16 d0, q2
	87	vqmovun.s16 d1, q1
	88	sub r0, r0, r2, lsl #2
	89	vst1.32 {d0[0]}, [r0,:32], r2
	90	vst1.32 {d0[1]}, [r0,:32], r2
	91	vst1.32 {d1[0]}, [r0,:32], r2
	92	vst1.32 {d1[1]}, [r0,:32], r2
	93	bx lr
	94	endfunc
	95
	96	function ff_h264_idct_add16_neon, export=1
	97	push {r4-r8,lr}
	98	mov r4, r0
	99	mov r5, r1
	100	mov r1, r2
	101	mov r2, r3
	102	ldr r6, [sp, #24]
	103	movrel r7, scan8
	104	mov ip, #16
	105	1: ldrb r8, [r7], #1
	106	ldr r0, [r5], #4
	107	ldrb r8, [r6, r8]
	108	subs r8, r8, #1
	109	blt 2f
	110	ldrsh lr, [r1]
	111	add r0, r0, r4
	112	it ne
	113	movne lr, #0
	114	cmp lr, #0
	115	ite ne
	116	adrne lr, X(ff_h264_idct_dc_add_neon) + CONFIG_THUMB
	117	adreq lr, X(ff_h264_idct_add_neon) + CONFIG_THUMB
	118	blx lr
	119	2: subs ip, ip, #1
	120	add r1, r1, #32
	121	bne 1b
	122	pop {r4-r8,pc}
	123	endfunc
	124
	125	function ff_h264_idct_add16intra_neon, export=1
	126	push {r4-r8,lr}
	127	mov r4, r0
	128	mov r5, r1
	129	mov r1, r2
	130	mov r2, r3
	131	ldr r6, [sp, #24]
	132	movrel r7, scan8
	133	mov ip, #16
	134	1: ldrb r8, [r7], #1
	135	ldr r0, [r5], #4
	136	ldrb r8, [r6, r8]
	137	add r0, r0, r4
	138	cmp r8, #0
	139	ldrsh r8, [r1]
	140	iteet ne
	141	adrne lr, X(ff_h264_idct_add_neon) + CONFIG_THUMB
	142	adreq lr, X(ff_h264_idct_dc_add_neon) + CONFIG_THUMB
	143	cmpeq r8, #0
	144	blxne lr
	145	subs ip, ip, #1
	146	add r1, r1, #32
	147	bne 1b
	148	pop {r4-r8,pc}
	149	endfunc
	150
	151	function ff_h264_idct_add8_neon, export=1
	152	push {r4-r10,lr}
	153	ldm r0, {r4,r9}
	154	add r5, r1, #16*4
	155	add r1, r2, #16*32
	156	mov r2, r3
	157	mov r10, r1
	158	ldr r6, [sp, #32]
	159	movrel r7, scan8+16
	160	mov r12, #0
	161	1: ldrb r8, [r7, r12]
	162	ldr r0, [r5, r12, lsl #2]
	163	ldrb r8, [r6, r8]
	164	add r0, r0, r4
	165	add r1, r10, r12, lsl #5
	166	cmp r8, #0
	167	ldrsh r8, [r1]
	168	iteet ne
	169	adrne lr, X(ff_h264_idct_add_neon) + CONFIG_THUMB
	170	adreq lr, X(ff_h264_idct_dc_add_neon) + CONFIG_THUMB
	171	cmpeq r8, #0
	172	blxne lr
	173	add r12, r12, #1
	174	cmp r12, #4
	175	itt eq
	176	moveq r12, #16
	177	moveq r4, r9
	178	cmp r12, #20
	179	blt 1b
	180	pop {r4-r10,pc}
	181	endfunc
	182
	183	.macro idct8x8_cols pass
	184	.if \pass == 0
	185	qa .req q2
	186	qb .req q14
	187	vshr.s16 q2, q10, #1
	188	vadd.i16 q0, q8, q12
	189	vld1.16 {q14-q15},[r1,:128]
	190	vst1.16 {q3}, [r1,:128]!
	191	vst1.16 {q3}, [r1,:128]!
	192	vsub.i16 q1, q8, q12
	193	vshr.s16 q3, q14, #1
	194	vsub.i16 q2, q2, q14
	195	vadd.i16 q3, q3, q10
	196	.else
	197	qa .req q14
	198	qb .req q2
	199	vtrn.32 q8, q10
	200	vtrn.16 q12, q13
	201	vtrn.32 q9, q11
	202	vtrn.32 q12, q2
	203	vtrn.32 q13, q15
	204	vswp d21, d4
	205	vshr.s16 q14, q10, #1
	206	vswp d17, d24
	207	vshr.s16 q3, q2, #1
	208	vswp d19, d26
	209	vadd.i16 q0, q8, q12
	210	vswp d23, d30
	211	vsub.i16 q1, q8, q12
	212	vsub.i16 q14, q14, q2
	213	vadd.i16 q3, q3, q10
	214	.endif
	215	vadd.i16 q10, q1, qa
	216	vsub.i16 q12, q1, qa
	217	vadd.i16 q8, q0, q3
	218	vsub.i16 qb, q0, q3
	219	vsub.i16 q0, q13, q11
	220	vadd.i16 q1, q15, q9
	221	vsub.i16 qa, q15, q9
	222	vadd.i16 q3, q13, q11
	223	vsub.i16 q0, q0, q15
	224	vsub.i16 q1, q1, q11
	225	vadd.i16 qa, qa, q13
	226	vadd.i16 q3, q3, q9
	227	vshr.s16 q9, q9, #1
	228	vshr.s16 q11, q11, #1
	229	vshr.s16 q13, q13, #1
	230	vshr.s16 q15, q15, #1
	231	vsub.i16 q0, q0, q15
	232	vsub.i16 q1, q1, q11
	233	vadd.i16 qa, qa, q13
	234	vadd.i16 q3, q3, q9
	235	vshr.s16 q9, q0, #2
	236	vshr.s16 q11, q1, #2
	237	vshr.s16 q13, qa, #2
	238	vshr.s16 q15, q3, #2
	239	vsub.i16 q3, q3, q9
	240	vsub.i16 qa, q11, qa
	241	vadd.i16 q1, q1, q13
	242	vadd.i16 q0, q0, q15
	243	.if \pass == 0
	244	vsub.i16 q15, q8, q3
	245	vadd.i16 q8, q8, q3
	246	vadd.i16 q9, q10, q2
	247	vsub.i16 q2, q10, q2
	248	vtrn.16 q8, q9
	249	vadd.i16 q10, q12, q1
	250	vtrn.16 q2, q15
	251	vadd.i16 q11, q14, q0
	252	vsub.i16 q13, q12, q1
	253	vtrn.16 q10, q11
	254	vsub.i16 q12, q14, q0
	255	.else
	256	vsub.i16 q15, q8, q3
	257	vadd.i16 q8, q8, q3
	258	vadd.i16 q9, q10, q14
	259	vsub.i16 q14, q10, q14
	260	vadd.i16 q10, q12, q1
	261	vsub.i16 q13, q12, q1
	262	vadd.i16 q11, q2, q0
	263	vsub.i16 q12, q2, q0
	264	.endif
	265	.unreq qa
	266	.unreq qb
	267	.endm
	268
	269	function ff_h264_idct8_add_neon, export=1
	270	vmov.i16 q3, #0
	271	vld1.16 {q8-q9}, [r1,:128]
	272	vst1.16 {q3}, [r1,:128]!
	273	vst1.16 {q3}, [r1,:128]!
	274	vld1.16 {q10-q11},[r1,:128]
	275	vst1.16 {q3}, [r1,:128]!
	276	vst1.16 {q3}, [r1,:128]!
	277	vld1.16 {q12-q13},[r1,:128]
	278	vst1.16 {q3}, [r1,:128]!
	279	vst1.16 {q3}, [r1,:128]!
	280
	281	idct8x8_cols 0
	282	idct8x8_cols 1
	283
	284	mov r3, r0
	285	vrshr.s16 q8, q8, #6
	286	vld1.8 {d0}, [r0,:64], r2
	287	vrshr.s16 q9, q9, #6
	288	vld1.8 {d1}, [r0,:64], r2
	289	vrshr.s16 q10, q10, #6
	290	vld1.8 {d2}, [r0,:64], r2
	291	vrshr.s16 q11, q11, #6
	292	vld1.8 {d3}, [r0,:64], r2
	293	vrshr.s16 q12, q12, #6
	294	vld1.8 {d4}, [r0,:64], r2
	295	vrshr.s16 q13, q13, #6
	296	vld1.8 {d5}, [r0,:64], r2
	297	vrshr.s16 q14, q14, #6
	298	vld1.8 {d6}, [r0,:64], r2
	299	vrshr.s16 q15, q15, #6
	300	vld1.8 {d7}, [r0,:64], r2
	301	vaddw.u8 q8, q8, d0
	302	vaddw.u8 q9, q9, d1
	303	vaddw.u8 q10, q10, d2
	304	vqmovun.s16 d0, q8
	305	vaddw.u8 q11, q11, d3
	306	vqmovun.s16 d1, q9
	307	vaddw.u8 q12, q12, d4
	308	vqmovun.s16 d2, q10
	309	vst1.8 {d0}, [r3,:64], r2
	310	vaddw.u8 q13, q13, d5
	311	vqmovun.s16 d3, q11
	312	vst1.8 {d1}, [r3,:64], r2
	313	vaddw.u8 q14, q14, d6
	314	vqmovun.s16 d4, q12
	315	vst1.8 {d2}, [r3,:64], r2
	316	vaddw.u8 q15, q15, d7
	317	vqmovun.s16 d5, q13
	318	vst1.8 {d3}, [r3,:64], r2
	319	vqmovun.s16 d6, q14
	320	vqmovun.s16 d7, q15
	321	vst1.8 {d4}, [r3,:64], r2
	322	vst1.8 {d5}, [r3,:64], r2
	323	vst1.8 {d6}, [r3,:64], r2
	324	vst1.8 {d7}, [r3,:64], r2
	325
	326	sub r1, r1, #128
	327	bx lr
	328	endfunc
	329
	330	function ff_h264_idct8_dc_add_neon, export=1
	331	mov r3, #0
	332	vld1.16 {d30[],d31[]},[r1,:16]
	333	strh r3, [r1]
	334	vld1.32 {d0}, [r0,:64], r2
	335	vrshr.s16 q15, q15, #6
	336	vld1.32 {d1}, [r0,:64], r2
	337	vld1.32 {d2}, [r0,:64], r2
	338	vaddw.u8 q8, q15, d0
	339	vld1.32 {d3}, [r0,:64], r2
	340	vaddw.u8 q9, q15, d1
	341	vld1.32 {d4}, [r0,:64], r2
	342	vaddw.u8 q10, q15, d2
	343	vld1.32 {d5}, [r0,:64], r2
	344	vaddw.u8 q11, q15, d3
	345	vld1.32 {d6}, [r0,:64], r2
	346	vaddw.u8 q12, q15, d4
	347	vld1.32 {d7}, [r0,:64], r2
	348	vaddw.u8 q13, q15, d5
	349	vaddw.u8 q14, q15, d6
	350	vaddw.u8 q15, q15, d7
	351	vqmovun.s16 d0, q8
	352	vqmovun.s16 d1, q9
	353	vqmovun.s16 d2, q10
	354	vqmovun.s16 d3, q11
	355	sub r0, r0, r2, lsl #3
	356	vst1.32 {d0}, [r0,:64], r2
	357	vqmovun.s16 d4, q12
	358	vst1.32 {d1}, [r0,:64], r2
	359	vqmovun.s16 d5, q13
	360	vst1.32 {d2}, [r0,:64], r2
	361	vqmovun.s16 d6, q14
	362	vst1.32 {d3}, [r0,:64], r2
	363	vqmovun.s16 d7, q15
	364	vst1.32 {d4}, [r0,:64], r2
	365	vst1.32 {d5}, [r0,:64], r2
	366	vst1.32 {d6}, [r0,:64], r2
	367	vst1.32 {d7}, [r0,:64], r2
	368	bx lr
	369	endfunc
	370
	371	function ff_h264_idct8_add4_neon, export=1
	372	push {r4-r8,lr}
	373	mov r4, r0
	374	mov r5, r1
	375	mov r1, r2
	376	mov r2, r3
	377	ldr r6, [sp, #24]
	378	movrel r7, scan8
	379	mov r12, #16
	380	1: ldrb r8, [r7], #4
	381	ldr r0, [r5], #16
	382	ldrb r8, [r6, r8]
	383	subs r8, r8, #1
	384	blt 2f
	385	ldrsh lr, [r1]
	386	add r0, r0, r4
	387	it ne
	388	movne lr, #0
	389	cmp lr, #0
	390	ite ne
	391	adrne lr, X(ff_h264_idct8_dc_add_neon) + CONFIG_THUMB
	392	adreq lr, X(ff_h264_idct8_add_neon) + CONFIG_THUMB
	393	blx lr
	394	2: subs r12, r12, #4
	395	add r1, r1, #128
	396	bne 1b
	397	pop {r4-r8,pc}
	398	endfunc
	399
	400	const scan8
	401	.byte 4+ 18, 5+ 18, 4+ 28, 5+ 28
	402	.byte 6+ 18, 7+ 18, 6+ 28, 7+ 28
	403	.byte 4+ 38, 5+ 38, 4+ 48, 5+ 48
	404	.byte 6+ 38, 7+ 38, 6+ 48, 7+ 48
	405	.byte 4+ 68, 5+ 68, 4+ 78, 5+ 78
	406	.byte 6+ 68, 7+ 68, 6+ 78, 7+ 78
	407	.byte 4+ 88, 5+ 88, 4+ 98, 5+ 98
	408	.byte 6+ 88, 7+ 88, 6+ 98, 7+ 98
	409	.byte 4+118, 5+118, 4+128, 5+128
	410	.byte 6+118, 7+118, 6+128, 7+128
	411	.byte 4+138, 5+138, 4+148, 5+148
	412	.byte 6+138, 7+138, 6+148, 7+148
	413	endconst