[deb_ffmpeg.git] / ffmpeg / libavcodec / ppc / h264qpel_template.c

/*
 * Copyright (c) 2004 Romain Dolbeau <romain@dolbeau.org>
 *
 * This file is part of FFmpeg.
 *
 * FFmpeg is free software; you can redistribute it and/or
 * modify it under the terms of the GNU Lesser General Public
 * License as published by the Free Software Foundation; either
 * version 2.1 of the License, or (at your option) any later version.
 *
 * FFmpeg is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 * Lesser General Public License for more details.
 *
 * You should have received a copy of the GNU Lesser General Public
 * License along with FFmpeg; if not, write to the Free Software
 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
 */

#include "libavutil/mem.h"

#ifdef DEBUG
#define ASSERT_ALIGNED(ptr) assert(((unsigned long)ptr&0x0000000F));
#else
#define ASSERT_ALIGNED(ptr) ;
#endif

/* this code assume stride % 16 == 0 */
#ifdef PREFIX_h264_qpel16_h_lowpass_altivec
static void PREFIX_h264_qpel16_h_lowpass_altivec(uint8_t *dst,
                                                 const uint8_t *src,
                                                 int dstStride, int srcStride)
{
    register int i;

    LOAD_ZERO;
    const vec_u8 permM2 = vec_lvsl(-2, src);
    const vec_u8 permM1 = vec_lvsl(-1, src);
    const vec_u8 permP0 = vec_lvsl(+0, src);
    const vec_u8 permP1 = vec_lvsl(+1, src);
    const vec_u8 permP2 = vec_lvsl(+2, src);
    const vec_u8 permP3 = vec_lvsl(+3, src);
    const vec_s16 v5ss = vec_splat_s16(5);
    const vec_u16 v5us = vec_splat_u16(5);
    const vec_s16 v20ss = vec_sl(vec_splat_s16(5),vec_splat_u16(2));
    const vec_s16 v16ss = vec_sl(vec_splat_s16(1),vec_splat_u16(4));

    vec_u8 srcM2, srcM1, srcP0, srcP1, srcP2, srcP3;

    register int align = ((((unsigned long)src) - 2) % 16);

    vec_s16 srcP0A, srcP0B, srcP1A, srcP1B,
              srcP2A, srcP2B, srcP3A, srcP3B,
              srcM1A, srcM1B, srcM2A, srcM2B,
              sum1A, sum1B, sum2A, sum2B, sum3A, sum3B,
              pp1A, pp1B, pp2A, pp2B, pp3A, pp3B,
              psumA, psumB, sumA, sumB;

    vec_u8 sum, fsum;

    for (i = 0 ; i < 16 ; i ++) {
        vec_u8 srcR1 = vec_ld(-2, src);
        vec_u8 srcR2 = vec_ld(14, src);

        switch (align) {
        default: {
            srcM2 = vec_perm(srcR1, srcR2, permM2);
            srcM1 = vec_perm(srcR1, srcR2, permM1);
            srcP0 = vec_perm(srcR1, srcR2, permP0);
            srcP1 = vec_perm(srcR1, srcR2, permP1);
            srcP2 = vec_perm(srcR1, srcR2, permP2);
            srcP3 = vec_perm(srcR1, srcR2, permP3);
        } break;
        case 11: {
            srcM2 = vec_perm(srcR1, srcR2, permM2);
            srcM1 = vec_perm(srcR1, srcR2, permM1);
            srcP0 = vec_perm(srcR1, srcR2, permP0);
            srcP1 = vec_perm(srcR1, srcR2, permP1);
            srcP2 = vec_perm(srcR1, srcR2, permP2);
            srcP3 = srcR2;
        } break;
        case 12: {
            vec_u8 srcR3 = vec_ld(30, src);
            srcM2 = vec_perm(srcR1, srcR2, permM2);
            srcM1 = vec_perm(srcR1, srcR2, permM1);
            srcP0 = vec_perm(srcR1, srcR2, permP0);
            srcP1 = vec_perm(srcR1, srcR2, permP1);
            srcP2 = srcR2;
            srcP3 = vec_perm(srcR2, srcR3, permP3);
        } break;
        case 13: {
            vec_u8 srcR3 = vec_ld(30, src);
            srcM2 = vec_perm(srcR1, srcR2, permM2);
            srcM1 = vec_perm(srcR1, srcR2, permM1);
            srcP0 = vec_perm(srcR1, srcR2, permP0);
            srcP1 = srcR2;
            srcP2 = vec_perm(srcR2, srcR3, permP2);
            srcP3 = vec_perm(srcR2, srcR3, permP3);
        } break;
        case 14: {
            vec_u8 srcR3 = vec_ld(30, src);
            srcM2 = vec_perm(srcR1, srcR2, permM2);
            srcM1 = vec_perm(srcR1, srcR2, permM1);
            srcP0 = srcR2;
            srcP1 = vec_perm(srcR2, srcR3, permP1);
            srcP2 = vec_perm(srcR2, srcR3, permP2);
            srcP3 = vec_perm(srcR2, srcR3, permP3);
        } break;
        case 15: {
            vec_u8 srcR3 = vec_ld(30, src);
            srcM2 = vec_perm(srcR1, srcR2, permM2);
            srcM1 = srcR2;
            srcP0 = vec_perm(srcR2, srcR3, permP0);
            srcP1 = vec_perm(srcR2, srcR3, permP1);
            srcP2 = vec_perm(srcR2, srcR3, permP2);
            srcP3 = vec_perm(srcR2, srcR3, permP3);
        } break;
        }

        srcP0A = (vec_s16) vec_mergeh(zero_u8v, srcP0);
        srcP0B = (vec_s16) vec_mergel(zero_u8v, srcP0);
        srcP1A = (vec_s16) vec_mergeh(zero_u8v, srcP1);
        srcP1B = (vec_s16) vec_mergel(zero_u8v, srcP1);

        srcP2A = (vec_s16) vec_mergeh(zero_u8v, srcP2);
        srcP2B = (vec_s16) vec_mergel(zero_u8v, srcP2);
        srcP3A = (vec_s16) vec_mergeh(zero_u8v, srcP3);
        srcP3B = (vec_s16) vec_mergel(zero_u8v, srcP3);

        srcM1A = (vec_s16) vec_mergeh(zero_u8v, srcM1);
        srcM1B = (vec_s16) vec_mergel(zero_u8v, srcM1);
        srcM2A = (vec_s16) vec_mergeh(zero_u8v, srcM2);
        srcM2B = (vec_s16) vec_mergel(zero_u8v, srcM2);

        sum1A = vec_adds(srcP0A, srcP1A);
        sum1B = vec_adds(srcP0B, srcP1B);
        sum2A = vec_adds(srcM1A, srcP2A);
        sum2B = vec_adds(srcM1B, srcP2B);
        sum3A = vec_adds(srcM2A, srcP3A);
        sum3B = vec_adds(srcM2B, srcP3B);

        pp1A = vec_mladd(sum1A, v20ss, v16ss);
        pp1B = vec_mladd(sum1B, v20ss, v16ss);

        pp2A = vec_mladd(sum2A, v5ss, zero_s16v);
        pp2B = vec_mladd(sum2B, v5ss, zero_s16v);

        pp3A = vec_add(sum3A, pp1A);
        pp3B = vec_add(sum3B, pp1B);

        psumA = vec_sub(pp3A, pp2A);
        psumB = vec_sub(pp3B, pp2B);

        sumA = vec_sra(psumA, v5us);
        sumB = vec_sra(psumB, v5us);

        sum = vec_packsu(sumA, sumB);

        ASSERT_ALIGNED(dst);

        OP_U8_ALTIVEC(fsum, sum, vec_ld(0, dst));

        vec_st(fsum, 0, dst);

        src += srcStride;
        dst += dstStride;
    }
}
#endif

/* this code assume stride % 16 == 0 */
#ifdef PREFIX_h264_qpel16_v_lowpass_altivec
static void PREFIX_h264_qpel16_v_lowpass_altivec(uint8_t *dst,
                                                 const uint8_t *src,
                                                 int dstStride, int srcStride)
{
    register int i;

    LOAD_ZERO;
    const vec_u8 perm = vec_lvsl(0, src);
    const vec_s16 v20ss = vec_sl(vec_splat_s16(5),vec_splat_u16(2));
    const vec_u16 v5us = vec_splat_u16(5);
    const vec_s16 v5ss = vec_splat_s16(5);
    const vec_s16 v16ss = vec_sl(vec_splat_s16(1),vec_splat_u16(4));

    const uint8_t *srcbis = src - (srcStride * 2);

    const vec_u8 srcM2a = vec_ld(0, srcbis);
    const vec_u8 srcM2b = vec_ld(16, srcbis);
    const vec_u8 srcM2 = vec_perm(srcM2a, srcM2b, perm);
    //srcbis += srcStride;
    const vec_u8 srcM1a = vec_ld(0, srcbis += srcStride);
    const vec_u8 srcM1b = vec_ld(16, srcbis);
    const vec_u8 srcM1 = vec_perm(srcM1a, srcM1b, perm);
    //srcbis += srcStride;
    const vec_u8 srcP0a = vec_ld(0, srcbis += srcStride);
    const vec_u8 srcP0b = vec_ld(16, srcbis);
    const vec_u8 srcP0 = vec_perm(srcP0a, srcP0b, perm);
    //srcbis += srcStride;
    const vec_u8 srcP1a = vec_ld(0, srcbis += srcStride);
    const vec_u8 srcP1b = vec_ld(16, srcbis);
    const vec_u8 srcP1 = vec_perm(srcP1a, srcP1b, perm);
    //srcbis += srcStride;
    const vec_u8 srcP2a = vec_ld(0, srcbis += srcStride);
    const vec_u8 srcP2b = vec_ld(16, srcbis);
    const vec_u8 srcP2 = vec_perm(srcP2a, srcP2b, perm);
    //srcbis += srcStride;

    vec_s16 srcM2ssA = (vec_s16) vec_mergeh(zero_u8v, srcM2);
    vec_s16 srcM2ssB = (vec_s16) vec_mergel(zero_u8v, srcM2);
    vec_s16 srcM1ssA = (vec_s16) vec_mergeh(zero_u8v, srcM1);
    vec_s16 srcM1ssB = (vec_s16) vec_mergel(zero_u8v, srcM1);
    vec_s16 srcP0ssA = (vec_s16) vec_mergeh(zero_u8v, srcP0);
    vec_s16 srcP0ssB = (vec_s16) vec_mergel(zero_u8v, srcP0);
    vec_s16 srcP1ssA = (vec_s16) vec_mergeh(zero_u8v, srcP1);
    vec_s16 srcP1ssB = (vec_s16) vec_mergel(zero_u8v, srcP1);
    vec_s16 srcP2ssA = (vec_s16) vec_mergeh(zero_u8v, srcP2);
    vec_s16 srcP2ssB = (vec_s16) vec_mergel(zero_u8v, srcP2);

    vec_s16 pp1A, pp1B, pp2A, pp2B, pp3A, pp3B,
              psumA, psumB, sumA, sumB,
              srcP3ssA, srcP3ssB,
              sum1A, sum1B, sum2A, sum2B, sum3A, sum3B;

    vec_u8 sum, fsum, srcP3a, srcP3b, srcP3;

    for (i = 0 ; i < 16 ; i++) {
        srcP3a = vec_ld(0, srcbis += srcStride);
        srcP3b = vec_ld(16, srcbis);
        srcP3 = vec_perm(srcP3a, srcP3b, perm);
        srcP3ssA = (vec_s16) vec_mergeh(zero_u8v, srcP3);
        srcP3ssB = (vec_s16) vec_mergel(zero_u8v, srcP3);
        //srcbis += srcStride;

        sum1A = vec_adds(srcP0ssA, srcP1ssA);
        sum1B = vec_adds(srcP0ssB, srcP1ssB);
        sum2A = vec_adds(srcM1ssA, srcP2ssA);
        sum2B = vec_adds(srcM1ssB, srcP2ssB);
        sum3A = vec_adds(srcM2ssA, srcP3ssA);
        sum3B = vec_adds(srcM2ssB, srcP3ssB);

        srcM2ssA = srcM1ssA;
        srcM2ssB = srcM1ssB;
        srcM1ssA = srcP0ssA;
        srcM1ssB = srcP0ssB;
        srcP0ssA = srcP1ssA;
        srcP0ssB = srcP1ssB;
        srcP1ssA = srcP2ssA;
        srcP1ssB = srcP2ssB;
        srcP2ssA = srcP3ssA;
        srcP2ssB = srcP3ssB;

        pp1A = vec_mladd(sum1A, v20ss, v16ss);
        pp1B = vec_mladd(sum1B, v20ss, v16ss);

        pp2A = vec_mladd(sum2A, v5ss, zero_s16v);
        pp2B = vec_mladd(sum2B, v5ss, zero_s16v);

        pp3A = vec_add(sum3A, pp1A);
        pp3B = vec_add(sum3B, pp1B);

        psumA = vec_sub(pp3A, pp2A);
        psumB = vec_sub(pp3B, pp2B);

        sumA = vec_sra(psumA, v5us);
        sumB = vec_sra(psumB, v5us);

        sum = vec_packsu(sumA, sumB);

        ASSERT_ALIGNED(dst);

        OP_U8_ALTIVEC(fsum, sum, vec_ld(0, dst));

        vec_st(fsum, 0, dst);

        dst += dstStride;
    }
}
#endif

/* this code assume stride % 16 == 0 *and* tmp is properly aligned */
#ifdef PREFIX_h264_qpel16_hv_lowpass_altivec
static void PREFIX_h264_qpel16_hv_lowpass_altivec(uint8_t *dst, int16_t *tmp,
                                                  const uint8_t *src,
                                                  int dstStride, int tmpStride,
                                                  int srcStride)
{
    register int i;
    LOAD_ZERO;
    const vec_u8 permM2 = vec_lvsl(-2, src);
    const vec_u8 permM1 = vec_lvsl(-1, src);
    const vec_u8 permP0 = vec_lvsl(+0, src);
    const vec_u8 permP1 = vec_lvsl(+1, src);
    const vec_u8 permP2 = vec_lvsl(+2, src);
    const vec_u8 permP3 = vec_lvsl(+3, src);
    const vec_s16 v20ss = vec_sl(vec_splat_s16(5),vec_splat_u16(2));
    const vec_u32 v10ui = vec_splat_u32(10);
    const vec_s16 v5ss = vec_splat_s16(5);
    const vec_s16 v1ss = vec_splat_s16(1);
    const vec_s32 v512si = vec_sl(vec_splat_s32(1),vec_splat_u32(9));
    const vec_u32 v16ui = vec_sl(vec_splat_u32(1),vec_splat_u32(4));

    register int align = ((((unsigned long)src) - 2) % 16);

    vec_s16 srcP0A, srcP0B, srcP1A, srcP1B,
              srcP2A, srcP2B, srcP3A, srcP3B,
              srcM1A, srcM1B, srcM2A, srcM2B,
              sum1A, sum1B, sum2A, sum2B, sum3A, sum3B,
              pp1A, pp1B, pp2A, pp2B, psumA, psumB;

    const vec_u8 mperm = (const vec_u8)
        {0x00, 0x08, 0x01, 0x09, 0x02, 0x0A, 0x03, 0x0B,
         0x04, 0x0C, 0x05, 0x0D, 0x06, 0x0E, 0x07, 0x0F};
    int16_t *tmpbis = tmp;

    vec_s16 tmpM1ssA, tmpM1ssB, tmpM2ssA, tmpM2ssB,
              tmpP0ssA, tmpP0ssB, tmpP1ssA, tmpP1ssB,
              tmpP2ssA, tmpP2ssB;

    vec_s32 pp1Ae, pp1Ao, pp1Be, pp1Bo, pp2Ae, pp2Ao, pp2Be, pp2Bo,
              pp3Ae, pp3Ao, pp3Be, pp3Bo, pp1cAe, pp1cAo, pp1cBe, pp1cBo,
              pp32Ae, pp32Ao, pp32Be, pp32Bo, sumAe, sumAo, sumBe, sumBo,
              ssumAe, ssumAo, ssumBe, ssumBo;
    vec_u8 fsum, sumv, sum;
    vec_s16 ssume, ssumo;

    src -= (2 * srcStride);
    for (i = 0 ; i < 21 ; i ++) {
        vec_u8 srcM2, srcM1, srcP0, srcP1, srcP2, srcP3;
        vec_u8 srcR1 = vec_ld(-2, src);
        vec_u8 srcR2 = vec_ld(14, src);

        switch (align) {
        default: {
            srcM2 = vec_perm(srcR1, srcR2, permM2);
            srcM1 = vec_perm(srcR1, srcR2, permM1);
            srcP0 = vec_perm(srcR1, srcR2, permP0);
            srcP1 = vec_perm(srcR1, srcR2, permP1);
            srcP2 = vec_perm(srcR1, srcR2, permP2);
            srcP3 = vec_perm(srcR1, srcR2, permP3);
        } break;
        case 11: {
            srcM2 = vec_perm(srcR1, srcR2, permM2);
            srcM1 = vec_perm(srcR1, srcR2, permM1);
            srcP0 = vec_perm(srcR1, srcR2, permP0);
            srcP1 = vec_perm(srcR1, srcR2, permP1);
            srcP2 = vec_perm(srcR1, srcR2, permP2);
            srcP3 = srcR2;
        } break;
        case 12: {
            vec_u8 srcR3 = vec_ld(30, src);
            srcM2 = vec_perm(srcR1, srcR2, permM2);
            srcM1 = vec_perm(srcR1, srcR2, permM1);
            srcP0 = vec_perm(srcR1, srcR2, permP0);
            srcP1 = vec_perm(srcR1, srcR2, permP1);
            srcP2 = srcR2;
            srcP3 = vec_perm(srcR2, srcR3, permP3);
        } break;
        case 13: {
            vec_u8 srcR3 = vec_ld(30, src);
            srcM2 = vec_perm(srcR1, srcR2, permM2);
            srcM1 = vec_perm(srcR1, srcR2, permM1);
            srcP0 = vec_perm(srcR1, srcR2, permP0);
            srcP1 = srcR2;
            srcP2 = vec_perm(srcR2, srcR3, permP2);
            srcP3 = vec_perm(srcR2, srcR3, permP3);
        } break;
        case 14: {
            vec_u8 srcR3 = vec_ld(30, src);
            srcM2 = vec_perm(srcR1, srcR2, permM2);
            srcM1 = vec_perm(srcR1, srcR2, permM1);
            srcP0 = srcR2;
            srcP1 = vec_perm(srcR2, srcR3, permP1);
            srcP2 = vec_perm(srcR2, srcR3, permP2);
            srcP3 = vec_perm(srcR2, srcR3, permP3);
        } break;
        case 15: {
            vec_u8 srcR3 = vec_ld(30, src);
            srcM2 = vec_perm(srcR1, srcR2, permM2);
            srcM1 = srcR2;
            srcP0 = vec_perm(srcR2, srcR3, permP0);
            srcP1 = vec_perm(srcR2, srcR3, permP1);
            srcP2 = vec_perm(srcR2, srcR3, permP2);
            srcP3 = vec_perm(srcR2, srcR3, permP3);
        } break;
        }

        srcP0A = (vec_s16) vec_mergeh(zero_u8v, srcP0);
        srcP0B = (vec_s16) vec_mergel(zero_u8v, srcP0);
        srcP1A = (vec_s16) vec_mergeh(zero_u8v, srcP1);
        srcP1B = (vec_s16) vec_mergel(zero_u8v, srcP1);

        srcP2A = (vec_s16) vec_mergeh(zero_u8v, srcP2);
        srcP2B = (vec_s16) vec_mergel(zero_u8v, srcP2);
        srcP3A = (vec_s16) vec_mergeh(zero_u8v, srcP3);
        srcP3B = (vec_s16) vec_mergel(zero_u8v, srcP3);

        srcM1A = (vec_s16) vec_mergeh(zero_u8v, srcM1);
        srcM1B = (vec_s16) vec_mergel(zero_u8v, srcM1);
        srcM2A = (vec_s16) vec_mergeh(zero_u8v, srcM2);
        srcM2B = (vec_s16) vec_mergel(zero_u8v, srcM2);

        sum1A = vec_adds(srcP0A, srcP1A);
        sum1B = vec_adds(srcP0B, srcP1B);
        sum2A = vec_adds(srcM1A, srcP2A);
        sum2B = vec_adds(srcM1B, srcP2B);
        sum3A = vec_adds(srcM2A, srcP3A);
        sum3B = vec_adds(srcM2B, srcP3B);

        pp1A = vec_mladd(sum1A, v20ss, sum3A);
        pp1B = vec_mladd(sum1B, v20ss, sum3B);

        pp2A = vec_mladd(sum2A, v5ss, zero_s16v);
        pp2B = vec_mladd(sum2B, v5ss, zero_s16v);

        psumA = vec_sub(pp1A, pp2A);
        psumB = vec_sub(pp1B, pp2B);

        vec_st(psumA, 0, tmp);
        vec_st(psumB, 16, tmp);

        src += srcStride;
        tmp += tmpStride; /* int16_t*, and stride is 16, so it's OK here */
    }

    tmpM2ssA = vec_ld(0, tmpbis);
    tmpM2ssB = vec_ld(16, tmpbis);
    tmpbis += tmpStride;
    tmpM1ssA = vec_ld(0, tmpbis);
    tmpM1ssB = vec_ld(16, tmpbis);
    tmpbis += tmpStride;
    tmpP0ssA = vec_ld(0, tmpbis);
    tmpP0ssB = vec_ld(16, tmpbis);
    tmpbis += tmpStride;
    tmpP1ssA = vec_ld(0, tmpbis);
    tmpP1ssB = vec_ld(16, tmpbis);
    tmpbis += tmpStride;
    tmpP2ssA = vec_ld(0, tmpbis);
    tmpP2ssB = vec_ld(16, tmpbis);
    tmpbis += tmpStride;

    for (i = 0 ; i < 16 ; i++) {
        const vec_s16 tmpP3ssA = vec_ld(0, tmpbis);
        const vec_s16 tmpP3ssB = vec_ld(16, tmpbis);

        const vec_s16 sum1A = vec_adds(tmpP0ssA, tmpP1ssA);
        const vec_s16 sum1B = vec_adds(tmpP0ssB, tmpP1ssB);
        const vec_s16 sum2A = vec_adds(tmpM1ssA, tmpP2ssA);
        const vec_s16 sum2B = vec_adds(tmpM1ssB, tmpP2ssB);
        const vec_s16 sum3A = vec_adds(tmpM2ssA, tmpP3ssA);
        const vec_s16 sum3B = vec_adds(tmpM2ssB, tmpP3ssB);

        tmpbis += tmpStride;

        tmpM2ssA = tmpM1ssA;
        tmpM2ssB = tmpM1ssB;
        tmpM1ssA = tmpP0ssA;
        tmpM1ssB = tmpP0ssB;
        tmpP0ssA = tmpP1ssA;
        tmpP0ssB = tmpP1ssB;
        tmpP1ssA = tmpP2ssA;
        tmpP1ssB = tmpP2ssB;
        tmpP2ssA = tmpP3ssA;
        tmpP2ssB = tmpP3ssB;

        pp1Ae = vec_mule(sum1A, v20ss);
        pp1Ao = vec_mulo(sum1A, v20ss);
        pp1Be = vec_mule(sum1B, v20ss);
        pp1Bo = vec_mulo(sum1B, v20ss);

        pp2Ae = vec_mule(sum2A, v5ss);
        pp2Ao = vec_mulo(sum2A, v5ss);
        pp2Be = vec_mule(sum2B, v5ss);
        pp2Bo = vec_mulo(sum2B, v5ss);

        pp3Ae = vec_sra((vec_s32)sum3A, v16ui);
        pp3Ao = vec_mulo(sum3A, v1ss);
        pp3Be = vec_sra((vec_s32)sum3B, v16ui);
        pp3Bo = vec_mulo(sum3B, v1ss);

        pp1cAe = vec_add(pp1Ae, v512si);
        pp1cAo = vec_add(pp1Ao, v512si);
        pp1cBe = vec_add(pp1Be, v512si);
        pp1cBo = vec_add(pp1Bo, v512si);

        pp32Ae = vec_sub(pp3Ae, pp2Ae);
        pp32Ao = vec_sub(pp3Ao, pp2Ao);
        pp32Be = vec_sub(pp3Be, pp2Be);
        pp32Bo = vec_sub(pp3Bo, pp2Bo);

        sumAe = vec_add(pp1cAe, pp32Ae);
        sumAo = vec_add(pp1cAo, pp32Ao);
        sumBe = vec_add(pp1cBe, pp32Be);
        sumBo = vec_add(pp1cBo, pp32Bo);

        ssumAe = vec_sra(sumAe, v10ui);
        ssumAo = vec_sra(sumAo, v10ui);
        ssumBe = vec_sra(sumBe, v10ui);
        ssumBo = vec_sra(sumBo, v10ui);

        ssume = vec_packs(ssumAe, ssumBe);
        ssumo = vec_packs(ssumAo, ssumBo);

        sumv = vec_packsu(ssume, ssumo);
        sum = vec_perm(sumv, sumv, mperm);

        ASSERT_ALIGNED(dst);

        OP_U8_ALTIVEC(fsum, sum, vec_ld(0, dst));

        vec_st(fsum, 0, dst);

        dst += dstStride;
    }
}
#endif
Commit	Line	Data
	1	/*
	2	* Copyright (c) 2004 Romain Dolbeau <romain@dolbeau.org>
	3	*
	4	* This file is part of FFmpeg.
	5	*
	6	* FFmpeg is free software; you can redistribute it and/or
	7	* modify it under the terms of the GNU Lesser General Public
	8	* License as published by the Free Software Foundation; either
	9	* version 2.1 of the License, or (at your option) any later version.
	10	*
	11	* FFmpeg is distributed in the hope that it will be useful,
	12	* but WITHOUT ANY WARRANTY; without even the implied warranty of
	13	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	14	* Lesser General Public License for more details.
	15	*
	16	* You should have received a copy of the GNU Lesser General Public
	17	* License along with FFmpeg; if not, write to the Free Software
	18	* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	19	*/
	20
	21	#include "libavutil/mem.h"
	22
	23	#ifdef DEBUG
	24	#define ASSERT_ALIGNED(ptr) assert(((unsigned long)ptr&0x0000000F));
	25	#else
	26	#define ASSERT_ALIGNED(ptr) ;
	27	#endif
	28
	29	/* this code assume stride % 16 == 0 */
	30	#ifdef PREFIX_h264_qpel16_h_lowpass_altivec
	31	static void PREFIX_h264_qpel16_h_lowpass_altivec(uint8_t *dst,
	32	const uint8_t *src,
	33	int dstStride, int srcStride)
	34	{
	35	register int i;
	36
	37	LOAD_ZERO;
	38	const vec_u8 permM2 = vec_lvsl(-2, src);
	39	const vec_u8 permM1 = vec_lvsl(-1, src);
	40	const vec_u8 permP0 = vec_lvsl(+0, src);
	41	const vec_u8 permP1 = vec_lvsl(+1, src);
	42	const vec_u8 permP2 = vec_lvsl(+2, src);
	43	const vec_u8 permP3 = vec_lvsl(+3, src);
	44	const vec_s16 v5ss = vec_splat_s16(5);
	45	const vec_u16 v5us = vec_splat_u16(5);
	46	const vec_s16 v20ss = vec_sl(vec_splat_s16(5),vec_splat_u16(2));
	47	const vec_s16 v16ss = vec_sl(vec_splat_s16(1),vec_splat_u16(4));
	48
	49	vec_u8 srcM2, srcM1, srcP0, srcP1, srcP2, srcP3;
	50
	51	register int align = ((((unsigned long)src) - 2) % 16);
	52
	53	vec_s16 srcP0A, srcP0B, srcP1A, srcP1B,
	54	srcP2A, srcP2B, srcP3A, srcP3B,
	55	srcM1A, srcM1B, srcM2A, srcM2B,
	56	sum1A, sum1B, sum2A, sum2B, sum3A, sum3B,
	57	pp1A, pp1B, pp2A, pp2B, pp3A, pp3B,
	58	psumA, psumB, sumA, sumB;
	59
	60	vec_u8 sum, fsum;
	61
	62	for (i = 0 ; i < 16 ; i ++) {
	63	vec_u8 srcR1 = vec_ld(-2, src);
	64	vec_u8 srcR2 = vec_ld(14, src);
	65
	66	switch (align) {
	67	default: {
	68	srcM2 = vec_perm(srcR1, srcR2, permM2);
	69	srcM1 = vec_perm(srcR1, srcR2, permM1);
	70	srcP0 = vec_perm(srcR1, srcR2, permP0);
	71	srcP1 = vec_perm(srcR1, srcR2, permP1);
	72	srcP2 = vec_perm(srcR1, srcR2, permP2);
	73	srcP3 = vec_perm(srcR1, srcR2, permP3);
	74	} break;
	75	case 11: {
	76	srcM2 = vec_perm(srcR1, srcR2, permM2);
	77	srcM1 = vec_perm(srcR1, srcR2, permM1);
	78	srcP0 = vec_perm(srcR1, srcR2, permP0);
	79	srcP1 = vec_perm(srcR1, srcR2, permP1);
	80	srcP2 = vec_perm(srcR1, srcR2, permP2);
	81	srcP3 = srcR2;
	82	} break;
	83	case 12: {
	84	vec_u8 srcR3 = vec_ld(30, src);
	85	srcM2 = vec_perm(srcR1, srcR2, permM2);
	86	srcM1 = vec_perm(srcR1, srcR2, permM1);
	87	srcP0 = vec_perm(srcR1, srcR2, permP0);
	88	srcP1 = vec_perm(srcR1, srcR2, permP1);
	89	srcP2 = srcR2;
	90	srcP3 = vec_perm(srcR2, srcR3, permP3);
	91	} break;
	92	case 13: {
	93	vec_u8 srcR3 = vec_ld(30, src);
	94	srcM2 = vec_perm(srcR1, srcR2, permM2);
	95	srcM1 = vec_perm(srcR1, srcR2, permM1);
	96	srcP0 = vec_perm(srcR1, srcR2, permP0);
	97	srcP1 = srcR2;
	98	srcP2 = vec_perm(srcR2, srcR3, permP2);
	99	srcP3 = vec_perm(srcR2, srcR3, permP3);
	100	} break;
	101	case 14: {
	102	vec_u8 srcR3 = vec_ld(30, src);
	103	srcM2 = vec_perm(srcR1, srcR2, permM2);
	104	srcM1 = vec_perm(srcR1, srcR2, permM1);
	105	srcP0 = srcR2;
	106	srcP1 = vec_perm(srcR2, srcR3, permP1);
	107	srcP2 = vec_perm(srcR2, srcR3, permP2);
	108	srcP3 = vec_perm(srcR2, srcR3, permP3);
	109	} break;
	110	case 15: {
	111	vec_u8 srcR3 = vec_ld(30, src);
	112	srcM2 = vec_perm(srcR1, srcR2, permM2);
	113	srcM1 = srcR2;
	114	srcP0 = vec_perm(srcR2, srcR3, permP0);
	115	srcP1 = vec_perm(srcR2, srcR3, permP1);
	116	srcP2 = vec_perm(srcR2, srcR3, permP2);
	117	srcP3 = vec_perm(srcR2, srcR3, permP3);
	118	} break;
	119	}
	120
	121	srcP0A = (vec_s16) vec_mergeh(zero_u8v, srcP0);
	122	srcP0B = (vec_s16) vec_mergel(zero_u8v, srcP0);
	123	srcP1A = (vec_s16) vec_mergeh(zero_u8v, srcP1);
	124	srcP1B = (vec_s16) vec_mergel(zero_u8v, srcP1);
	125
	126	srcP2A = (vec_s16) vec_mergeh(zero_u8v, srcP2);
	127	srcP2B = (vec_s16) vec_mergel(zero_u8v, srcP2);
	128	srcP3A = (vec_s16) vec_mergeh(zero_u8v, srcP3);
	129	srcP3B = (vec_s16) vec_mergel(zero_u8v, srcP3);
	130
	131	srcM1A = (vec_s16) vec_mergeh(zero_u8v, srcM1);
	132	srcM1B = (vec_s16) vec_mergel(zero_u8v, srcM1);
	133	srcM2A = (vec_s16) vec_mergeh(zero_u8v, srcM2);
	134	srcM2B = (vec_s16) vec_mergel(zero_u8v, srcM2);
	135
	136	sum1A = vec_adds(srcP0A, srcP1A);
	137	sum1B = vec_adds(srcP0B, srcP1B);
	138	sum2A = vec_adds(srcM1A, srcP2A);
	139	sum2B = vec_adds(srcM1B, srcP2B);
	140	sum3A = vec_adds(srcM2A, srcP3A);
	141	sum3B = vec_adds(srcM2B, srcP3B);
	142
	143	pp1A = vec_mladd(sum1A, v20ss, v16ss);
	144	pp1B = vec_mladd(sum1B, v20ss, v16ss);
	145
	146	pp2A = vec_mladd(sum2A, v5ss, zero_s16v);
	147	pp2B = vec_mladd(sum2B, v5ss, zero_s16v);
	148
	149	pp3A = vec_add(sum3A, pp1A);
	150	pp3B = vec_add(sum3B, pp1B);
	151
	152	psumA = vec_sub(pp3A, pp2A);
	153	psumB = vec_sub(pp3B, pp2B);
	154
	155	sumA = vec_sra(psumA, v5us);
	156	sumB = vec_sra(psumB, v5us);
	157
	158	sum = vec_packsu(sumA, sumB);
	159
	160	ASSERT_ALIGNED(dst);
	161
	162	OP_U8_ALTIVEC(fsum, sum, vec_ld(0, dst));
	163
	164	vec_st(fsum, 0, dst);
	165
	166	src += srcStride;
	167	dst += dstStride;
	168	}
	169	}
	170	#endif
	171
	172	/* this code assume stride % 16 == 0 */
	173	#ifdef PREFIX_h264_qpel16_v_lowpass_altivec
	174	static void PREFIX_h264_qpel16_v_lowpass_altivec(uint8_t *dst,
	175	const uint8_t *src,
	176	int dstStride, int srcStride)
	177	{
	178	register int i;
	179
	180	LOAD_ZERO;
	181	const vec_u8 perm = vec_lvsl(0, src);
	182	const vec_s16 v20ss = vec_sl(vec_splat_s16(5),vec_splat_u16(2));
	183	const vec_u16 v5us = vec_splat_u16(5);
	184	const vec_s16 v5ss = vec_splat_s16(5);
	185	const vec_s16 v16ss = vec_sl(vec_splat_s16(1),vec_splat_u16(4));
	186
	187	const uint8_t srcbis = src - (srcStride 2);
	188
	189	const vec_u8 srcM2a = vec_ld(0, srcbis);
	190	const vec_u8 srcM2b = vec_ld(16, srcbis);
	191	const vec_u8 srcM2 = vec_perm(srcM2a, srcM2b, perm);
	192	//srcbis += srcStride;
	193	const vec_u8 srcM1a = vec_ld(0, srcbis += srcStride);
	194	const vec_u8 srcM1b = vec_ld(16, srcbis);
	195	const vec_u8 srcM1 = vec_perm(srcM1a, srcM1b, perm);
	196	//srcbis += srcStride;
	197	const vec_u8 srcP0a = vec_ld(0, srcbis += srcStride);
	198	const vec_u8 srcP0b = vec_ld(16, srcbis);
	199	const vec_u8 srcP0 = vec_perm(srcP0a, srcP0b, perm);
	200	//srcbis += srcStride;
	201	const vec_u8 srcP1a = vec_ld(0, srcbis += srcStride);
	202	const vec_u8 srcP1b = vec_ld(16, srcbis);
	203	const vec_u8 srcP1 = vec_perm(srcP1a, srcP1b, perm);
	204	//srcbis += srcStride;
	205	const vec_u8 srcP2a = vec_ld(0, srcbis += srcStride);
	206	const vec_u8 srcP2b = vec_ld(16, srcbis);
	207	const vec_u8 srcP2 = vec_perm(srcP2a, srcP2b, perm);
	208	//srcbis += srcStride;
	209
	210	vec_s16 srcM2ssA = (vec_s16) vec_mergeh(zero_u8v, srcM2);
	211	vec_s16 srcM2ssB = (vec_s16) vec_mergel(zero_u8v, srcM2);
	212	vec_s16 srcM1ssA = (vec_s16) vec_mergeh(zero_u8v, srcM1);
	213	vec_s16 srcM1ssB = (vec_s16) vec_mergel(zero_u8v, srcM1);
	214	vec_s16 srcP0ssA = (vec_s16) vec_mergeh(zero_u8v, srcP0);
	215	vec_s16 srcP0ssB = (vec_s16) vec_mergel(zero_u8v, srcP0);
	216	vec_s16 srcP1ssA = (vec_s16) vec_mergeh(zero_u8v, srcP1);
	217	vec_s16 srcP1ssB = (vec_s16) vec_mergel(zero_u8v, srcP1);
	218	vec_s16 srcP2ssA = (vec_s16) vec_mergeh(zero_u8v, srcP2);
	219	vec_s16 srcP2ssB = (vec_s16) vec_mergel(zero_u8v, srcP2);
	220
	221	vec_s16 pp1A, pp1B, pp2A, pp2B, pp3A, pp3B,
	222	psumA, psumB, sumA, sumB,
	223	srcP3ssA, srcP3ssB,
	224	sum1A, sum1B, sum2A, sum2B, sum3A, sum3B;
	225
	226	vec_u8 sum, fsum, srcP3a, srcP3b, srcP3;
	227
	228	for (i = 0 ; i < 16 ; i++) {
	229	srcP3a = vec_ld(0, srcbis += srcStride);
	230	srcP3b = vec_ld(16, srcbis);
	231	srcP3 = vec_perm(srcP3a, srcP3b, perm);
	232	srcP3ssA = (vec_s16) vec_mergeh(zero_u8v, srcP3);
	233	srcP3ssB = (vec_s16) vec_mergel(zero_u8v, srcP3);
	234	//srcbis += srcStride;
	235
	236	sum1A = vec_adds(srcP0ssA, srcP1ssA);
	237	sum1B = vec_adds(srcP0ssB, srcP1ssB);
	238	sum2A = vec_adds(srcM1ssA, srcP2ssA);
	239	sum2B = vec_adds(srcM1ssB, srcP2ssB);
	240	sum3A = vec_adds(srcM2ssA, srcP3ssA);
	241	sum3B = vec_adds(srcM2ssB, srcP3ssB);
	242
	243	srcM2ssA = srcM1ssA;
	244	srcM2ssB = srcM1ssB;
	245	srcM1ssA = srcP0ssA;
	246	srcM1ssB = srcP0ssB;
	247	srcP0ssA = srcP1ssA;
	248	srcP0ssB = srcP1ssB;
	249	srcP1ssA = srcP2ssA;
	250	srcP1ssB = srcP2ssB;
	251	srcP2ssA = srcP3ssA;
	252	srcP2ssB = srcP3ssB;
	253
	254	pp1A = vec_mladd(sum1A, v20ss, v16ss);
	255	pp1B = vec_mladd(sum1B, v20ss, v16ss);
	256
	257	pp2A = vec_mladd(sum2A, v5ss, zero_s16v);
	258	pp2B = vec_mladd(sum2B, v5ss, zero_s16v);
	259
	260	pp3A = vec_add(sum3A, pp1A);
	261	pp3B = vec_add(sum3B, pp1B);
	262
	263	psumA = vec_sub(pp3A, pp2A);
	264	psumB = vec_sub(pp3B, pp2B);
	265
	266	sumA = vec_sra(psumA, v5us);
	267	sumB = vec_sra(psumB, v5us);
	268
	269	sum = vec_packsu(sumA, sumB);
	270
	271	ASSERT_ALIGNED(dst);
	272
	273	OP_U8_ALTIVEC(fsum, sum, vec_ld(0, dst));
	274
	275	vec_st(fsum, 0, dst);
	276
	277	dst += dstStride;
	278	}
	279	}
	280	#endif
	281
	282	/* this code assume stride % 16 == 0 and tmp is properly aligned */
	283	#ifdef PREFIX_h264_qpel16_hv_lowpass_altivec
	284	static void PREFIX_h264_qpel16_hv_lowpass_altivec(uint8_t dst, int16_t tmp,
	285	const uint8_t *src,
	286	int dstStride, int tmpStride,
	287	int srcStride)
	288	{
	289	register int i;
	290	LOAD_ZERO;
	291	const vec_u8 permM2 = vec_lvsl(-2, src);
	292	const vec_u8 permM1 = vec_lvsl(-1, src);
	293	const vec_u8 permP0 = vec_lvsl(+0, src);
	294	const vec_u8 permP1 = vec_lvsl(+1, src);
	295	const vec_u8 permP2 = vec_lvsl(+2, src);
	296	const vec_u8 permP3 = vec_lvsl(+3, src);
	297	const vec_s16 v20ss = vec_sl(vec_splat_s16(5),vec_splat_u16(2));
	298	const vec_u32 v10ui = vec_splat_u32(10);
	299	const vec_s16 v5ss = vec_splat_s16(5);
	300	const vec_s16 v1ss = vec_splat_s16(1);
	301	const vec_s32 v512si = vec_sl(vec_splat_s32(1),vec_splat_u32(9));
	302	const vec_u32 v16ui = vec_sl(vec_splat_u32(1),vec_splat_u32(4));
	303
	304	register int align = ((((unsigned long)src) - 2) % 16);
	305
	306	vec_s16 srcP0A, srcP0B, srcP1A, srcP1B,
	307	srcP2A, srcP2B, srcP3A, srcP3B,
	308	srcM1A, srcM1B, srcM2A, srcM2B,
	309	sum1A, sum1B, sum2A, sum2B, sum3A, sum3B,
	310	pp1A, pp1B, pp2A, pp2B, psumA, psumB;
	311
	312	const vec_u8 mperm = (const vec_u8)
	313	{0x00, 0x08, 0x01, 0x09, 0x02, 0x0A, 0x03, 0x0B,
	314	0x04, 0x0C, 0x05, 0x0D, 0x06, 0x0E, 0x07, 0x0F};
	315	int16_t *tmpbis = tmp;
	316
	317	vec_s16 tmpM1ssA, tmpM1ssB, tmpM2ssA, tmpM2ssB,
	318	tmpP0ssA, tmpP0ssB, tmpP1ssA, tmpP1ssB,
	319	tmpP2ssA, tmpP2ssB;
	320
	321	vec_s32 pp1Ae, pp1Ao, pp1Be, pp1Bo, pp2Ae, pp2Ao, pp2Be, pp2Bo,
	322	pp3Ae, pp3Ao, pp3Be, pp3Bo, pp1cAe, pp1cAo, pp1cBe, pp1cBo,
	323	pp32Ae, pp32Ao, pp32Be, pp32Bo, sumAe, sumAo, sumBe, sumBo,
	324	ssumAe, ssumAo, ssumBe, ssumBo;
	325	vec_u8 fsum, sumv, sum;
	326	vec_s16 ssume, ssumo;
	327
	328	src -= (2 * srcStride);
	329	for (i = 0 ; i < 21 ; i ++) {
	330	vec_u8 srcM2, srcM1, srcP0, srcP1, srcP2, srcP3;
	331	vec_u8 srcR1 = vec_ld(-2, src);
	332	vec_u8 srcR2 = vec_ld(14, src);
	333
	334	switch (align) {
	335	default: {
	336	srcM2 = vec_perm(srcR1, srcR2, permM2);
	337	srcM1 = vec_perm(srcR1, srcR2, permM1);
	338	srcP0 = vec_perm(srcR1, srcR2, permP0);
	339	srcP1 = vec_perm(srcR1, srcR2, permP1);
	340	srcP2 = vec_perm(srcR1, srcR2, permP2);
	341	srcP3 = vec_perm(srcR1, srcR2, permP3);
	342	} break;
	343	case 11: {
	344	srcM2 = vec_perm(srcR1, srcR2, permM2);
	345	srcM1 = vec_perm(srcR1, srcR2, permM1);
	346	srcP0 = vec_perm(srcR1, srcR2, permP0);
	347	srcP1 = vec_perm(srcR1, srcR2, permP1);
	348	srcP2 = vec_perm(srcR1, srcR2, permP2);
	349	srcP3 = srcR2;
	350	} break;
	351	case 12: {
	352	vec_u8 srcR3 = vec_ld(30, src);
	353	srcM2 = vec_perm(srcR1, srcR2, permM2);
	354	srcM1 = vec_perm(srcR1, srcR2, permM1);
	355	srcP0 = vec_perm(srcR1, srcR2, permP0);
	356	srcP1 = vec_perm(srcR1, srcR2, permP1);
	357	srcP2 = srcR2;
	358	srcP3 = vec_perm(srcR2, srcR3, permP3);
	359	} break;
	360	case 13: {
	361	vec_u8 srcR3 = vec_ld(30, src);
	362	srcM2 = vec_perm(srcR1, srcR2, permM2);
	363	srcM1 = vec_perm(srcR1, srcR2, permM1);
	364	srcP0 = vec_perm(srcR1, srcR2, permP0);
	365	srcP1 = srcR2;
	366	srcP2 = vec_perm(srcR2, srcR3, permP2);
	367	srcP3 = vec_perm(srcR2, srcR3, permP3);
	368	} break;
	369	case 14: {
	370	vec_u8 srcR3 = vec_ld(30, src);
	371	srcM2 = vec_perm(srcR1, srcR2, permM2);
	372	srcM1 = vec_perm(srcR1, srcR2, permM1);
	373	srcP0 = srcR2;
	374	srcP1 = vec_perm(srcR2, srcR3, permP1);
	375	srcP2 = vec_perm(srcR2, srcR3, permP2);
	376	srcP3 = vec_perm(srcR2, srcR3, permP3);
	377	} break;
	378	case 15: {
	379	vec_u8 srcR3 = vec_ld(30, src);
	380	srcM2 = vec_perm(srcR1, srcR2, permM2);
	381	srcM1 = srcR2;
	382	srcP0 = vec_perm(srcR2, srcR3, permP0);
	383	srcP1 = vec_perm(srcR2, srcR3, permP1);
	384	srcP2 = vec_perm(srcR2, srcR3, permP2);
	385	srcP3 = vec_perm(srcR2, srcR3, permP3);
	386	} break;
	387	}
	388
	389	srcP0A = (vec_s16) vec_mergeh(zero_u8v, srcP0);
	390	srcP0B = (vec_s16) vec_mergel(zero_u8v, srcP0);
	391	srcP1A = (vec_s16) vec_mergeh(zero_u8v, srcP1);
	392	srcP1B = (vec_s16) vec_mergel(zero_u8v, srcP1);
	393
	394	srcP2A = (vec_s16) vec_mergeh(zero_u8v, srcP2);
	395	srcP2B = (vec_s16) vec_mergel(zero_u8v, srcP2);
	396	srcP3A = (vec_s16) vec_mergeh(zero_u8v, srcP3);
	397	srcP3B = (vec_s16) vec_mergel(zero_u8v, srcP3);
	398
	399	srcM1A = (vec_s16) vec_mergeh(zero_u8v, srcM1);
	400	srcM1B = (vec_s16) vec_mergel(zero_u8v, srcM1);
	401	srcM2A = (vec_s16) vec_mergeh(zero_u8v, srcM2);
	402	srcM2B = (vec_s16) vec_mergel(zero_u8v, srcM2);
	403
	404	sum1A = vec_adds(srcP0A, srcP1A);
	405	sum1B = vec_adds(srcP0B, srcP1B);
	406	sum2A = vec_adds(srcM1A, srcP2A);
	407	sum2B = vec_adds(srcM1B, srcP2B);
	408	sum3A = vec_adds(srcM2A, srcP3A);
	409	sum3B = vec_adds(srcM2B, srcP3B);
	410
	411	pp1A = vec_mladd(sum1A, v20ss, sum3A);
	412	pp1B = vec_mladd(sum1B, v20ss, sum3B);
	413
	414	pp2A = vec_mladd(sum2A, v5ss, zero_s16v);
	415	pp2B = vec_mladd(sum2B, v5ss, zero_s16v);
	416
	417	psumA = vec_sub(pp1A, pp2A);
	418	psumB = vec_sub(pp1B, pp2B);
	419
	420	vec_st(psumA, 0, tmp);
	421	vec_st(psumB, 16, tmp);
	422
	423	src += srcStride;
	424	tmp += tmpStride; /* int16_t, and stride is 16, so it's OK here /
	425	}
	426
	427	tmpM2ssA = vec_ld(0, tmpbis);
	428	tmpM2ssB = vec_ld(16, tmpbis);
	429	tmpbis += tmpStride;
	430	tmpM1ssA = vec_ld(0, tmpbis);
	431	tmpM1ssB = vec_ld(16, tmpbis);
	432	tmpbis += tmpStride;
	433	tmpP0ssA = vec_ld(0, tmpbis);
	434	tmpP0ssB = vec_ld(16, tmpbis);
	435	tmpbis += tmpStride;
	436	tmpP1ssA = vec_ld(0, tmpbis);
	437	tmpP1ssB = vec_ld(16, tmpbis);
	438	tmpbis += tmpStride;
	439	tmpP2ssA = vec_ld(0, tmpbis);
	440	tmpP2ssB = vec_ld(16, tmpbis);
	441	tmpbis += tmpStride;
	442
	443	for (i = 0 ; i < 16 ; i++) {
	444	const vec_s16 tmpP3ssA = vec_ld(0, tmpbis);
	445	const vec_s16 tmpP3ssB = vec_ld(16, tmpbis);
	446
	447	const vec_s16 sum1A = vec_adds(tmpP0ssA, tmpP1ssA);
	448	const vec_s16 sum1B = vec_adds(tmpP0ssB, tmpP1ssB);
	449	const vec_s16 sum2A = vec_adds(tmpM1ssA, tmpP2ssA);
	450	const vec_s16 sum2B = vec_adds(tmpM1ssB, tmpP2ssB);
	451	const vec_s16 sum3A = vec_adds(tmpM2ssA, tmpP3ssA);
	452	const vec_s16 sum3B = vec_adds(tmpM2ssB, tmpP3ssB);
	453
	454	tmpbis += tmpStride;
	455
	456	tmpM2ssA = tmpM1ssA;
	457	tmpM2ssB = tmpM1ssB;
	458	tmpM1ssA = tmpP0ssA;
	459	tmpM1ssB = tmpP0ssB;
	460	tmpP0ssA = tmpP1ssA;
	461	tmpP0ssB = tmpP1ssB;
	462	tmpP1ssA = tmpP2ssA;
	463	tmpP1ssB = tmpP2ssB;
	464	tmpP2ssA = tmpP3ssA;
	465	tmpP2ssB = tmpP3ssB;
	466
	467	pp1Ae = vec_mule(sum1A, v20ss);
	468	pp1Ao = vec_mulo(sum1A, v20ss);
	469	pp1Be = vec_mule(sum1B, v20ss);
	470	pp1Bo = vec_mulo(sum1B, v20ss);
	471
	472	pp2Ae = vec_mule(sum2A, v5ss);
	473	pp2Ao = vec_mulo(sum2A, v5ss);
	474	pp2Be = vec_mule(sum2B, v5ss);
	475	pp2Bo = vec_mulo(sum2B, v5ss);
	476
	477	pp3Ae = vec_sra((vec_s32)sum3A, v16ui);
	478	pp3Ao = vec_mulo(sum3A, v1ss);
	479	pp3Be = vec_sra((vec_s32)sum3B, v16ui);
	480	pp3Bo = vec_mulo(sum3B, v1ss);
	481
	482	pp1cAe = vec_add(pp1Ae, v512si);
	483	pp1cAo = vec_add(pp1Ao, v512si);
	484	pp1cBe = vec_add(pp1Be, v512si);
	485	pp1cBo = vec_add(pp1Bo, v512si);
	486
	487	pp32Ae = vec_sub(pp3Ae, pp2Ae);
	488	pp32Ao = vec_sub(pp3Ao, pp2Ao);
	489	pp32Be = vec_sub(pp3Be, pp2Be);
	490	pp32Bo = vec_sub(pp3Bo, pp2Bo);
	491
	492	sumAe = vec_add(pp1cAe, pp32Ae);
	493	sumAo = vec_add(pp1cAo, pp32Ao);
	494	sumBe = vec_add(pp1cBe, pp32Be);
	495	sumBo = vec_add(pp1cBo, pp32Bo);
	496
	497	ssumAe = vec_sra(sumAe, v10ui);
	498	ssumAo = vec_sra(sumAo, v10ui);
	499	ssumBe = vec_sra(sumBe, v10ui);
	500	ssumBo = vec_sra(sumBo, v10ui);
	501
	502	ssume = vec_packs(ssumAe, ssumBe);
	503	ssumo = vec_packs(ssumAo, ssumBo);
	504
	505	sumv = vec_packsu(ssume, ssumo);
	506	sum = vec_perm(sumv, sumv, mperm);
	507
	508	ASSERT_ALIGNED(dst);
	509
	510	OP_U8_ALTIVEC(fsum, sum, vec_ld(0, dst));
	511
	512	vec_st(fsum, 0, dst);
	513
	514	dst += dstStride;
	515	}
	516	}
	517	#endif