WYY's Blog

JUST DO IT


  • Home

  • About

  • Tags

  • Categories

  • Archives

程序化广告

Posted on 2019-10-03 | In Programmatic Advertising

参与者

1.需求方

  • 效果类需求方:效果广告主直客(游戏、电商),广告代理公司。以提升直接转化效果为主,大部分采用预付款的结算形式。
  • 品牌需求方:品牌广告主直客(汽车、快消品),4A广告代理。以品牌宣传为主,预算充足但账期较长。

2.需求服务方

需求方平台

Demand-side Platform, DSP 为需求方提供实时竞价投放平台,需求方在平台上管理广告活动及其投放策略(目标受众的定向条件、预算、出价、创意等)。

门槛
  • 流量资源:流量的质量、规模和价格。DSP消耗量越大,与Ad Exchange/SSP结算的广告费越优惠,流量挑选的优先级越高。
  • 广告填充:需要有足够的客户资源及投放预算,否则Ad Exchange/SSP将无法获取效益。
  • 数据算法、技术人才、运营人才、运营资金。

采购交易平台

Trading Desk, TD为需求方提供整合多个DSP平台的技术解决方案,管理多个DSP平台的投放预算、制定投放策略、查看数据报告。一般是为品牌广告主服务。

3.流量供应方

  • 媒体、网站、App
  • 广告网盟(Ad Network, AdN)媒体代理公司,赚取差价

4.流量服务方

广告交易平台/供应方平台

目前Ad Exchange, AdX和Supply-Side Platform, SSP功能基本一致。

门槛
  • 技术完整性:完整的流量管理、竞价规则、审核管理。
  • 运营规范化:与DSP间的技术对接文档,后续运营配合的规范流程。
  • 足够的填充率:流量质量和规模、价格政策、数据开放性(AdX/SSP传输的数据越完整,DSP能获得的可分析数据越多)。

5.广告服务与数据管理

程序化创意平台

Programmatic Creative Platform, PCP利用算法和数据对不同受众动态地展示广告并进行创意优化,这个过程叫做动态创意优化(Dynamic Creative Optimization, DCO)。

广告验证平台

Ad Verification Platform通常为品牌广告主服务,提供广告投放过程中的品牌安全(Brand Safety),反作弊(Anti-Fraud),可视度(Viewability)、无效流量验证(Invalid Traffic Verification)等保障。

数据管理平台

  • 第一方数据:广告主自有用户数据
  • 第二方数据:需求方服务提供者在广告投放过程中积累的业务数据
  • 第三方数据:如百度搜索人群数据、阿里电商人群数据、腾讯社交人群数据

监测分析平台

Measurement & Analytics Platform评估广告投放平台数据的真实性,验证投放的数据,如:展示量、点击量、受众属性是否与第三方监测报告一致。

交易模式

1.交易模式种类

实时竞价

Real Time Bidding有公开竞价和私有竞价之分。

  • 公开竞价(Open Auction):广告主在公开交易市场实时竞价购买剩余流量(媒体通过传统售卖或排他期售卖、优先售卖后剩余的流量)。价高者得,次高价结算。
  • 私有竞价(Private Auction):私有交易市场(Private Marketplace, PMP)媒体质量更优,价格更高。
  • 默认广告(Default Ad):避免广告位出现空白而浪费。
  • 底价(Floor Price):需求方平台必须高于底价才能参与竞价,最后一般以次高价多1分的价格结算。

一般RTB代表公开竞价,PA代表私有竞价。

程序化直接交易

Programmatic Direct使买卖双方按照协商好的价格或流量,绕过竞价直接一对一交易。品牌广告主通常采用这种模式,称之为程序化直接采购(Programmatic Direct Buying, PDB)。

  • 首选交易(Preferred Deals):买卖双方协商好固定的价格进行交易。流量优先进入首选交易,其次进入PMP,最后进入Open RTB。有些市场存在溢价的概念,当RTB减去首选交易价格的值大于设定的溢价时,RTB可以优先选量。
  • 程序化保量(Programmatic Guaranteed):一般PDB即指PGB。保量方式有两种:按照双方约定好的流量100%采购;按照约定好的返量比例进行采购,如媒体按广告主所需比例的1.5倍进行流量推送,广告主需要将多余的流量返还。
  • 头部竞价(Header Bidding):需求方通过仔媒体网站或App中插入JS SDK直接对接媒体,竞价请求是First Look级别。

2.交易模式价值

  • RTB:资源整合+实时竞价+受众购买。
  • PA:同RTB,适用于优质广告主。
  • PD:受众购买
  • PDB:流量分割+频次控制+预算控制+创意展示策略
  • RTB+PDB:当PDB投放量不足或者TA N+Reach值不达标时,RTB可以起到追头、补频的作用;当RTB的库存流量量级、价格、质量都无法确保广告主投放需求时,PDB可以起到固定价格、优先流量采购和排期投放的作用。

考核指标

狭义的广告效果指通过广告传播带来的直接经济效益,广义的广告效果指通过广告传播影响受众的认知、心理、行为和态度,由此带来的直接或间接广告效益总和。

1.广告效果层次

  • 传播效果:广告已成功曝光到用户面前且被用户所关注,广告到达的广度和深度,取决于广告覆盖范围、曝光质量和曝光频次。
  • 心理效果:通过广告曝光影响用户的认知、心理和产品态度。心理效果取决于广告的创意和场景。
  • 行为效果:用户看到广告、产生兴趣后发生的进一步的交互行为。行为效果取决于广告的创意、场景及产品本身相关的信息。

2.广告效果评估

基础指标

CPM:Cost Per Mille,每千人成本。

CTR:Click Through Rate,广告的点击率。

CPC:Cost Per Click,每点击成本。

效果指标

点击量:广告被有效点击次数,分总点击量和排重点击量。

转化量:包括注册、激活、创角等,有转化总量和排重转化总量之分,下面指标中出现的转化量均值排重转化量。

登陆量:一般是retargeting广告(老用户召回)时出现。

CPA:Cost Per Action,每行动成本,常用于计算每注册成本。

CPL:Cost Per Lead,每潜在用户获取成本,获取一个潜在用户信息对应的价格。

CVR:Click Value Rate,广告点击转化率,即广告转化次数站广告点击次数的百分比。

召回率:在重定向广告中,被重定向的用户通过广告重新注册或登录的数量占总重定向用户的数量多比例。

ROI:Return On Investment,投资回报率。即特定周期内,广告主通过广告投放收回的价值占广告投入的比例。一般ROI都会带上周期,如日ROI,月ROI等。

留存用户数:留存用户指未来一段时间内再次登录的用户,通常会带上时间周期。

活跃用户数:活跃用户无标准定义,活跃用户可能是未来一段时间内再次登录或多次登录的用户,通常也会带上时间周期。一般等于留存用户数。

付费用户数:成功付费的用户数量。

充值金额:付费用户成功付费的总金额。

DAU/WAU/MAU:Daily/Weekly/Monthly Active User,每日/周/月内成功登录的总用户,需要按账户ID排重。

ARPU:特定周期内,活跃用户的平均付费金额。

ARPPU:特定周期内,付费用户的平均付费金额。

留存率:特定周期内,留存用户数量占广告导入的注册用户数量的比例。

活跃率:特定周期内,活跃用户数量占广告导入的注册用户数量的比例。

付费率:特定周期内,付费用户数量占广告导入的注册用户数量的比例。

留存成本:单个留存用户的获取成本,即获取一个留存用户对应的广告费用。

活跃成本:单个活跃用户的获取成本,即获取一个留存用户对应的广告费用。

付费成本:单个付费用户的获取成本,即获取一个留存用户对应的广告费用。

LTV:一段时间内用户生命周期总价值。LTV=统计周期内充值金额/注册量。

品牌指标

  • 广告可视度(Viewability):只要广告曝光到广告位就会产生费用,而不管用户是否看到广告。广告可视度指广告出现在窗口可见区域的广告曝光量占广告曝光量的比例。

    • 对测量对象的基本要求:在客户端计数;过滤非人类流量和无效流量;缓存清除技术;区分明显的(机器人)自动刷新行为与人为活动;区分被遮挡及不在显示区域的曝光;广告素材的曝光数据透明性;媒体、广告投放平台、广告网络和广告交易市场的流量透明性。
    • 特殊要求:用户与广告之间产生了互动的情况下,该广告也可定义为可见曝光。鼠标悬停或点击视频广告的播放按钮等行为不算有效互动。
    • 对可见曝光的计算要求:
      | 广告类型 | 面积 | 时长 | 窗口要求 |
      | —————— | —— | —– | ——– |
      | PC展示广告(普通) | >=50% | >=1s | 可视空间 |
      | PC展示广告(大) | >=30% | >=1s | 可视空间 |
      | PC视频广告 | >=50% | >=2s | 可视空间 |
      | 移动展示广告 | >=50% | >=1s | 可视空间 |
      | 移动视频广告 | >=50% | >=2s | 可视空间 |
  • 广告可见的TA浓度(Viewable TA%):TA即Target Audience,TA%表示目标受众占广告投放曝光总人群的比例。

  • 广告可见的TA到达率(Viewable TA N+Reach):
    • TA 1+Reach:净到达率,指目标市场中看到广告1次或1次以上的目标受众占总目标受众的比例。
    • N+Reach:指目标市场中看到广告N次或N次以上的目标受众占总目标受众的比例。同一受众看到广告的次数关系到该广告或者品牌对受众的影响程度。
  • 广告可见的互联网总收视点(Viewable Internet Gross Rating Points, IGRP):=平均曝光频次*到达率*100
  • 独立访客数(Unique Visitor):特定时间内访问页面点虚拟自然人(客户端标识)的总数。
  • 跳出率(Bounce Rate):只浏览了入口页面就离开的访问量占进入该页面的总访问量的比例,衡量该页面对用户的吸引力。
  • 频次(Frequency):控制频次以提升广告展示的有效性。例如对每个UV的广告曝光频次不超过3次。
  • 二跳率(2nd-click Rate):二跳是指浏览入口页后在页面上产生的首次有效点击,二跳率是二跳量占进入该页面的总访问量的比例。
  • CPUV(Cost Per UV):广告曝光中获取一个UV的价格,=广告消耗金额/UV数。
  • CPE或CPEV(Cost Per Engagement/ Cost Per Engaged Visit):获取一个用户互动行为对应的价格。
  • CPH(Cost Per Hour):受众对广告的浏览/互动时长的成本。可以考核受众对广告的关注度、兴趣度和活跃度,代表了广告对受众品牌意识的影响力。
  • 互动率(Engagement Rate):衡量广告投放中用户在广告素材或者站内的交互(点击、分享、在线体验、站内搜索等)度与参与度。
  • 回搜率(Search Conversion):看过广告的用户中,之后一段时间在各个平台搜索广告主相关关键词的用户数占比,用来衡量品牌广告对用户品牌认知的提升程度。
  • 品牌安全(Brand Safety):品牌的美誉度对投放环境的要求非常高。广告主通过广告验证平台过滤敏感或非法的关键词/页面。
  • 反作弊(Anti-Fraud):效果广告主衡量短期效果时已经可以把大部分作弊流量屏蔽掉,品牌广告主的考核指标比较容易被作弊。
  • 无效流量验证(Invalid Traffic Verification):作弊流量只是无效流量中的一部分,无效流量的曝光不能计入可见曝光。
    • 常规无效流量(General Invalid Traffic, GIVT):
      • 非浏览器用户代理头或其他形式的未知浏览器带来的流量
      • 来自声明的机器人爬虫的流量
      • 依据投放项目维度的参数设定,超出合理访问频度、访问时间间隔等目标设定的流量
      • 已知的来自数据中心的执行了预加载且没有指定加载后触发时间的流量
      • 媒体方发起的对广告主提供的点击链接的定期例行检测流量
      • 来自已知高危作弊来源的流量,依据预设列表判断
      • 带有非法参数及字符的流量,包括通过伪造等非正常手段生成的唯一标识等关键参数
      • 基本信息缺失或信息矛盾的流量
    • 复杂无效流量(Sophisticated Invalid Traffic, SIVT):需要通过高级分析、多方合作乃至人工介入等方法,以及广告投放活动以外更大范围的数据信号才能分析和辨识的无效流量。
      • 高度模拟真人访客的机器人和爬虫流量
      • 广告插件、恶意软件产生的流量
      • 被劫持的设备产生的流量
      • 虚拟设备中产生的流量
      • 被劫持的广告代码产生的流量
      • 广告伺服时故意隐藏、叠加,掩盖、自动刷新或使过程模糊
      • 通过作弊代理服务器产生的流量
      • 以金钱补偿为动机的操纵测量数据行为
      • 伪造的可见性曝光判定属性参数的流量
      • 篡改或重复使用窃取获得的Cookie信息的流量
  • 第三方监测差异(Discrepancy):DSP的投放效果是否达标,不仅在于DSP平台统计的数据,还需考核该数据与第三方监测数据之间的gap值。

广告投放

投放程序化广告时,在不同环节可采取的透明措施有:合同透明,采购成本透明,流量信息透明,广告投放流程透明,数据透明,收费模式透明。

1.投放计划

人群策略

  • 老用户,站内人群重定向:
    • 普通重定向:对不同行为的人群标签展示差异性广告创意
    • 个性化重定向:根据每一个用户的不同行为推送个性化广告,包括否定重定向(在周期内不对用户推送已购买过商品的广告。)
  • 新用户,站外人群扩展:
    • 基础定向:地区定向、设备定向、客户端定向
    • 人群标签定向:预定义人群标签包括社会化属性、兴趣爱好、购买倾向等;自定义人群标签时根据广告主目标受众提炼出来的用户群体。
    • Look Alike:以重定向用户作为种子用户,并根据用户特性查找相似特性的人群。
    • 搜索词用户

广告主数据主要用于重定向,广告投放业务数据及第三方数据主要用于拉新。根据Who用户属性、When用户行为对应的时间、Where用户来源、What用户行为、How用户质量。

媒体策略

媒体策略的原则是:积极正面(页面环境:页面内容、广告数量,媒体质量:质)、高覆盖(媒体质量:量)、强曝光(广告面积:占比、尺寸,屏幕位置:首屏、非首屏,广告形式:banner、video、native)。

动态创意:通过程序化创意平台批量生成创意,统计每个创意对应的数据,并应用到优化决策上。

A/B测试:用数据决定最终采用哪个版本。

转化路径:落地页内容要与创意匹配。

2.广告投放执行

审核

PS的资质文件;审核前无声音审核后有声音的banner;素材审核通过后更换违规素材;素材针对审核人员所在地进行特殊切换;素材审核通过后替换落地页内容。

广告投放阶段

技术对接测试阶段(1到3天),策略测试阶段(3天到1周),策略优化阶段(1周到1个月),稳定放量阶段(1个月以上)。

活动设置

  • 基础设置:出价、预算、日期时间、投放速度、频次控制(控N追N-1即频次控制为N,并使尽可能多的人看到N-1次广告)。
  • 媒体设置:交易模式、广告交易平台、媒体分类、媒体URL、尺寸、广告位、广告位类型、广告可视度、页面广告位数量、屏次、页面内容。
  • 定向设置:社会化属性、兴趣爱好、购买倾向、地区、客户端、运营商、设备、网络类型、上网场景、LBS、天气、搜索人群。

  • 创意设置:循环轮播、按顺序展示

  • 其他设置:第三方监测、品牌保护、反作弊

3.数据分析及优化调整

维度指标分析

  • 时间:绝对时间(真实时间)、相对时间(最近多久)
  • 维度:维度级别(大的分类)、维度成员(维度里面具体的值)
  • 指标:绝对指标(数值)、相对指标(数值间的差异)

数据分析方法

  • 对比:同比、环比、横比、纵比
  • 细分:人群特征、时间、媒体、创意、其他维度
  • 归因:分广告归因和站内归因。归因模型有:末次转化、平均分配、时间衰减、价值加权、自定义

数据异常分析

  • 广告活动投放不出量
    • 所有AdX/SSP的广告活动放不出量,可能是DSP出现如下问题:服务器异常、投放代码异常、统计服务异常、CDN服务异常。
    • 某个AdX/SSP的广告活动放不出量,可能是:DSP欠费,投放链接失效。
    • 某个广告主所有广告活动放不出量,可能是:广告主账户欠费,预算已达上限。
    • 某个广告主某个AdX/SSP的广告活动放不出量,可能是:资质问题。
    • 某个新建广告活动出价数为0:需检查创意、排期、预算、出价。
    • 某个新建广告活动竞得率为0:需检查出价、创意。
    • 某个正常投放广告活动出价数突然为0:需检查出价、排期、预算、流量、创意。
    • 某个正常投放广告活动竞得率突然为0:需检查出价、创意。
  • 正常投放的广告活动流量很少
    • 投放量很少则看出价率。
    • 出价率正常则看竞得率。
  • 投放价格异常
    • CPM异常:竞争突然变激烈。
    • CPC异常:创意的生命周期、广告作弊。
    • CPA/CPI/CPL异常:广告被劫持、跳转落地页异常。

相关技术

越南游记

Posted on 2019-10-01 | In 树洞

​ 肉身翻墙到东南亚也算告一段落了,那就随便写点什么,想到什么就记录什么。越南是我去的第二个国家,也是第一个长时间旅居的国家,算是比较了解吧。据说半岛四国,老挝愚笨,柬埔寨木讷,泰国佛系,越南凶狡。我对此持保留态度,承认地理环境的影响,但不认为是决定性的,还是要看教育吧。

人口

男女比例

​ 按照官方口径,越南总体男女比例是49.7:50.3,但越南同事们的自我感觉是女生比男生多很多/从20世纪40年代至90年代,越南先后和日本、法国、美国、柬埔寨、中国交战,战争中男性大量死亡,打到女性上战场。

​ 儒家文化本就重男轻女,男丁稀缺,导致这个情况特别严重。按照越南同事们的说法,家里生了个男孩,就像上天赐下一个宝藏一样,妈妈和姐姐们都会惯着他。至于为什么没有妹妹,大概是生到男孩就可以结束了吧。如果继续生的话,可能妹妹也要惯着他。蜜罐里长大的越南男孩,懒惰且心里承受能力差。工作进度比女性低一截,工作上别说骂不得,你一皱眉,人就可能要哭了。越南男生废物点心到什么程度呢,在一个重男轻女的国家,女性在职场不会受到歧视,因为男生太烂泥扶不上墙了。

年龄结构

​ 这是一个非常年轻的国家。如果说中国看着日本人口老龄化带来了各种问题的话,那将来就是东南亚的国家这样看中国。越南年轻人简直多到泛滥。不说大街上呼啸成群的摩托车,每个小公司的独栋的办公小楼,至少有两名保安轮值日夜班。

文化

宗教

​ 我见过的宗教场所有佛教、道教、基督教、伊斯兰教、印度教和曹岱。这里我想吐槽一下曹岱。在中国,佛教和道教互相融合;在印度,印度教吞并了佛教。但是,曹岱,一个神奇的宗教,儒、道、佛、上帝都包含了。三位圣徒是孙中山和雨果还有一个越南人,其他重要人物还包括了列宁、穆罕默德、摩西、莎士比亚、凯撒、贞德、伯里克利……当你以为长江以北是韩国,长江以南是越南,中国人在长江里游了5千年的时候,我很好奇曹岱包含草履虫和恐龙了么?比起曹岱,玉皇殿中,如来与玉帝前后挤在一间屋子里,中间就竖个小屏风,也就不是很惊讶了。

迷信

​ 其实在我看来,没有与时俱进的宗教都算迷信。但是为了尊重有信仰的朋友,我还是分开来写一下。虽然我在追女孩子的时候,我也会去鸡鸣寺,会看星座,但是我只有恋爱脑的时候才会看这些。越南人就不一样了,人把迷信活动贯彻到了生活的方方面面。就我所见,每个越南人家or餐馆都会供神像。中国的神笼一般高高在上,他们放在地上,很接地气?商业伙伴谈合作的话,一切都谈妥了,还要来你公司看看风水好不好,如果不好合作可能就要黄了。

​ 在东南亚还听了一堆邪性的鬼故事,但是我没遇到过。可能我去过玉皇殿烧了香烛,算是拜过码头了?但是我现在去宗教场所,求的都是阿鲸。在我来越南前,我们公司原来那栋楼,越南人说在地下车库看到过两次鬼,做了一场法事。据说后来又有点不干净,大家讳莫如深的样子,反正我是没看到过,可能因为阿鲸给我系了根平安绳吧。

幸福

​ 越南人是拒绝加班的。是加班工资不到位还是赚了钱就要享受生活,给我的感觉是后者吧。不用到休息日,每天晚上路边的大排挡(要好吃)总是人满为患。餐客们需要生活,餐饮从业者们也要。所以自营的餐馆,菜单是每天换的,吃啥看老板心情。具体到一餐,比如烤鸡饭,是鸡腿还是鸡翅还是鸡块,有多少量,看厨师心情。到了晚上你一连点了几个都没有,那就是看了采购员的心情。

​ 越南人每天真的很快乐,不是笑嘻嘻是笑哈哈。即使贫富差距极大,即使这个国家很不发达。幸福与否真的和钱没关系。可能是因为快来吧,越南这么落后的医疗卫生,人均寿命却和中国持平。我给越南人科普加班修福报,人家觉得你们中国人疯了。

easy girl

​ 我没去过闹吧、夜店、spa,所以以下内容不是一手资料:

  • 陪酒小姐15元人民币就会陪你喝
  • 娼妓是240元人民币一小时
  • 只要你出钱,就没有正规SPA。有的人是被技师按,有的人是按技师。
  • 越南女生看到白皮,不管是不是垃圾,会非常炙热的贴上去。

以下内容是我亲身经历:

  • 我非常受我司客服小姐姐们欢迎,老板开玩笑说我已经影响她们工作效率了。
  • 可能是我太保守,我觉得和我一层的越南已婚花木兰,玩笑开的蛮越界了。
  • 滨城市场吃完饭出来,被宣传小妹追着去做SPA,还好我跑得快。

政府

腐败

​ 越南最大的赌场,是公安部的中将少将开的,当然现在已经被端了。老板有次去四郡(黑帮郡,越南人晚上都不敢去)见银行中军方的人,他在那开了一家餐馆。前头人家会见的是黑帮大佬,毒品贩子,妓院老鸨。

​ 贫富差距极其悬殊,富者田连阡陌,贫者无立锥之地。我们办公楼租了一栋大别墅,房东开着摩托车来,有一塑料袋袋钥匙。豪言道,这一片区域,这种装修风格的房子都是我家的。而不远处的西贡河边,还有很多人在江边滩涂搭着必为秋风所破的小屋。

公共服务

​ 胡志明市的地铁,和日本住友一起造的,七年了,市中心的工地还烂尾着。中国人在河内,后发先至地造完了。胡志明的车道多为二车道、四车道且很少有人行道。路况很拥挤,好在没啥小区、围墙,主要都是摩托车,所以虽然堵车,但是还没有到完全无法接受的地步。新开发的区块,差不多都是六车道吧。胡志明市的公交巴士很少与街上摩托车洪流,对我外国人来说,这是先有鸡还是先有蛋的问题。

​ 路上少有垃圾桶与公测,等于路上哪儿都是垃圾桶与厕所。前者导致你经常能看到老鼠和爬虫,后者导致你经常能看到随地小便。所以这儿的老鼠膘肥体壮(猫的个头倒是很小),充满活力,到处乱窜。非富人区的排水系统也很稀烂,雨季遇到大雨,很多人家里会被倒灌,路面积水可以划船。那么三年两头的爆发一下疫情,也就果然如此吧。

​ 胡志明飞富国岛的航班,在飞机上,我看到邻座的中国人兜里有个打火机。在马路上维护交通秩序的除了少量交警,还有一种叫做“马路英雄”的有活力民间组织。

安全

​ 飞车党多到我养成了不在路上玩手机的习惯。4个月内,个人亲身经历了一次未遂的抢劫,身边的朋友、同事,被抢了有5、6次吧。有闯红灯抢劫的,也有抢劫未遂继续尾行的。反正女孩子的话,最好还是不要单独行动,不管男生女生,都要财不外露。

​ 快离开的时候,有个同事的信用卡被盗刷了1200美元,扯皮下来要4个月才能有结果。看来我在越南用现金而不是银行卡是一个明智的选择。这边的银行前不久还被黑客攻破过。当然中国人搞的第三方支付公司,还能通过SQL注入在网站上爬后台交易记录。一家有合作的银行,碰上系统有bug,就要等美国爸爸来修。嗯,反正一切都进度很慢的样子。

工业

​ 工业落后,进口关税畸高。在越南版的宜家,中国产的塑料垃圾桶100元人民币,小坡塑料闹钟120元人民币。据说豪车的关税是120%,商场内的酒明显比中国贵一截。我司的镂花大铁门,说是5万美金一扇。塑料袋倒是挺发达的,买个啥都要给你一个塑料袋。当然我出于环保,尽量都是拒绝的。

现金贷

此处暂时不展开吐槽友商和我司了吧

逻辑回归评分卡模型开发

Posted on 2019-08-29 | In Data Analysis

背景说明

Logistic回归开发的评分卡模型主要用于信贷产品的申请(Application)和贷后(Behavior)环节。

  • 优势:可解释性、稳定性
  • 劣势:准确率不及深度学习

模型开发流程

  1. 检查数据
    • 单变量检查
    • 变量间逻辑关系检查
  2. 设计模型
    • 时间窗口选定
    • 行为表现定义
  3. 衍生变量
    • 基于原始变量衍生一系列建模变量
  4. 抽样与设置权重
    • 随机抽样
    • 设置权重
    • Train & Test
  5. 细分箱
    • 变量细分箱
    • 计算WOE值与IV
  6. 变量筛选
    • 删除IV值较低的变量
    • 删除与业务含义不符的变量
  7. 粗分箱
    • 细分箱合并为粗分箱
  8. 转换WOE值
    • 各变量分箱栏位原始值转换为WOE值
  9. Logistic回归
    • 拟合模型参数
  10. 评分标准化
    • 计算各变量分箱栏位对应得分
  11. 验证模型
    • 模型区分能力
    • 模型排序性
    • 模型稳定性
  12. 模型部署上线

检查数据

  • Garbage in, garbage out. 第一步永远是进行数据检查与分析。
  • 需要良好的沟通能力去与业务部门、数据库等部门进行沟通
  • 此过程有利于对业务发展、业务特点进行理解,有利于后续的建模工作

单变量检查

  • 所有的原始变量都需要检查,如:还款月份、申请时间、还款频率、逾期状态等。

变量间逻辑检查

  • 单个变量时间逻辑检查。如:逾期状态前后滚动的跳跃情况,上月逾期M1,本月不可能逾期M4
  • 多个变量间的逻辑检查。如:贷款申请月份+贷款期限=贷款结束时间。

数据分布

  • 总量、缺失量、缺失占比
  • 均值、中值、标准差、最小值、最大值与各分位点值

数据处理

  • 奇异值、极端值、缺失值处理。(评分卡式建模无需处理)

设计模型

定义表现

滚动率(Roil Rate)分析:统计账户从上个月的逾期状态变动到这个月的逾期状态的占比情况,寻找占比稳定的逾期状态。一般当逾期占比大于50%时,可以将该逾期定义为坏。传统银行的坏定义在逾期四期及以上(M4和M4+),互联网产品根据产品的实际情况会短很多。

滚动率分析

确定时间窗口

  • 确定观察期时间
    • 主要依赖于建模数据量的要求,如建模样本中的坏至少有500个
    • 避开特殊时间,如春节导致的节假日效应
    • 避开巨大的产品变动
  • 确定表现期时间长度:帐龄分析(Vintage)
    • 帐龄(Mob)=账单结算月份 - 账户开立月份,单位:月份
    • 统计各个帐龄上,表现为坏账户的累计占比情况,寻找占比增长稳定的月份
    • 长度上会按季度选择,如6、9、12、15个月等,传统银行一般表现期在12个月以上,互联网产品会短于一年,现金贷产品一般10天左右就足以表现出坏。

设计子模型

  • 子模型细分的原因
    • 行为表现本身的差异化
    • 让模型更稳定
  • 基于业务经验的子模型
    • 新老客户
    • 产品类型:payday,消费贷,车贷…
    • 还款方式:等本等息,先息后本…
  • 基于数据驱动的子模型
    • 决策树

衍生变量

申请评分

  • 传统银行:信贷申请信息+央行信用报告
  • 互联网产品:信贷申请信息+手机通讯信息+app操作信息+第三方数据

行为评分

  • 传统银行:贷后数据+央行信用报告+历史逾期情况+当前负债情况+帐龄+个人信息
  • 互联网产品:贷后数据+手机通讯信息+app操作信息+第三方数据

注意事项

  • 基于现有数据衍生出足够多的变量,如:计算对应的均值、最大值、最小值和比例
  • 需要在时间维度衍生变量,如:基于逾期状态可以衍生出最近3个月最大逾期状态、最近6个月最大逾期状态
  • 由于金额类变量不稳定且易手通货膨胀等因素影响,因此金额累变量需要通过计算比例以消除该问题,如:根据贷款金额和收入计算贷款金额收入比
  • 不能衍生无法解释,没有业务含义的变量
  • 特殊取值需要定义特殊值,如缺失和未知需要分开,比例型变量中分母为0或缺失和分子为缺失时需要分开赋值。

抽样与权重设置

随机抽样

  • 好/坏样本不足5k:不抽样,全部用于建模。
  • 好/坏样本大于5k:各抽取5k用于建模。5k是经验值,也可以坏样本全部入模,好样本部分抽取。

设置权重

  • 不抽样:权重均为1
  • 抽样:
    • 好权重 = (好全量+不确定全量) / 好样本量量
    • 坏权重 = 坏全量 / 坏样本量

Train & Test

Train 70%, Test 30%.

细分箱

采用传统评分卡建模方式是不采用原始值进行回归拟合的,而是将原市值转换成WOE(证据权重,Weight of Evidence)值进行logistic回归。信息值(Information Value)是反映各变量对于好坏样本识别能力的指标。

变量细分箱

计算WOE值前,先需要将变量分成若干个栏位。

  • 对于字符型变量,一般每个取值都作为单独的一栏。
  • 对于数值型变量,有多种划分方式,建议采用CART决策树。为了保证分箱稳定,每个分箱一般不小于5%。

计算WOE值与IV

$$ WOE_i = ln( \frac{Good_i}{Good} / \frac{Bad_i}{Bad} ) $$

WOE值越大,表明该栏位中好样本占比越高。

$$ IV = \Sigma( \frac{Good_i}{Good} - \frac{Bad_i}{Bad} ) * WOE $$

IV越大,则该变量在好坏样本上的区分力越大。

Goodi 是第i 个栏位对应的好样本数,Good是好样本总量,Badi是第i 个栏位对应的坏样本数,Bad是坏样本总量。

woe iv

变量筛选

  • 剔除IV值过低的变量:普遍当变量IV值低于0.02时,认为该变量对于好坏样本的区分能力较弱,可以剔除。该阈值是经验值,在实际操作中,根据候选变量的情况可进行调整。
  • 剔除变量趋势和业务逻辑不符的变量:所有变量的WOE值变动趋势要复合业务逻辑,如果WOE值不符合该趋势变动,则该变量不能用。如已婚人士的WOE值应高于未婚人士。
  • 剔除粗分箱后IV值下降超过30%的变量:如果在变量分箱过程中,强制合并两个有差异的栏位,导致IV下降过多,则最后的模型评分容易导致排序性混乱或不稳定。
  • 剔除集中度过高的变量:如某一取值分箱的占比超过98%。

粗分箱

之前的WOE值的分箱是在自动分箱(细分箱)的结果上计算的。因此需要依据细分箱的WOE结果,结合业务和数据分布对该变量进行粗分箱调整。目前,由于收到监管机构要求可解释性,绝大部分金融机构都是手动调整变量分箱。

变量分箱主要从以下方面考虑:

  • 考虑WOE值是够单调递增或递减,特殊情况下可以接受U型或倒U型。
  • 每个变量栏位上的客户数不能太少,否则不稳定。
  • 每个变量栏位上的WOE值要能区分开,否则最后每个栏位得分相近没有区分度,相邻栏位的WOE值相差至少0.1。粗分箱的栏位建议在5个左右。
  • 从细分箱到粗分箱到过程中,IV不能下降太多(10%),否则会流失变量的区分能力。
  • 粗分箱的栏位值要结合变量的业务含义。如月份类型的变量可以考虑3个月,6个月等作为栏位边界值;而百分比变量则可以考虑在25%,33%,50%等值作为栏位的边界值。

woe iv

转换WOE值

WOE值转换是把各变量个栏位上的取值转换为对应的WOE值。之后的logistic回归拟合将采用WOE值。

转换完WOE之后,如果候选变量依然较多,可以从变量池内所有可能的变量中,初步确定最有预测能力的变量组合。采用的方法有:使用xgboost计算feature importance,采用重要的变量和逐步判别法等。

Logistic回归

  • Logistic回归系数必须为负数:这是因为最后的评分会算到每个变量栏位上,为了保证每个变量的栏位趋势得分符合业务逻辑,所以所有入模变量的回归系数必须均为负数。
  • Logistic回归系数的P值必须通过检验:普遍P值不能高于0.05,当模型受到局限性时,可以放宽至0.1。
  • 方差膨胀系数(variance inflation factor)必须通过检验:入模变量间不能存在相关性,因此需要对这部分变量进行VIF检验。普遍要求入模变量的VIF不超过4,当模型受到局限性时,可以放宽至10。同时,因为入模变量最后是转换成WOE值去拟合,因此部分变量会存在业务含义看上去具有相关性,但是VIF通过检验的情况,这时可以进行一定的取舍。
  • 尽量选择变量栏位、维度多样性,业务含义直观的变量:在候选变量充足或者有几个变量贡献相当但是不能兼容时,尽量选择变量栏位、维度多样性和业务含义直观的变量,这一方面能使模型更具有区分力和稳定性,也能使模型具有更好的解释性。

评分标准化

评分转换逻辑

需要设置标准分,标准odds和PDO三个参数,分数需取整。通常通过假设的方法求解A和B。假设500分时,对应的odds是1,每20分odds翻倍,则原公示可表达为

1
2
500 = A + B * ln(1)
520 = A + B * ln(2)

解得A=500,B=28.85。

通常把A称为标准评分,标准评分对应的odds称为标准odds(这里是1),而每多少分对应的odds翻两倍称为PDO(Points to Double the Odds,这里是20)。标准评分,标准odds和PDO都可以根据情况修改。

评分卡生成逻辑

评分卡标准化过程,需要从logistic的计算公式出发:

$$ P_1 = \frac{1}{1+e^{-Z}} $$, 其中$$ z = \alpha + \beta_1 x_1 + \beta_2 x_2 + … + \beta_n * x_n $$

推导公式可获得:$$ z = -ln(\frac{P_0}{P_1}) = -ln(odds) $$

此时,我们可认为ln(odds)和变量X之间是线性关系。

$$ Score = A + B ln(odds) = A - B z $$

  1. 每个变量各栏位的评分

    $$ X{11tmp} = -B 系数1 WOE{11},\ X{12tmp} = -B 系数1 WOE{12}\ \ …$$

    $$ X{21tmp} = -B 系数2 WOE{21},\ X{22tmp} = -B 系数1 WOE{22}\ \ …$$

  2. 每个特征的最小得分求和

    $$ summin = \Sigma{X1{tmpmin} + X2{tmpmin} + … + Xn_{tmpmin}} $$

  3. 常数项处理

    $$ avgscore = (A - B * 系数0 + summin) / n $$

  4. 每个变量分栏的最终得分

    $$ X{11}=round(X{11tmp} - X1_{tmpmin} + avgscore) $$

    $$ X{12}=round(X{12tmp} - X1_{tmpmin} + avgscore) $$

验证模型

  • 数据集:
    • Train:建模数据
    • Test:验证数据
    • OOT(Out Of Time):选取建模样本时间之后的另外一个时间点验证
  • 统计指标:
    • 区分能力:KS,ROC,Gini等
    • 综合表现:评分排序性
    • 稳定性:PSI

区分能力

  • KS(Kolmogrov-Smirnov)值:取出每个分数上累计坏样本占比和累积好样本占比的最大差值。该值越大越好,普遍认为当KS大于30%时,模型具有区分能力;当KS值大于50%时,模型具有较好的区分能力。

ks

  • ROC曲线(Receiver Operating Characteristic Curve):累计好样本占比对应累计坏样本占比曲线。AUC(Area Under Curve)是该曲线下面积。该值越大越好,普遍认为当AUC大于70%时,模型具有区分能力;当AUC值大于80%时,模型具有较好的区分能力。

auc

  • Gini = 2 * ROC - 1,该值越大越好。

评分排序性

评分排序性是模型评分能力的综合考量。评分结果应该是随着分数的增加,坏账率应该越来越低,同时在每个评分点上,人数占比也要均匀分开,单个评分点上的人数占比不能大于5%。一般会把评分结果按样本数评分成十等份,分别计算其对应的好/坏样本数、坏账率等。

sort

模型稳定性

通过传统评分模型获得结果的一大优势就是稳定性,评分稳定性通过PSI(Population Stability Index)体现。

$$ PSI = \Sigma{ (\%test_i - \%train_i) * \ln(\%test_i / \%train_i)} $$

对最终的评分计算PSI时,先会将Train上的数据集根据样本数平分成十等份,%Traini即对应分数区间上人数占比,在分数区间不变的情况下,计算Test数据集的人数占比即为%Testi。同理计算OOT数据集。

PSI值也可以用于变量稳定性的计算,只要将分数区间换成变量的栏位区间即可。

⼀般⽽言,当PSI⼩于0.1时,评分结果非常稳定,当PSI大于0.25时,评分结果不稳定。

模型部署上线

  1. 模型开发完成后,由技术部⻔门负责模型的部署上线
  2. 模型开发者需要提供模型开发⽂文档,特别是评分卡内容和变量量取值计算逻辑
  3. 模型部署上线之后,一般不会直接采用模型结果,普遍让模型独立运行3-6个月,和原来的处理方式做比较,确认结果之后上线。

Untitled

Posted on 2019-08-05

Regression Methods

PennState Eberly College of Science STAT 501

Lesson1 : Simple Liner Regression

健身餐

Posted on 2019-04-23 | In Health

资料来源:营养师大王

代餐

  • 年货 日本进口零食 水产北海道长脚即食蟹肉棒蟹肉卷手撕蟹柳15根【包邮】

    【在售价】35.00元

    【下单链接】https://m.tb.cn/h.eYXMRSv

    ————————

    复制这条信息,¥AxwdY0fvSDF¥,到【手机淘宝】即可查看

  • 杨生记卤蛋30G*30袋 鸡蛋 泡面搭档 卤蛋 休闲零食

    【在售价】36.00元

    【下单链接】https://m.tb.cn/h.eYq77DT

    ————————

    复制这条信息,¥tFxLY0fBuco¥,到【手机淘宝】即可查看

  • 俄罗斯土豆泥粉进口方便食品早餐休闲宿舍速食代餐即食40g6杯桶装【包邮】

    【在售价】33.80元

    【下单链接】https://m.tb.cn/h.ebtCZt0

    ————————

    复制这条信息,¥PBH4Y0fC1D8¥,到【手机淘宝】即可查看

  • 6大袋 东北农嫂玉米粒罐头即食甜玉米粒水果玉米粒烙新鲜沙拉插条

    【在售价】29.90元

    【下单链接】https://m.tb.cn/h.eYq6jru

    ————————

    复制这条信息,¥vLjmY0fDxWY¥,到【手机淘宝】即可查看

  • 【Dole都乐】非转基因甜玉米粒30袋 水果型即食玉米 单袋约60g【包邮】

    【在售价】139.00元

    【下单链接】https://m.tb.cn/h.eY7v3Fk

    ————————

    复制这条信息,¥zZ3QY0fDAK1¥,到【手机淘宝】即可查看

  • 星派 真空小包装倒蒸红薯干1000g农家地瓜条软糯番薯干自制无糖精【包邮】

    【在售价】26.90元

    【券后价】23.90元

    【下单链接】https://m.tb.cn/h.eYXpnwd

    ————————

    复制这条信息,¥poTEY0fwJkK¥,到【手机淘宝】即可查看

  • 优追麦克斯特级原味鸡肉丸子80g1包代餐即食低脂肪高蛋白健身食品

    【在售价】7.90元

    【下单链接】https://m.tb.cn/h.eY7G8gI

    ————————

    复制这条信息,¥Ou9uY0fw4D8¥,到【手机淘宝】即可查看

  • 三文鱼肠低脂肪火腿肠虾肠鳕鱼棒鱼肠卡热量健身代餐即食0零食品【包邮】

    【在售价】46.80元

    【券后价】41.80元

    【下单链接】https://m.tb.cn/h.eYXLKdH

    ————————

    复制这条信息,¥B2PtY0fvHeV¥,到【手机淘宝】即可查看

  • 健元堂三文鱼肠低脂火腿肠虾肠鳕鱼棒鱼肠运动健身代餐鱼类零食品【包邮】

    【在售价】49.90元

    【券后价】44.90元

    【下单链接】https://m.tb.cn/h.eY70AEZ

    ————————

    复制这条信息,¥wQtZY0PsARo¥,到【手机淘宝】即可查看

  • 预售【橙子快跑】水煮鸡胸肉健身代餐即食高蛋白健身食品8袋装【包邮】

    【在售价】69.90元

    【券后价】39.90元

    【下单链接】https://m.tb.cn/h.eY04Ty4

    ————————

    复制这条信息,¥2UnjY0PxRbD¥,到【手机淘宝】即可查看

  • 【20根】爆燃鸡胸肉肠健身即食刷脂餐轻食鸡肉肠健身零食多蛋白【包邮】

    【在售价】49.60元

    【券后价】39.60元

    【下单链接】https://m.tb.cn/h.eYLWAUd

    ————————

    复制这条信息,¥mDS2Y0Pynv2¥,到【手机淘宝】即可查看

  • 帕尼鸡肉肠60g*10根早餐火腿肠即食鲜美健身鸡肉网红休闲零食小吃

    【在售价】30.00元

    【下单链接】https://m.tb.cn/h.eY0TPFQ

    ————————

    复制这条信息,¥qYCjY0PyNAn¥,到【手机淘宝】即可查看

食谱

以下表格中推荐的食物分量仅包括动物蛋白质,此外每天建议食用含15g蛋白质的豆制品。

  • 含5g蛋白质的低脂豆制品:水面筋(21g),烤麸(25g),豆腐干(31g),内脂豆腐(100g),豆浆(278g),豆腐皮(11g),北豆腐(41g),南豆腐(81g),豆腐脑(263g)。
  • 含5g蛋白质的高脂豆制品:腐竹(11g),豆腐丝(23g),千张(20g),素火腿(26g),素鸡(30g),油豆腐(30g)。

900大卡

餐次 就餐时间 果蔬 蛋白质 主食 备注
早餐 6:30-8:30 0g 鸡蛋50g 杂粮0g 宜蒸煮,勿煎炒
加餐 餐后2-3h 牛奶200ml
午餐 11:30-13:30 200g 180g 杂粮30g 面制品生熟比1:2
加餐 餐后2-3h 水果100g
晚餐 18:00-20:00 100g 150g 杂粮20g 杂粮饭生熟比1:2
运动加餐 运动前1h 水果100g 心肺减脂训练

1300打卡

餐次 就餐时间 果蔬 蛋白质 主食 备注
早餐 6:30-8:30 50g 鸡蛋50g 杂粮30g 宜蒸煮,勿煎炒
加餐 餐后2-3h 牛奶200ml
午餐 11:30-13:30 200g 200g 杂粮50g 面制品生熟比1:2
加餐 餐后2-3h 水果100g
晚餐 18:00-20:00 100g 180g 杂粮40g 杂粮饭生熟比1:2
运动加餐 运动前1h 水果100g 心肺减脂训练

分量说明

每天吃这么多

一掌与两指

一把与一拳

一大捧与一小捧

12…6

Yuanyi Wu

朝闻道 夕死可矣

29 posts
9 categories
30 tags
GitHub FB Page
© 2019 Yuanyi Wu
Powered by Hexo
|
Theme — NexT.Mist v5.1.2