
1) 【一句话结论】构建用户画像需整合用户属性、行为、消费能力等多维度特征,通过机器学习(聚类、分类)分群,依据分群结果制定差异化获客策略,核心是提升获客精准度与转化率。
2) 【原理/概念讲解】
用户画像是将用户信息结构化、标签化的模型,好比给用户建立“数字档案”,包含其基本信息(属性,如年龄、地域、职业)、行为轨迹(行为特征,如浏览、加购、咨询次数)、消费能力(消费能力,如收入、历史消费金额)等,目的是理解用户需求与偏好。
特征工程是从原始数据中提取对模型有用的特征,比如将“浏览时长”转化为“高/中/低”等级,或计算“加购-购买”转化率。
聚类算法(如K-means):无监督学习,将用户分为若干群体,每个群体内用户特征相似(类比:把一群人按身高、体重分成不同小组,每个小组内成员特征相近)。
分类算法(如逻辑回归):有监督学习,根据历史标签(如“高意向用户”“低意向用户”)训练模型,预测新用户属于哪类群体(类比:用“是否购买过”的历史数据训练模型,判断新用户是否可能购买)。
3) 【对比与适用场景】
| 算法类型 | 定义 | 特性 | 使用场景 | 注意点 |
|---|---|---|---|---|
| 聚类(K-means) | 无监督,将数据分为K个相似群体 | 无标签,自动发现群体 | 用户分群(如“年轻家庭用户”“高收入白领”),发现潜在用户特征 | 需预先确定K值,对异常值敏感 |
| 分类(逻辑回归) | 有监督,预测标签(如用户意向) | 需历史标签数据,输出概率 | 用户标签预测(如“高意向用户”),指导获客策略 | 模型假设特征线性关系,复杂场景可能效果有限 |
4) 【示例】
假设用户数据包含:年龄、性别、地域、浏览商品类型、加购次数、历史购买金额。
步骤:
# 数据加载与清洗
data = pd.read_csv('user_data.csv')
data = data.dropna() # 处理缺失值
# 特征工程
data['conversion_rate'] = data['add_to_cart'] / data['browse_count'] # 加购转化率
data['age_group'] = pd.cut(data['age'], bins=[18,30,50,100], labels=['青年','中年','老年'])
# 聚类(K-means)
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3, random_state=0)
data['cluster'] = kmeans.fit_predict(data[['age','conversion_rate','history_amount']])
# 分类(逻辑回归)
from sklearn.linear_model import LogisticRegression
X = data[['age','conversion_rate','history_amount']]
y = data['high_intent'] # 假设已有高意向标签
model = LogisticRegression()
model.fit(X, y)
data['prediction'] = model.predict_proba(X)[:,1] > 0.5 # 预测高意向
5) 【面试口播版答案】
“构建用户画像模型,核心是整合多维度特征,比如用户属性(年龄、地域、职业)、行为特征(浏览、加购、咨询次数)、消费能力(收入、历史消费金额),通过机器学习分群。比如用K-means聚类发现不同用户群体,比如‘年轻家庭用户’(高加购转化率,关注智能座舱)和‘高收入白领’(高历史消费,关注空间),再用分类模型预测高意向用户。依据分群结果,对年轻家庭用户投放智能座舱相关内容,对高收入白领推送空间优化方案,这样能提升获客精准度,提高转化率。”
6) 【追问清单】
7) 【常见坑/雷区】