移动端AI服务调用，当网络不稳定时，如何保证用户体验？请设计缓存策略和容错机制，并说明如何监控服务调用性能。

360移动开发工程师-AI应用方向难度：中等

答案

1) 【一句话结论】
通过“本地+服务端分层缓存+指数退避容错+业务定制降级+全链路监控”的组合方案，在网络不稳定时保障AI服务调用的可用性，同时规避缓存击穿、数据不一致等风险。

2) 【原理/概念讲解】
老师：咱们先拆解核心概念，网络不稳定时保障体验，得从“缓存”“容错”“监控”三方面入手。

缓存策略：缓存是“数据备份”，分“本地缓存”和“服务端缓存”。本地缓存像手机的“离线包”（内存/磁盘存储高频、不常变数据，如AI模型特征库，读取极快）；服务端缓存像“云端备份”（如Redis，分布式存储全局共享数据，如模型版本信息，适合多设备同步）。
容错机制：分三步，快速失败（不可恢复错误，如服务器挂掉，立即返回错误，避免无效等待）；指数退避重试（可恢复错误，如网络波动，第一次重试延迟1秒，第二次2秒，第三次4秒，延迟递增，避免频繁请求加重服务器压力）；服务降级（业务场景定制，如服务调用失败率超阈值，切换到降级策略，保证核心功能可用，如推荐业务降级为热门内容）。
监控方案：指标（请求成功率、平均延迟、缓存命中率、重试次数）和日志（失败日志、重试日志），实时跟踪性能，及时发现问题。

3) 【对比与适用场景】

对比维度	本地缓存	服务端缓存	容错策略（快速失败）	容错策略（指数退避重试）	容错策略（服务降级）
定义	手机本地存储（内存/磁盘）	分布式缓存（如Redis）	网络失败时立即返回错误	网络失败后延迟重试，延迟递增	服务调用失败率超阈值时切换策略
特性	读取极快（内存），写入较慢	读取较快（网络延迟），写入较快	避免无效等待	避免频繁请求加重服务器压力	保证核心功能可用
使用场景	高频、不常变数据（如AI模型参数）	全局共享数据（如模型版本）	不可恢复错误（如服务器挂掉）	可恢复错误（如网络波动）	核心业务（如推荐、搜索）
注意点	需手动清理（LRU淘汰最久未使用数据，如LRU链表+哈希表结合）	需保证数据一致性（TTL过期时间或版本号同步，服务端更新数据时同步更新缓存TTL）	-	初始延迟、指数倍数需结合历史数据实验确定（如初始延迟1秒，指数倍数2，避免重试过快/过慢）	需业务定制（如推荐降级为热门内容，而非mock数据）

4) 【示例】
伪代码（Java风格，简化）：

// 本地缓存（LRU实现：链表+哈希表）
class LocalCache {
    private final int MAX_SIZE = 100;
    private final long CACHE_TTL = 5 * 60 * 1000; // 5分钟
    private final Map<String, CacheEntry> cacheMap = new HashMap<>();
    private final LinkedList<String> lruList = new LinkedList<>();

    private static class CacheEntry {
        Object value;
        long expiry;

        CacheEntry(Object value) {
            this.value = value;
            this.expiry = System.currentTimeMillis() + CACHE_TTL;
        }
    }

    public Object get(String key) {
        CacheEntry entry = cacheMap.get(key);
        if (entry != null && entry.expiry > System.currentTimeMillis()) {
            lruList.remove(key);
            lruList.addLast(key);
            return entry.value;
        }
        return null;
    }

    public void put(String key, Object value) {
        if (cacheMap.size() >= MAX_SIZE) {
            String oldestKey = lruList.removeFirst();
            cacheMap.remove(oldestKey);
        }
        lruList.addLast(key);
        cacheMap.put(key, new CacheEntry(value));
    }
}

// AI服务调用类
class AIService {
    private LocalCache localCache = new LocalCache();
    private static final int MAX_RETRY = 3;
    private static final int INITIAL_DELAY = 1000; // 1秒
    private static final double EXPONENT = 2.0; // 指数倍数

    public Object callAI(String endpoint, Object params) {
        int attempt = 0;
        while (attempt < MAX_RETRY) {
            attempt++;
            try {
                // 1. 本地缓存检查
                Object cachedResult = localCache.get(endpoint);
                if (cachedResult != null) return cachedResult;

                // 2. 服务端调用（模拟50%失败）
                Object result = callServer(endpoint, params);
                if (result != null) {
                    localCache.put(endpoint, result);
                    return result;
                }
            } catch (Exception e) {
                if (attempt == MAX_RETRY) {
                    // 快速失败：重试次数到，返回默认值
                    return getDefaultResult();
                }
                // 指数退避重试
                long delay = INITIAL_DELAY * Math.pow(EXPONENT, attempt - 1);
                Thread.sleep(delay);
            }
        }
        // 降级：业务定制降级（如推荐业务降级为热门内容）
        return downgradeResult(endpoint);
    }

    private Object callServer(String endpoint, Object params) {
        // 模拟网络错误（50%概率）
        if (Math.random() > 0.5) throw new RuntimeException("网络错误");
        return "AI结果";
    }

    private Object getDefaultResult() {
        return "默认结果";
    }

    private Object downgradeResult(String endpoint) {
        // 根据业务场景降级
        if (endpoint.contains("recommend")) {
            return "热门推荐内容";
        } else if (endpoint.contains("search")) {
            return "历史搜索记录";
        }
        return "默认降级结果";
    }
}

5) 【面试口播版答案】
面试官您好，针对移动端AI服务调用网络不稳定的问题，我的方案是构建“分层缓存+多级容错+动态监控”的体系。首先，缓存策略上，采用本地+服务端双缓存：本地缓存用内存存储高频、不常变的AI模型参数（如特征库），读取速度极快；服务端用Redis存储全局模型版本信息，保证多设备同步。然后容错机制分三步：快速失败，网络失败时立即返回错误（比如服务器挂掉，避免无效等待）；指数退避重试，第一次重试延迟1秒，第二次2秒，第三次4秒，延迟递增避免频繁请求加重服务器压力；服务降级，当服务调用失败率超阈值（比如连续5次失败）时，切换到业务定制降级（比如推荐业务降级为热门内容，而非实时推荐）。最后监控，通过指标（请求成功率、平均延迟、缓存命中率、重试次数）和日志（失败日志、重试日志）实时跟踪，比如缓存命中率低于70%时优化缓存策略，重试次数超过3次时分析网络问题。

6) 【追问清单】

问题1：缓存数据一致性如何保证？
回答要点：采用TTL（过期时间）或版本号机制，服务端更新数据时同步更新本地缓存，避免本地缓存与服务器数据不同步。
问题2：重试策略中的指数退避参数如何确定？
回答要点：通过历史请求延迟数据，实验确定初始延迟（如1秒）和指数倍数（2），避免重试过快或过慢，防止服务器压力过大。
问题3：降级策略的触发阈值如何设定？
回答要点：根据业务需求，比如当服务调用失败率超过50%或每秒请求量（QPS）超过阈值（如1000次）时触发降级。
问题4：如何区分客户端网络问题与服务器问题？
回答要点：通过重试机制，若重试后成功则说明是客户端网络问题（如网络波动），若重试失败则说明是服务器问题（如服务器挂掉），从而调整容错策略。
问题5：缓存击穿问题如何应对？
回答要点：采用互斥锁加锁或布隆过滤器过滤空键请求，避免大量请求访问缓存空键导致缓存服务器压力过大。

7) 【常见坑/雷区】

缓存击穿：未考虑大量请求访问空键导致缓存服务器压力过大，应采用互斥锁或布隆过滤器。
重试策略：直接固定次数重试，会导致频繁请求加重服务器压力，甚至引发雪崩，需用指数退避。
数据一致性：本地缓存与服务器数据不同步，导致返回旧数据，应采用TTL或版本号同步更新。
降级策略：降级后返回mock数据不符合业务需求，需根据业务场景定制（如推荐业务降级为热门内容）。
监控指标：仅关注请求成功率，未关注延迟、重试次数等关键指标，无法全面评估服务调用性能。