用户相似度匹配算法的实现

import java.util.*;

// 用户类
class User {
    private String userId;
    private Map<String, Double> ratings; // 商品ID -> 评分
    
    public User(String userId) {
        this.userId = userId;
        this.ratings = new HashMap<>();
    }
    
    public void addRating(String itemId, double rating) {
        ratings.put(itemId, rating);
    }
    
    // Getters
    public String getUserId() { return userId; }
    public Map<String, Double> getRatings() { return ratings; }
}

// 用户相似度结果类
class UserSimilarity {
    private String userId;
    private double similarity;
    
    public UserSimilarity(String userId, double similarity) {
        this.userId = userId;
        this.similarity = similarity;
    }
    
    // Getters
    public String getUserId() { return userId; }
    public double getSimilarity() { return similarity; }
}

相似度计算实现

public class UserSimilarityCalculator {
    
    // 计算两个用户的皮尔逊相关系数
    public static double calculatePearsonCorrelation(User user1, User user2) {
        Map<String, Double> ratings1 = user1.getRatings();
        Map<String, Double> ratings2 = user2.getRatings();
        
        // 找到两个用户都评分过的商品
        Set<String> commonItems = new HashSet<>(ratings1.keySet());
        commonItems.retainAll(ratings2.keySet());
        
        // 如果没有共同评分的商品，返回0
        if (commonItems.isEmpty()) {
            return 0.0;
        }
        
        // 计算平均分
        double avg1 = commonItems.stream()
                .mapToDouble(ratings1::get)
                .average()
                .orElse(0.0);
        
        double avg2 = commonItems.stream()
                .mapToDouble(ratings2::get)
                .average()
                .orElse(0.0);
        
        // 计算分子和分母
        double numerator = 0.0;
        double denominator1 = 0.0;
        double denominator2 = 0.0;
        
        for (String item : commonItems) {
            double diff1 = ratings1.get(item) - avg1;
            double diff2 = ratings2.get(item) - avg2;
            
            numerator += diff1 * diff2;
            denominator1 += diff1 * diff1;
            denominator2 += diff2 * diff2;
        }
        
        // 避免除零错误
        if (denominator1 == 0.0 || denominator2 == 0.0) {
            return 0.0;
        }
        
        return numerator / Math.sqrt(denominator1 * denominator2);
    }
    
    // 计算余弦相似度
    public static double calculateCosineSimilarity(User user1, User user2) {
        Map<String, Double> ratings1 = user1.getRatings();
        Map<String, Double> ratings2 = user2.getRatings();
        
        // 找到两个用户都评分过的商品
        Set<String> commonItems = new HashSet<>(ratings1.keySet());
        commonItems.retainAll(ratings2.keySet());
        
        if (commonItems.isEmpty()) {
            return 0.0;
        }
        
        double dotProduct = 0.0;
        double norm1 = 0.0;
        double norm2 = 0.0;
        
        for (String item : commonItems) {
            double rating1 = ratings1.get(item);
            double rating2 = ratings2.get(item);
            
            dotProduct += rating1 * rating2;
            norm1 += rating1 * rating1;
            norm2 += rating2 * rating2;
        }
        
        if (norm1 == 0.0 || norm2 == 0.0) {
            return 0.0;
        }
        
        return dotProduct / (Math.sqrt(norm1) * Math.sqrt(norm2));
    }
}

KNN用户推荐系统

public class KNNUserRecommendationSystem {
    private List<User> users;
    
    public KNNUserRecommendationSystem(List<User> users) {
        this.users = users;
    }
    
    // 找到与目标用户最相似的K个用户
    public List<UserSimilarity> findKNearestUsers(String targetUserId, int k) {
        User targetUser = findUserById(targetUserId);
        if (targetUser == null) {
            return new ArrayList<>();
        }
        
        List<UserSimilarity> similarities = new ArrayList<>();
        
        for (User user : users) {
            if (!user.getUserId().equals(targetUserId)) {
                double similarity = UserSimilarityCalculator
                    .calculatePearsonCorrelation(targetUser, user);
                similarities.add(new UserSimilarity(user.getUserId(), similarity));
            }
        }
        
        // 按相似度降序排序
        similarities.sort((a, b) -> Double.compare(b.getSimilarity(), a.getSimilarity()));
        
        // 返回前K个最相似的用户
        return similarities.subList(0, Math.min(k, similarities.size()));
    }
    
    // 基于K最近邻用户推荐商品
    public Map<String, Double> recommendItems(String targetUserId, int k) {
        List<UserSimilarity> nearestUsers = findKNearestUsers(targetUserId, k);
        User targetUser = findUserById(targetUserId);
        
        if (targetUser == null || nearestUsers.isEmpty()) {
            return new HashMap<>();
        }
        
        Map<String, Double> weightedScores = new HashMap<>();
        Map<String, Double> similaritySum = new HashMap<>();
        
        for (UserSimilarity userSim : nearestUsers) {
            User similarUser = findUserById(userSim.getUserId());
            double similarity = userSim.getSimilarity();
            
            // 只考虑目标用户没有评分过的商品
            for (String itemId : similarUser.getRatings().keySet()) {
                if (!targetUser.getRatings().containsKey(itemId)) {
                    double rating = similarUser.getRatings().get(itemId);
                    
                    weightedScores.put(itemId, 
                        weightedScores.getOrDefault(itemId, 0.0) + similarity * rating);
                    similaritySum.put(itemId, 
                        similaritySum.getOrDefault(itemId, 0.0) + Math.abs(similarity));
                }
            }
        }
        
        // 计算加权平均分
        Map<String, Double> recommendations = new HashMap<>();
        for (String itemId : weightedScores.keySet()) {
            if (similaritySum.get(itemId) > 0) {
                recommendations.put(itemId, 
                    weightedScores.get(itemId) / similaritySum.get(itemId));
            }
        }
        
        return recommendations;
    }
    
    private User findUserById(String userId) {
        return users.stream()
            .filter(user -> user.getUserId().equals(userId))
            .findFirst()
            .orElse(null);
    }
}

使用示例

public class RecommendationExample {
    public static void main(String[] args) {
        // 创建用户数据
        List<User> users = createSampleUsers();
        
        // 初始化推荐系统
        KNNUserRecommendationSystem recommendationSystem = 
            new KNNUserRecommendationSystem(users);
        
        // 为用户"User1"推荐商品
        String targetUserId = "User1";
        int k = 3; // 考虑3个最相似的用户
        
        Map<String, Double> recommendations = 
            recommendationSystem.recommendItems(targetUserId, k);
        
        System.out.println("为用户 " + targetUserId + " 推荐的商品：");
        recommendations.entrySet().stream()
            .sorted((a, b) -> Double.compare(b.getValue(), a.getValue()))
            .forEach(entry -> 
                System.out.printf("商品: %s, 预测评分: %.2f%n", 
                    entry.getKey(), entry.getValue()));
    }
    
    private static List<User> createSampleUsers() {
        List<User> users = new ArrayList<>();
        
        // 用户1
        User user1 = new User("User1");
        user1.addRating("Movie1", 5.0);
        user1.addRating("Movie2", 3.0);
        user1.addRating("Movie3", 4.0);
        users.add(user1);
        
        // 用户2
        User user2 = new User("User2");
        user2.addRating("Movie1", 4.0);
        user2.addRating("Movie2", 2.0);
        user2.addRating("Movie3", 5.0);
        user2.addRating("Movie4", 4.0);
        users.add(user2);
        
        // 用户3
        User user3 = new User("User3");
        user3.addRating("Movie1", 5.0);
        user3.addRating("Movie2", 3.0);
        user3.addRating("Movie4", 3.0);
        user3.addRating("Movie5", 4.0);
        users.add(user3);
        
        return users;
    }
}

算法优化技巧

1. 评分归一化

不同用户的评分习惯可能不同，有些用户习惯给高分，有些习惯给低分。我们可以对评分进行归一化处理：

public class RatingNormalizer {
    
    // 对用户评分进行归一化
    public static User normalizeUserRatings(User user) {
        Map<String, Double> ratings = user.getRatings();
        
        // 计算用户的平均评分
        double avgRating = ratings.values().stream()
            .mapToDouble(Double::doubleValue)
            .average()
            .orElse(0.0);
        
        // 计算标准差
        double variance = ratings.values().stream()
            .mapToDouble(rating -> Math.pow(rating - avgRating, 2))
            .average()
            .orElse(0.0);
        double stdDev = Math.sqrt(variance);
        
        // 创建归一化后的用户
        User normalizedUser = new User(user.getUserId());
        
        if (stdDev > 0) {
            for (Map.Entry<String, Double> entry : ratings.entrySet()) {
                double normalizedRating = (entry.getValue() - avgRating) / stdDev;
                normalizedUser.addRating(entry.getKey(), normalizedRating);
            }
        } else {
            // 如果标准差为0，直接复制原评分
            for (Map.Entry<String, Double> entry : ratings.entrySet()) {
                normalizedUser.addRating(entry.getKey(), entry.getValue());
            }
        }
        
        return normalizedUser;
    }
}

2. K值选择策略

根据《算法图解》的建议，如果有N位用户，通常选择sqrt(N)个邻居是一个不错的经验规则：

public class KValueSelector {
    
    public static int calculateOptimalK(int totalUsers) {
        // 使用sqrt(N)作为K值的经验规则
        int k = (int) Math.sqrt(totalUsers);
        
        // 确保K值在合理范围内
        return Math.max(1, Math.min(k, Math.min(50, totalUsers - 1)));
    }
}

3. 处理稀疏数据

在实际应用中，用户评分数据往往是稀疏的，即大多数用户只对少数商品进行了评分：

public class SparseDataHandler {
    
    // 计算两个用户共同评分商品的数量
    public static int getCommonItemsCount(User user1, User user2) {
        Set<String> items1 = user1.getRatings().keySet();
        Set<String> items2 = user2.getRatings().keySet();
        
        Set<String> commonItems = new HashSet<>(items1);
        commonItems.retainAll(items2);
        
        return commonItems.size();
    }
    
    // 只有当共同评分商品数量达到阈值时才计算相似度
    public static double calculateSimilarityWithThreshold(
            User user1, User user2, int minCommonItems) {
        
        int commonItemsCount = getCommonItemsCount(user1, user2);
        
        if (commonItemsCount < minCommonItems) {
            return 0.0; // 共同评分商品太少，相似度设为0
        }
        
        return UserSimilarityCalculator.calculatePearsonCorrelation(user1, user2);
    }
}

实际应用场景

用户相似度匹配算法在众多领域都有广泛应用：

1. 电商推荐系统

商品推荐：基于相似用户的购买记录推荐商品
价格敏感性分析：找到价格敏感度相似的用户群体

2. 内容推荐平台

视频推荐：根据观看历史推荐相似内容
音乐推荐：基于听歌偏好推荐新歌曲

3. 社交网络

好友推荐：基于共同兴趣推荐潜在好友
群组推荐：推荐用户可能感兴趣的社群

4. 金融服务

风险评估：找到风险特征相似的用户
产品推荐：推荐适合的金融产品

算法复杂度分析

时间复杂度

相似度计算：O(m)，其中m是用户共同评分的商品数量
找K近邻：O(n×m + n×log(n))，其中n是用户总数
生成推荐：O(k×m)，其中k是近邻数量

空间复杂度

存储用户数据：O(n×m)
相似度矩阵：O(n²)（如果需要预计算所有用户对的相似度）

性能优化建议

1. 预计算相似度矩阵

对于用户数量不太大的系统，可以预先计算所有用户对的相似度：

public class SimilarityMatrix {
    private Map<String, Map<String, Double>> matrix;
    
    public SimilarityMatrix(List<User> users) {
        this.matrix = new HashMap<>();
        precomputeSimilarities(users);
    }
    
    private void precomputeSimilarities(List<User> users) {
        for (int i = 0; i < users.size(); i++) {
            User user1 = users.get(i);
            matrix.put(user1.getUserId(), new HashMap<>());
            
            for (int j = i + 1; j < users.size(); j++) {
                User user2 = users.get(j);
                double similarity = UserSimilarityCalculator
                    .calculatePearsonCorrelation(user1, user2);
                
                matrix.get(user1.getUserId()).put(user2.getUserId(), similarity);
                matrix.computeIfAbsent(user2.getUserId(), k -> new HashMap<>())
                      .put(user1.getUserId(), similarity);
            }
        }
    }
    
    public double getSimilarity(String userId1, String userId2) {
        return matrix.getOrDefault(userId1, new HashMap<>())
                    .getOrDefault(userId2, 0.0);
    }
}

2. 使用近似算法

对于大规模数据，可以使用LSH（局部敏感哈希）等近似算法来快速找到相似用户。

3. 并行计算

利用多线程并行计算用户相似度：

public class ParallelSimilarityCalculator {
    
    public static List<UserSimilarity> findKNearestUsersParallel(
            User targetUser, List<User> allUsers, int k) {
        
        return allUsers.parallelStream()
            .filter(user -> !user.getUserId().equals(targetUser.getUserId()))
            .map(user -> new UserSimilarity(
                user.getUserId(),
                UserSimilarityCalculator.calculatePearsonCorrelation(targetUser, user)
            ))
            .sorted((a, b) -> Double.compare(b.getSimilarity(), a.getSimilarity()))
            .limit(k)
            .collect(Collectors.toList());
    }
}

总结

用户相似度匹配算法是现代推荐系统的核心技术之一。通过K最近邻算法，我们可以：

简单高效：KNN算法原理简单，易于理解和实现
适应性强：能够适应用户偏好的变化，实时更新推荐结果
解释性好：推荐结果具有很好的可解释性，用户容易理解为什么会推荐某个商品

本文介绍的Java实现提供了一个完整的用户相似度匹配系统框架，包括：

多种相似度计算方法
K近邻查找算法
推荐生成机制
各种优化技巧

在实际应用中，你还需要根据具体业务场景进行调整，比如：

选择合适的相似度计算方法
调整K值和各种阈值参数
处理冷启动问题（新用户没有历史数据）
考虑实时性和系统性能需求

随着数据量的增长和用户需求的多样化，用户相似度匹配算法还在不断演进。深度学习方法如协同过滤神经网络、图神经网络等也被越来越多地应用到推荐系统中。但KNN算法作为基础算法，仍然是理解和入门推荐系统的最佳选择。

希望这篇文章能帮助你理解用户相似度匹配算法的原理和实现方法，在你的项目中发挥作用！