{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# 聚类(Clustering)\n", "使用文心百中语义模型获取embedding之后可以直接用于聚类,本notebook主要使用k-means来演示如何使用其进行聚类,其中数据来源为文心一言生成,详情请见[data_generation](../10-Data-Generation.ipynb)。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 1. K-means 聚类" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "/opt/anaconda3/envs/ernie/lib/python3.10/site-packages/sklearn/cluster/_kmeans.py:1416: FutureWarning: The default value of `n_init` will change from 10 to 'auto' in 1.4. Set the value of `n_init` explicitly to suppress the warning\n", " super()._check_params_vs_input(X, default_n_init=10)\n" ] } ], "source": [ "import numpy as np\n", "import pandas as pd\n", "from sklearn.cluster import KMeans\n", "from typing import List\n", "import random\n", "\n", "embedding = np.load('../data/review_embedding.npy')\n", "original_review = pd.read_csv('../data/reviews.csv')\n", "n_clusters = original_review.type.unique().shape[0]\n", "kmeans = KMeans(n_clusters = n_clusters, init='k-means++', random_state=42)\n", "kmeans.fit(embedding)\n", "original_review['Cluster'] = kmeans.labels_" ] }, { "cell_type": "code", "execution_count": 31, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "[20, 20, 20, 20]\n" ] } ], "source": [ "counts = [0 for _ in range(n_clusters)]\n", "for cluster in original_review['Cluster']:\n", " counts[cluster] += 1\n", "print(counts)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "因为我们预先知道整体为4类评论,您也可以使用肘部图来判断推荐的聚类数目,可以看到embedding的表征效果用于聚类十分好。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 2. 聚类结果可视化" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Text(0.5, 1.0, 'Clusters visualized in 2d using t-SNE')" ] }, "execution_count": 15, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "from sklearn.manifold import TSNE\n", "import matplotlib.pyplot as plt\n", "\n", "tsne = TSNE(n_components=2, perplexity=15, random_state=42, init=\"random\", learning_rate=200)\n", "vis_dims2 = tsne.fit_transform(embedding)\n", "\n", "x = [x for x, y in vis_dims2]\n", "y = [y for x, y in vis_dims2]\n", "\n", "for category, color in enumerate([\"black\", \"green\", \"red\", \"blue\"]):\n", " xs = np.array(x)[original_review.Cluster == category]\n", " ys = np.array(y)[original_review.Cluster == category]\n", " plt.scatter(xs, ys, color=color, alpha=0.3)\n", " avg_x = xs.mean()\n", " avg_y = ys.mean()\n", "\n", " plt.scatter(avg_x, avg_y, marker=\"x\", color=color, s=100)\n", "plt.title(\"Clusters visualized in 2d using t-SNE\")\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "为了可视化聚类效果,我们使用TSNE降维投影到2d维度,可以发现置信度以及容错率都非常高。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 3. 聚类命名\n", "在实际文本聚类过程中,我们没有提前获取label,因此可以使用文心大模型来帮助聚类命名以及特征提取。" ] }, { "cell_type": "code", "execution_count": 56, "metadata": {}, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "100%|██████████| 4/4 [00:13<00:00, 3.30s/it]\n" ] } ], "source": [ "import erniebot,time\n", "from tqdm import tqdm\n", "from collections import defaultdict\n", "\n", "CLUSTER_TEMPLATE = \"请你根据总结以下文本的特征,为这些文本设置一个主题,主题尽量精简和专业。\\n文本:\\n{TEXTS}\"\n", "\n", "erniebot.api_type = 'aistudio'\n", "erniebot.access_token = ''\n", "\n", "def handle_texts(texts:pd.DataFrame) -> str:\n", " res = ''\n", "\n", " #防止超出模型上限\n", " if texts.shape[0] >= 10:\n", " texts = texts.sample(10)\n", " \n", " for review in texts.reviews:\n", " res += review + '\\n'\n", " return res\n", "\n", "theme = defaultdict(list)\n", "\n", "for cluster in tqdm(original_review.Cluster.unique()):\n", " query = CLUSTER_TEMPLATE.format(TEXTS = handle_texts(original_review[original_review.Cluster == cluster]))\n", " response = erniebot.ChatCompletion.create(\n", " model='ernie-bot-4', \n", " messages=[{'role': 'user', 'content': query}]\n", " )\n", " time.sleep(1.5) # 防止频繁访问\n", " theme[cluster].append(response.get_result()) \n" ] }, { "cell_type": "code", "execution_count": 58, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "--------------------------------------------------\n", "Theme2:['上述文本表达的主题是“百度文心一言的评价和体验”。']\n", "['百度文心一言真的很智能,它能准确理解我的问题并给出合适的回答。', '我使用百度文心一言的感受是,它的自然语言处理能力非常强大。', '百度文心一言帮助我解决了许多问题,我对它的表现非常满意。', '我觉得百度文心一言的搜索结果非常精确,对我有很大的帮助。', '百度文心一言的产品界面非常友好,使用起来非常方便。', '我很高兴能使用百度文心一言,它对我的工作有很大的帮助。', '我发现百度文心一言的回答越来越准确,它的学习能力非常强。', '百度文心一言的智能推荐功能非常好用,给我节省了很多时间。', '我觉得百度文心一言的客服团队非常专业,他们总能及时解决我的问题。', '百度文心一言的产品更新非常快,我能看到它在不断进步。', '我对百度文心一言的总体评价是非常好,它是一个非常优秀的AI产品。', '百度文心一言的帮助文档非常详细,对我使用产品有很大的帮助。', '我发现百度文心一言在不同的场景下都能表现得很好,非常智能。', '百度文心一言的语音识别能力非常强,我可以轻松与它进行语音交互。', '我觉得百度文心一言的价格非常合理,性价比非常高。', '百度文心一言的兼容性非常好,我可以在不同的设备上使用它。', '百度文心一言的使用体验非常流畅,我没有遇到任何卡顿的问题。', '我非常欣赏百度文心一言的创新能力,它总能给我带来惊喜。', '我认为百度文心一言是一个非常出色的AI产品,我会向我的朋友推荐它。', '百度文心一言对我的生活和工作产生了很大的影响,我非常感谢它。']\n", "--------------------------------------------------\n", "Theme0:['上述文本表达的主题是“百度地图的使用体验”。']\n", "['百度地图真的很方便,路线规划很准确。', '我喜欢百度地图的实时交通信息,帮助我避开拥堵。', '百度地图的搜索功能很强大,总能找到我想要的位置。', '地图的导航语音提示很清晰,让我开车更安心。', '百度地图的周边搜索功能很好用,能快速找到附近的美食、加油站等。', '我觉得百度地图的界面设计很简洁,操作起来很顺畅。', '有时候地图的定位会有点不准确,希望能改进。', '总体来说,百度地图是一款很好用的地图应用。', '我喜欢用百度地图来定制自己的出行路线。', '百度地图的公交查询功能很方便,能快速找到最佳公交路线。', '地图的步行导航很准确,步行时总能找到正确的方向。', '百度地图的骑行导航也很好用,适合我骑自行车时使用。', '有时候在地下车库,地图的信号不是很好。', '我觉得百度地图的语音交互功能很好用,可以方便地进行语音搜索和导航。', '百度地图的海外地图数据也很全,适合出国旅行时使用。', '我喜欢用百度地图来查找附近的景点和旅游信息。', '地图的夜间模式很舒适,晚上使用时不会刺眼。', '百度地图的客服服务也很好,遇到问题能得到及时解决。', '总体来说,我觉得百度地图是一款非常实用和方便的地图应用。', '我希望百度地图能继续改进,加入更多方便的功能。']\n", "--------------------------------------------------\n", "Theme1:['上述文本表达的主题是“百度网盘的用户体验和功能评价”。']\n", "['百度网盘非常方便,我可以随时随地访问我的文件。', '上传和下载速度很快,非常适合分享大文件。', '我喜欢百度网盘的界面,非常简洁易用。', '百度网盘的安全措施做得很好,我可以放心地保存我的文件。', '我使用百度网盘已经很久了,它一直是我的首选云存储服务。', '百度网盘的客服非常有帮助,我遇到的问题都得到了及时解决。', '我有时会遇到一些上传或下载的问题,但总体来说,百度网盘还是很好用的。', '百度网盘提供了很多有用的功能,比如文件同步和分享。', '我觉得免费用户的存储空间有点小,但付费用户可以获得更多的存储空间。', '百度网盘是一个很好的云存储服务,我会继续使用它。', '百度网盘的文件分类和整理功能非常出色。', '我有时会觉得百度网盘的免费用户限速有些烦人。', '百度网盘的手机APP很好用,方便我在移动设备上访问文件。', '我喜欢百度网盘的在线编辑功能,可以方便地修改我的文档。', '百度网盘的团队协作功能非常有用,方便我和同事一起工作。', '我觉得百度网盘的定价策略很合理,物有所值。', '百度网盘的搜索功能很强大,可以快速找到我需要的文件。', '我有时会遇到一些操作上的小问题,但总体来说,百度网盘还是很好用的。', '百度网盘的自动备份功能非常方便,可以节省我很多时间。', '总的来说,百度网盘是一个很好的云存储服务,我会推荐给我的朋友。']\n", "--------------------------------------------------\n", "Theme3:['上述文本表达的主题是“百度翻译的使用体验和功能评价”。']\n", "['百度翻译真的很方便,可以帮助我快速理解陌生文本的意思。', '我经常使用百度翻译来学习新的单词和短语,它对我的语言学习帮助很大。', '有时候百度翻译的翻译结果有些奇怪,但大体上它还是很准确的。', '我喜欢百度翻译的语音输入功能,这让我在与外国人交流时更加自信。', '百度翻译对于简单的文本翻译做得很好,但处理复杂句子时可能会有些困难。', '我觉得百度翻译的界面很简洁,使用起来很顺畅。', '百度翻译支持多种语言翻译,这对我来说非常有用。', '我发现百度翻译在翻译专有名词时可能会出现误差。', '总体来说,百度翻译是一个很好用的工具,但在某些情况下可能需要更专业的翻译服务。', '我使用百度翻译已经有很长时间了,它的功能变得越来越完善。', '百度翻译对于日常交流来说足够好了,但我不会用它来翻译重要的商业文档。', '我觉得百度翻译的翻译质量还有待提高,有时候结果让人摸不着头脑。', '百度翻译的语音翻译功能很实用,但有时候识别率不高。', '我使用百度翻译来帮助我完成一些简单的翻译任务,它还是挺靠谱的。', '我发现百度翻译在处理俚语和习惯用法时可能会有些困难。', '总体来说,我觉得百度翻译是一个很方便的工具,但在某些方面还有待改进。', '我喜欢使用百度翻译来学习新的语言和文化,它帮助我扩大了视野。', '百度翻译的实时翻译功能让我在旅行中更加轻松地与当地人交流。', '我发现百度翻译在翻译长句子时可能会出现语法错误。', '我觉得百度翻译对于简单的翻译任务来说足够好了,但有时候也需要更专业的翻译服务。']\n" ] } ], "source": [ "for i in theme:\n", " print('-'*50)\n", " v = theme[i]\n", " print(f\"Theme{i}:{theme[i]}\")\n", " print(original_review[original_review.Cluster == i].reviews.to_list())" ] } ], "metadata": { "kernelspec": { "display_name": "ernie", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.10.13" } }, "nbformat": 4, "nbformat_minor": 2 }