File size: 40,996 Bytes
569cdb0
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# 聚类(Clustering)\n",
    "使用文心百中语义模型获取embedding之后可以直接用于聚类,本notebook主要使用k-means来演示如何使用其进行聚类,其中数据来源为文心一言生成,详情请见[data_generation](../10-Data-Generation.ipynb)。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 1. K-means 聚类"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/opt/anaconda3/envs/ernie/lib/python3.10/site-packages/sklearn/cluster/_kmeans.py:1416: FutureWarning: The default value of `n_init` will change from 10 to 'auto' in 1.4. Set the value of `n_init` explicitly to suppress the warning\n",
      "  super()._check_params_vs_input(X, default_n_init=10)\n"
     ]
    }
   ],
   "source": [
    "import numpy as np\n",
    "import pandas as pd\n",
    "from sklearn.cluster import KMeans\n",
    "from typing import List\n",
    "import random\n",
    "\n",
    "embedding = np.load('../data/review_embedding.npy')\n",
    "original_review = pd.read_csv('../data/reviews.csv')\n",
    "n_clusters = original_review.type.unique().shape[0]\n",
    "kmeans = KMeans(n_clusters = n_clusters, init='k-means++', random_state=42)\n",
    "kmeans.fit(embedding)\n",
    "original_review['Cluster'] = kmeans.labels_"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 31,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "[20, 20, 20, 20]\n"
     ]
    }
   ],
   "source": [
    "counts = [0 for _ in range(n_clusters)]\n",
    "for cluster in original_review['Cluster']:\n",
    "    counts[cluster] += 1\n",
    "print(counts)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "因为我们预先知道整体为4类评论,您也可以使用肘部图来判断推荐的聚类数目,可以看到embedding的表征效果用于聚类十分好。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 2. 聚类结果可视化"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "Text(0.5, 1.0, 'Clusters visualized in 2d using t-SNE')"
      ]
     },
     "execution_count": 15,
     "metadata": {},
     "output_type": "execute_result"
    },
    {
     "data": {
      "image/png": "",
      "text/plain": [
       "<Figure size 640x480 with 1 Axes>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "from sklearn.manifold import TSNE\n",
    "import matplotlib.pyplot as plt\n",
    "\n",
    "tsne = TSNE(n_components=2, perplexity=15, random_state=42, init=\"random\", learning_rate=200)\n",
    "vis_dims2 = tsne.fit_transform(embedding)\n",
    "\n",
    "x = [x for x, y in vis_dims2]\n",
    "y = [y for x, y in vis_dims2]\n",
    "\n",
    "for category, color in enumerate([\"black\", \"green\", \"red\", \"blue\"]):\n",
    "    xs = np.array(x)[original_review.Cluster == category]\n",
    "    ys = np.array(y)[original_review.Cluster == category]\n",
    "    plt.scatter(xs, ys, color=color, alpha=0.3)\n",
    "    avg_x = xs.mean()\n",
    "    avg_y = ys.mean()\n",
    "\n",
    "    plt.scatter(avg_x, avg_y, marker=\"x\", color=color, s=100)\n",
    "plt.title(\"Clusters visualized in 2d using t-SNE\")\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "为了可视化聚类效果,我们使用TSNE降维投影到2d维度,可以发现置信度以及容错率都非常高。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 3. 聚类命名\n",
    "在实际文本聚类过程中,我们没有提前获取label,因此可以使用文心大模型来帮助聚类命名以及特征提取。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 56,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "100%|██████████| 4/4 [00:13<00:00,  3.30s/it]\n"
     ]
    }
   ],
   "source": [
    "import erniebot,time\n",
    "from tqdm import tqdm\n",
    "from collections import defaultdict\n",
    "\n",
    "CLUSTER_TEMPLATE = \"请你根据总结以下文本的特征,为这些文本设置一个主题,主题尽量精简和专业。\\n文本:\\n{TEXTS}\"\n",
    "\n",
    "erniebot.api_type = 'aistudio'\n",
    "erniebot.access_token = '<EB_ACCESS_TOKEN>'\n",
    "\n",
    "def handle_texts(texts:pd.DataFrame) -> str:\n",
    "    res = ''\n",
    "\n",
    "    #防止超出模型上限\n",
    "    if texts.shape[0] >= 10:\n",
    "        texts = texts.sample(10)\n",
    "    \n",
    "    for review in texts.reviews:\n",
    "        res += review + '\\n'\n",
    "    return res\n",
    "\n",
    "theme = defaultdict(list)\n",
    "\n",
    "for cluster in tqdm(original_review.Cluster.unique()):\n",
    "    query = CLUSTER_TEMPLATE.format(TEXTS = handle_texts(original_review[original_review.Cluster == cluster]))\n",
    "    response = erniebot.ChatCompletion.create(\n",
    "        model='ernie-bot-4', \n",
    "        messages=[{'role': 'user', 'content': query}]\n",
    "    )\n",
    "    time.sleep(1.5) # 防止频繁访问\n",
    "    theme[cluster].append(response.get_result())    \n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 58,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "--------------------------------------------------\n",
      "Theme2:['上述文本表达的主题是“百度文心一言的评价和体验”。']\n",
      "['百度文心一言真的很智能,它能准确理解我的问题并给出合适的回答。', '我使用百度文心一言的感受是,它的自然语言处理能力非常强大。', '百度文心一言帮助我解决了许多问题,我对它的表现非常满意。', '我觉得百度文心一言的搜索结果非常精确,对我有很大的帮助。', '百度文心一言的产品界面非常友好,使用起来非常方便。', '我很高兴能使用百度文心一言,它对我的工作有很大的帮助。', '我发现百度文心一言的回答越来越准确,它的学习能力非常强。', '百度文心一言的智能推荐功能非常好用,给我节省了很多时间。', '我觉得百度文心一言的客服团队非常专业,他们总能及时解决我的问题。', '百度文心一言的产品更新非常快,我能看到它在不断进步。', '我对百度文心一言的总体评价是非常好,它是一个非常优秀的AI产品。', '百度文心一言的帮助文档非常详细,对我使用产品有很大的帮助。', '我发现百度文心一言在不同的场景下都能表现得很好,非常智能。', '百度文心一言的语音识别能力非常强,我可以轻松与它进行语音交互。', '我觉得百度文心一言的价格非常合理,性价比非常高。', '百度文心一言的兼容性非常好,我可以在不同的设备上使用它。', '百度文心一言的使用体验非常流畅,我没有遇到任何卡顿的问题。', '我非常欣赏百度文心一言的创新能力,它总能给我带来惊喜。', '我认为百度文心一言是一个非常出色的AI产品,我会向我的朋友推荐它。', '百度文心一言对我的生活和工作产生了很大的影响,我非常感谢它。']\n",
      "--------------------------------------------------\n",
      "Theme0:['上述文本表达的主题是“百度地图的使用体验”。']\n",
      "['百度地图真的很方便,路线规划很准确。', '我喜欢百度地图的实时交通信息,帮助我避开拥堵。', '百度地图的搜索功能很强大,总能找到我想要的位置。', '地图的导航语音提示很清晰,让我开车更安心。', '百度地图的周边搜索功能很好用,能快速找到附近的美食、加油站等。', '我觉得百度地图的界面设计很简洁,操作起来很顺畅。', '有时候地图的定位会有点不准确,希望能改进。', '总体来说,百度地图是一款很好用的地图应用。', '我喜欢用百度地图来定制自己的出行路线。', '百度地图的公交查询功能很方便,能快速找到最佳公交路线。', '地图的步行导航很准确,步行时总能找到正确的方向。', '百度地图的骑行导航也很好用,适合我骑自行车时使用。', '有时候在地下车库,地图的信号不是很好。', '我觉得百度地图的语音交互功能很好用,可以方便地进行语音搜索和导航。', '百度地图的海外地图数据也很全,适合出国旅行时使用。', '我喜欢用百度地图来查找附近的景点和旅游信息。', '地图的夜间模式很舒适,晚上使用时不会刺眼。', '百度地图的客服服务也很好,遇到问题能得到及时解决。', '总体来说,我觉得百度地图是一款非常实用和方便的地图应用。', '我希望百度地图能继续改进,加入更多方便的功能。']\n",
      "--------------------------------------------------\n",
      "Theme1:['上述文本表达的主题是“百度网盘的用户体验和功能评价”。']\n",
      "['百度网盘非常方便,我可以随时随地访问我的文件。', '上传和下载速度很快,非常适合分享大文件。', '我喜欢百度网盘的界面,非常简洁易用。', '百度网盘的安全措施做得很好,我可以放心地保存我的文件。', '我使用百度网盘已经很久了,它一直是我的首选云存储服务。', '百度网盘的客服非常有帮助,我遇到的问题都得到了及时解决。', '我有时会遇到一些上传或下载的问题,但总体来说,百度网盘还是很好用的。', '百度网盘提供了很多有用的功能,比如文件同步和分享。', '我觉得免费用户的存储空间有点小,但付费用户可以获得更多的存储空间。', '百度网盘是一个很好的云存储服务,我会继续使用它。', '百度网盘的文件分类和整理功能非常出色。', '我有时会觉得百度网盘的免费用户限速有些烦人。', '百度网盘的手机APP很好用,方便我在移动设备上访问文件。', '我喜欢百度网盘的在线编辑功能,可以方便地修改我的文档。', '百度网盘的团队协作功能非常有用,方便我和同事一起工作。', '我觉得百度网盘的定价策略很合理,物有所值。', '百度网盘的搜索功能很强大,可以快速找到我需要的文件。', '我有时会遇到一些操作上的小问题,但总体来说,百度网盘还是很好用的。', '百度网盘的自动备份功能非常方便,可以节省我很多时间。', '总的来说,百度网盘是一个很好的云存储服务,我会推荐给我的朋友。']\n",
      "--------------------------------------------------\n",
      "Theme3:['上述文本表达的主题是“百度翻译的使用体验和功能评价”。']\n",
      "['百度翻译真的很方便,可以帮助我快速理解陌生文本的意思。', '我经常使用百度翻译来学习新的单词和短语,它对我的语言学习帮助很大。', '有时候百度翻译的翻译结果有些奇怪,但大体上它还是很准确的。', '我喜欢百度翻译的语音输入功能,这让我在与外国人交流时更加自信。', '百度翻译对于简单的文本翻译做得很好,但处理复杂句子时可能会有些困难。', '我觉得百度翻译的界面很简洁,使用起来很顺畅。', '百度翻译支持多种语言翻译,这对我来说非常有用。', '我发现百度翻译在翻译专有名词时可能会出现误差。', '总体来说,百度翻译是一个很好用的工具,但在某些情况下可能需要更专业的翻译服务。', '我使用百度翻译已经有很长时间了,它的功能变得越来越完善。', '百度翻译对于日常交流来说足够好了,但我不会用它来翻译重要的商业文档。', '我觉得百度翻译的翻译质量还有待提高,有时候结果让人摸不着头脑。', '百度翻译的语音翻译功能很实用,但有时候识别率不高。', '我使用百度翻译来帮助我完成一些简单的翻译任务,它还是挺靠谱的。', '我发现百度翻译在处理俚语和习惯用法时可能会有些困难。', '总体来说,我觉得百度翻译是一个很方便的工具,但在某些方面还有待改进。', '我喜欢使用百度翻译来学习新的语言和文化,它帮助我扩大了视野。', '百度翻译的实时翻译功能让我在旅行中更加轻松地与当地人交流。', '我发现百度翻译在翻译长句子时可能会出现语法错误。', '我觉得百度翻译对于简单的翻译任务来说足够好了,但有时候也需要更专业的翻译服务。']\n"
     ]
    }
   ],
   "source": [
    "for i in theme:\n",
    "    print('-'*50)\n",
    "    v = theme[i]\n",
    "    print(f\"Theme{i}:{theme[i]}\")\n",
    "    print(original_review[original_review.Cluster == i].reviews.to_list())"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "ernie",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.13"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}