{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 194,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd\n",
    "data = pd.read_csv(\"../data/rawdata.csv\")\n",
    "data.drop(columns=\"Unnamed: 0\", inplace=True)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 195,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>content</th>\n",
       "      <th>score</th>\n",
       "      <th>thumbsUpCount</th>\n",
       "      <th>Application</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>Rất thuận tiện, có lợi ích.</td>\n",
       "      <td>5</td>\n",
       "      <td>2</td>\n",
       "      <td>Messenger</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>Tốt</td>\n",
       "      <td>4</td>\n",
       "      <td>213</td>\n",
       "      <td>Messenger</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>Ok</td>\n",
       "      <td>5</td>\n",
       "      <td>1</td>\n",
       "      <td>Messenger</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>Xài rất tốt , nên tải nha</td>\n",
       "      <td>5</td>\n",
       "      <td>8</td>\n",
       "      <td>Messenger</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>gútttt</td>\n",
       "      <td>5</td>\n",
       "      <td>1</td>\n",
       "      <td>Messenger</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>310741</th>\n",
       "      <td>Ok</td>\n",
       "      <td>5</td>\n",
       "      <td>0</td>\n",
       "      <td>Instagram</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>310742</th>\n",
       "      <td>G o o d</td>\n",
       "      <td>5</td>\n",
       "      <td>0</td>\n",
       "      <td>Instagram</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>310743</th>\n",
       "      <td>Có</td>\n",
       "      <td>5</td>\n",
       "      <td>0</td>\n",
       "      <td>Instagram</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>310744</th>\n",
       "      <td>Nhiều lúc tôi k lấy đc hiệu ứng</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>Instagram</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>310745</th>\n",
       "      <td>Tui chưa chơi ko biết có hay ko ??????</td>\n",
       "      <td>3</td>\n",
       "      <td>0</td>\n",
       "      <td>Instagram</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>310746 rows × 4 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                       content  score  thumbsUpCount  \\\n",
       "0                  Rất thuận tiện, có lợi ích.      5              2   \n",
       "1                                          Tốt      4            213   \n",
       "2                                           Ok      5              1   \n",
       "3                    Xài rất tốt , nên tải nha      5              8   \n",
       "4                                       gútttt      5              1   \n",
       "...                                        ...    ...            ...   \n",
       "310741                                      Ok      5              0   \n",
       "310742                                 G o o d      5              0   \n",
       "310743                                      Có      5              0   \n",
       "310744         Nhiều lúc tôi k lấy đc hiệu ứng      1              0   \n",
       "310745  Tui chưa chơi ko biết có hay ko ??????      3              0   \n",
       "\n",
       "       Application  \n",
       "0        Messenger  \n",
       "1        Messenger  \n",
       "2        Messenger  \n",
       "3        Messenger  \n",
       "4        Messenger  \n",
       "...            ...  \n",
       "310741   Instagram  \n",
       "310742   Instagram  \n",
       "310743   Instagram  \n",
       "310744   Instagram  \n",
       "310745   Instagram  \n",
       "\n",
       "[310746 rows x 4 columns]"
      ]
     },
     "execution_count": 195,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "data"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "77738c473504417bad502941cdd4d650",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Downloading data files:   0%|          | 0/3 [00:00<?, ?it/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "a7f0c7c61a974aa9ac036a9460258775",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Downloading data:   0%|          | 0.00/898k [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "195e0ff0a44d4286b59687835f4a4816",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Downloading data:   0%|          | 0.00/22.9k [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "a2fbcf7b23204998b8531c50c9e9a209",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Downloading data:   0%|          | 0.00/22.9k [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "2fafdbbcbf1c4f6e8d5cba4832ece377",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Downloading data:   0%|          | 0.00/119k [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "1cc733c39cee4265822fd4c6a315a51d",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Downloading data:   0%|          | 0.00/3.17k [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "5f62e29136ad4de4a370212da4a8656c",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Downloading data:   0%|          | 0.00/3.17k [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "ea64b5f432b34fc3a6b8348a2e4ac4fd",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Downloading data:   0%|          | 0.00/248k [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "4a657e1945d64762b9e5f27322ece4ef",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Downloading data:   0%|          | 0.00/6.33k [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "783e9c44195142c08d99bff16649ef41",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Downloading data:   0%|          | 0.00/6.33k [00:00<?, ?B/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "4e4319d7a7c04f878c90afcd7aa1c4fe",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Generating train split: 0 examples [00:00, ? examples/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "0f8264be6de64c169d78ac7a48f68b6d",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Generating validation split: 0 examples [00:00, ? examples/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "116eec0cb22c447dbf92d9fb9f4d1489",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Generating test split: 0 examples [00:00, ? examples/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "from datasets import load_dataset\n",
    "dataset = load_dataset(\"uitnlp/vietnamese_students_feedback\", cache_dir=\"../data\")\n",
    "dataset = dataset.rename_column(\"sentence\", 'text')\n",
    "dataset = dataset.rename_column(\"sentiment\", 'label')\n",
    "dataset = dataset.remove_columns(\"topic\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['thầy sử dụng thời gian dạy tốt .',\n",
       " 'thầy wzjwz205 rất nhiệt tình với sinh viên , luôn cung cấp kiến thức cập nhật và thực tiễn .',\n",
       " 'tài liệu và giảng viên nhiệt tình .',\n",
       " 'thầy dạy tâm huyết với sinh viên , dạy cho sinh viên rất nhiều kiến thức bổ ích !',\n",
       " 'thầy giúp sinh viên luyện tập rất nhiệt tình .',\n",
       " 'khi có thông báo nghỉ , cần cập nhập thông tin trên web của khoa wzjwz158 .',\n",
       " 'kiến thức truyền đạt còn ít , thời gian lên lớp thường trễ .',\n",
       " 'em nghĩ nên thi thực hành thay vì lý thuyết cuối kỳ .',\n",
       " 'khi sinh viên nhờ thầy giải một bài tập để làm mẫu nhưng không nhận được bất kỳ bài giải nào từ thầy .',\n",
       " 'thời lượng thi ít khiến nhiều câu bỏ trống .',\n",
       " 'cách thầy dạy môn này trong kỳ trước em không được biết chỉ được nghe từ các bạnem đã cảm thấy vui khi được học với thầy .',\n",
       " 'thường xuyên nghỉ học không thông báo , lên lớp trễ .',\n",
       " 'cô giáo rất tận tình và có phương pháp giảng dạy rất tốt đối với sinh viên .',\n",
       " 'giảng viên luôn vui vẻ và tận tình giúp đỡ sinh viên .',\n",
       " 'dùng lời lẽ để ép buộc sinh viên .',\n",
       " 'những thứ đó không đủ để làm bài thực hành như tuần 5 , tuần 6 , tuần 7 .',\n",
       " 'bài tập deadline quá nhiều mà thời gian lại quá ngắn .',\n",
       " 'nên rút gọn kiến thức lại .',\n",
       " 'đan xen những câu chuyện thực tiễn trong lúc học .',\n",
       " 'thầy không chú trọng đến kết quả tốt hay không mà khuyến khích sinh viên làm việc hết khả năng của mình .',\n",
       " 'không có hoạt động không hài lòng .',\n",
       " 'có nhiều nội dung liên quan tới thực tiễn , có thể áp dụng vào thực tế sau này .',\n",
       " 'vào lớp muộn , cho ra trễ .',\n",
       " 'thầy vui tính , thường xuyên cho bài tập cho sinh viên .',\n",
       " 'sinh viên trường wzjwz80 chúng ta hoàn toàn không được đánh giá cao so với sinh viên của wzjwz81 và wzjwz82 .']"
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "i=180\n",
    "dataset['train']['text'][25*i:25*(i+1)]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [],
   "source": [
    "import re\n",
    "def cleaning(row):\n",
    "    text = row['content'].strip()\n",
    "    if isinstance(text, str): \n",
    "        text = text.lower()\n",
    "        text = re.sub(r'[^ ,.?!a-z0-9àáảãạăắằẳẵặâấầẩẫậèéẻẽẹêếềểễệđìíỉĩịòóỏõọôốồổỗộơớờởỡợùúủũụưứừửữựỳýỷỹỵ]', '', text)\n",
    "        text = re.sub(r'[.!?]+', '.', text)\n",
    "        text = re.sub(r'([,.!?])\\1+', r'\\1', text)\n",
    "        text = re.sub(r'[,]+', ' , ', text)\n",
    "        text = re.sub(r'[.]+', ' . ', text)\n",
    "        text = re.sub(r'([ ])\\1+', r'\\1', text)\n",
    "        row['content'] = text.strip()\n",
    "        return row\n",
    "    return row"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 235,
   "metadata": {},
   "outputs": [],
   "source": [
    "from copy import deepcopy\n",
    "\n",
    "diction = {}\n",
    "for i in range(len(data)):\n",
    "    if data.loc[i, 'content'] not in diction.keys():\n",
    "        diction[data.loc[i, 'content']] = [data.loc[i, 'score']]\n",
    "    else:\n",
    "        diction[data.loc[i, 'content']].append(data.loc[i, 'score'])\n",
    "        diction[data.loc[i, 'content']] = list(set(diction[data.loc[i, 'content']]))\n",
    "\n",
    "remained_reviews = list(set([i for i, j in diction.items() if len(j)<2]))\n",
    "data_output = deepcopy(data)\n",
    "data_output = data_output[data_output['content'].isin(remained_reviews)]\n",
    "data_output = data_output.apply(cleaning, axis=1)\n",
    "\n",
    "removed_reviews_2 = [\n",
    "    'g7mb',\n",
    "    'samsung galaxy s21 ultra 5 g smg988b',\n",
    "    'd4e',\n",
    "    'yhehe',\n",
    "    'messengr',\n",
    "    'heé34e',\n",
    "    'ịckhylh',\n",
    "    'đbb',\n",
    "    'chetme',\n",
    "    'hhhhhhhhokkkk',\n",
    "    'đjtme',\n",
    "    'cmn',\n",
    "    'như l',\n",
    "    'meslon',\n",
    "    'vcl',\n",
    "    'cc',\n",
    "    'dm',\n",
    "    ' . ',\n",
    "    'cl',\n",
    "    'như c',\n",
    "    'del',\n",
    "    'đb',\n",
    "    'dcm',\n",
    "    'explore',\n",
    "    'loz',\n",
    "    'hi hi',\n",
    "    'cưk',\n",
    "    'meomeo',\n",
    "    'vkl', \n",
    "    'ghi chú',\n",
    "    'nhon nhặc',\n",
    "    'vl',\n",
    "    'lon',\n",
    "    'lol',\n",
    "    'đm',\n",
    "    'haha',\n",
    "    'đitme',\n",
    "    'cặc',\n",
    "    'thoănh',\n",
    "    'anơnh',\n",
    "    'moẹ',\n",
    "    'cm',\n",
    "    'mày',\n",
    "    'tao',\n",
    "    'gg',\n",
    "    'sl',\n",
    "    'éo',\n",
    "    'gjhbhv',\n",
    "    'hihi',\n",
    "    'lll',\n",
    "    'mẹ',\n",
    "    'xz',\n",
    "    'toots',\n",
    "    'ckg',\n",
    "    'bgi',\n",
    "    '7e',\n",
    "    'b b',\n",
    "    'xxx',\n",
    "    'srtxatjrx',\n",
    "    '. 0',\n",
    "    'di 0',\n",
    "    'hô hô',\n",
    "    'èy',\n",
    "    'el .',\n",
    "    'đe 3e',\n",
    "    'eq',\n",
    "    'qê',\n",
    "    'êư',\n",
    "    'lm',\n",
    "    'za',\n",
    "    'gồ',\n",
    "    'bạnbạn',\n",
    "    'snisb',\n",
    "    'ld',\n",
    "    'hehe',\n",
    "    '4gu',\n",
    "    'u9',\n",
    "    'h0',\n",
    "    'kwwiwieie',\n",
    "    'kw',\n",
    "    'wiw',\n",
    "    'wie',\n",
    "    'iei',\n",
    "    'eie',\n",
    "    'ioo',\n",
    "    'yyy',\n",
    "    'ê3',\n",
    "    'i c',\n",
    "    'ẻcv',\n",
    "    'mọe',\n",
    "    'đel',\n",
    "    'bòi',\n",
    "    'wp',\n",
    "    'medi',\n",
    "    'boài',\n",
    "    'gf',\n",
    "    'amv',\n",
    "    'am1',\n",
    "    'hah',\n",
    "    'ean',\n",
    "    'cec',\n",
    "    'bìu',\n",
    "    'ut',\n",
    "    '7j',\n",
    "    'qq',\n",
    "    'đức',\n",
    "    'l0',\n",
    "    '2 .',\n",
    "    'ab',\n",
    "    'bcd',\n",
    "    'zx',\n",
    "    'iz',\n",
    "    'aa của',\n",
    "    'kui',\n",
    "    'vsn',\n",
    "    'djt',\n",
    "    'buoi',\n",
    "    'đeoz',\n",
    "    'cặt',\n",
    "    'jav',\n",
    "    'l y',\n",
    "    'dsha',\n",
    "    'dj',\n",
    "    'rw',\n",
    "    'cuc',\n",
    "    'cẹc',\n",
    "    'dahezwre',\n",
    "    'đíu',\n",
    "    'như nhái nhồn',\n",
    "    'hd',\n",
    "    'căc',\n",
    "    'xuyn',\n",
    "    'hya',\n",
    "    'ỳy',\n",
    "    'đ8',\n",
    "    'duk',\n",
    "    'ukis',\n",
    "    'kisko',\n",
    "    'skor',\n",
    "    'oop',\n",
    "    'akd',\n",
    "    'kden',\n",
    "    'eod',\n",
    "    'zef',\n",
    "    'osk',\n",
    "    'kajs',\n",
    "    'như .',\n",
    "    'đ ',\n",
    "    'dfd',\n",
    "    '2v',\n",
    "    'gyg',\n",
    "    'kkkkkk',\n",
    "    'aa',\n",
    "    'ăă',\n",
    "    'ââ',\n",
    "    'bb',\n",
    "    'cc',\n",
    "    'dd',\n",
    "    'đđ',\n",
    "    'ee',\n",
    "    'êê',\n",
    "    'ff',\n",
    "    'gg',\n",
    "    'hh',\n",
    "    'ii',\n",
    "    'kk',\n",
    "    'll',\n",
    "    'mm',\n",
    "    'nn',\n",
    "    'oo',\n",
    "    'ôô',\n",
    "    'ơơ',\n",
    "    'pp',\n",
    "    'qq',\n",
    "    'rr',\n",
    "    'tt',\n",
    "    'uu',\n",
    "    'ưư',\n",
    "    'vv',\n",
    "    'ww',\n",
    "    'xx',\n",
    "    'yy',\n",
    "    'zz',\n",
    "    'gp',\n",
    "    'lng',\n",
    "    'uv',\n",
    "    'km',\n",
    "    'khợ',\n",
    "    'ợn',\n",
    "    'by',\n",
    "    'siv',\n",
    "    'ivi',\n",
    "    'ea',\n",
    "    'aye',\n",
    "    'thue',\n",
    "    'oca',\n",
    "    'coc',\n",
    "    'mem',\n",
    "    'emo',\n",
    "    'mor',\n",
    "    'ori',\n",
    "    'rie',\n",
    "    'ies',\n",
    "    'okji',\n",
    "    'kj',\n",
    "    'ji',\n",
    "    'ih',\n",
    "    'dit',\n",
    "    'ms',\n",
    "    'sy',\n",
    "    'nd',\n",
    "    'die',\n",
    "    'jđ',\n",
    "    'ciu',\n",
    "    'iuc',\n",
    "    'cg',\n",
    "    'goj',\n",
    "    'oj',\n",
    "    'jf',\n",
    "    'fu',\n",
    "    'uj',\n",
    "    'ek',\n",
    "    'ege',\n",
    "    'geg',\n",
    "    'gt',\n",
    "    'tm',\n",
    "    'muo',\n",
    "    'nhưl',\n",
    "    'nhôn',\n",
    "    'lừ',\n",
    "    'u12',\n",
    "    '111',\n",
    "    '22',\n",
    "    '33',\n",
    "    '44',\n",
    "    '55',\n",
    "    '66',\n",
    "    '77',\n",
    "    '88',\n",
    "    '99',\n",
    "    'rc',\n",
    "    'mé',\n",
    "    'iồn',\n",
    "    'gv',\n",
    "    'gig',\n",
    "    'hsh',\n",
    "    'èu3',\n",
    "    'n14',\n",
    "    'tsi',\n",
    "    'tau',\n",
    "    'đcr',\n",
    "    '00',\n",
    "    'tey',\n",
    "    'sje',\n",
    "    'tran ',\n",
    "    '1sa',\n",
    "    '56 8390',\n",
    "    'hàh',\n",
    "    'àhà',\n",
    "    'jr',\n",
    "    'ỹy',\n",
    "    'd5',\n",
    "    '5e',\n",
    "    'ed',\n",
    "    '7u',\n",
    "    '7g',\n",
    "    '5s',\n",
    "    'wo',\n",
    "    'q1',\n",
    "    '2e',\n",
    "    'bỏi',\n",
    "    'bf',\n",
    "    'ad',\n",
    "    'oio'\n",
    "]\n",
    "for substring in removed_reviews_2:\n",
    "    data_output = data_output[~data_output['content'].str.contains(substring)]\n",
    "    \n",
    "data_output = data_output[~data_output['content'].isin(['', '.', ',', 'c', 'a .', 'an', 'edit', 'ti', 'd'])]\n",
    "data_output = data_output[~data_output['content'].str.startswith(\".\")]\n",
    "data_output.drop_duplicates(inplace=True)\n",
    "data_output.reset_index(inplace=True)\n",
    "data_output.drop(columns='index', inplace=True)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 236,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>content</th>\n",
       "      <th>score</th>\n",
       "      <th>thumbsUpCount</th>\n",
       "      <th>Application</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>không làm được</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>Messenger</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>đăng xuất ra vô lại bị lỗi nhìu</td>\n",
       "      <td>1</td>\n",
       "      <td>1</td>\n",
       "      <td>Messenger</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>cập nhật lại giùm cái</td>\n",
       "      <td>5</td>\n",
       "      <td>2</td>\n",
       "      <td>Messenger</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>1 sao vì chặn mà vẫn gỡ được</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>Messenger</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>sản năm sao luân</td>\n",
       "      <td>5</td>\n",
       "      <td>1</td>\n",
       "      <td>Messenger</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>91994</th>\n",
       "      <td>cập nhật không được ạ</td>\n",
       "      <td>4</td>\n",
       "      <td>0</td>\n",
       "      <td>Instagram</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>91995</th>\n",
       "      <td>sao ko vô dc</td>\n",
       "      <td>5</td>\n",
       "      <td>0</td>\n",
       "      <td>Instagram</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>91996</th>\n",
       "      <td>chụp đẹp nhưng chưa có tính năng giây nha mong...</td>\n",
       "      <td>4</td>\n",
       "      <td>0</td>\n",
       "      <td>Instagram</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>91997</th>\n",
       "      <td>điện video bị lỗi</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>Instagram</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>91998</th>\n",
       "      <td>chụp ảnh lưu về máy xem lại ko có</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>Instagram</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>91999 rows × 4 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                                 content  score  \\\n",
       "0                                         không làm được      1   \n",
       "1                        đăng xuất ra vô lại bị lỗi nhìu      1   \n",
       "2                                  cập nhật lại giùm cái      5   \n",
       "3                           1 sao vì chặn mà vẫn gỡ được      1   \n",
       "4                                       sản năm sao luân      5   \n",
       "...                                                  ...    ...   \n",
       "91994                              cập nhật không được ạ      4   \n",
       "91995                                       sao ko vô dc      5   \n",
       "91996  chụp đẹp nhưng chưa có tính năng giây nha mong...      4   \n",
       "91997                                  điện video bị lỗi      1   \n",
       "91998                  chụp ảnh lưu về máy xem lại ko có      1   \n",
       "\n",
       "       thumbsUpCount Application  \n",
       "0                  1   Messenger  \n",
       "1                  1   Messenger  \n",
       "2                  2   Messenger  \n",
       "3                  0   Messenger  \n",
       "4                  1   Messenger  \n",
       "...              ...         ...  \n",
       "91994              0   Instagram  \n",
       "91995              0   Instagram  \n",
       "91996              0   Instagram  \n",
       "91997              0   Instagram  \n",
       "91998              0   Instagram  \n",
       "\n",
       "[91999 rows x 4 columns]"
      ]
     },
     "execution_count": 236,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "data_output"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 237,
   "metadata": {},
   "outputs": [],
   "source": [
    "data_output.to_csv(\"../data/clean_data_v2.csv\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "base",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.11.4"
  },
  "orig_nbformat": 4
 },
 "nbformat": 4,
 "nbformat_minor": 2
}