mariopeng commited on
Commit
e5ce21c
·
1 Parent(s): ebac498

Upload tokenizer

Browse files
Files changed (2) hide show
  1. tokenizer.json +86 -86
  2. tokenizer_config.json +1 -1
tokenizer.json CHANGED
@@ -980,7 +980,7 @@
980
  },
981
  {
982
  "id": 32100,
983
- "content": "ɑ",
984
  "single_word": false,
985
  "lstrip": false,
986
  "rstrip": false,
@@ -989,7 +989,7 @@
989
  },
990
  {
991
  "id": 32101,
992
- "content": "æ",
993
  "single_word": false,
994
  "lstrip": false,
995
  "rstrip": false,
@@ -998,7 +998,7 @@
998
  },
999
  {
1000
  "id": 32102,
1001
- "content": "ɐ",
1002
  "single_word": false,
1003
  "lstrip": false,
1004
  "rstrip": false,
@@ -1007,7 +1007,7 @@
1007
  },
1008
  {
1009
  "id": 32103,
1010
- "content": "̃",
1011
  "single_word": false,
1012
  "lstrip": false,
1013
  "rstrip": false,
@@ -1016,7 +1016,7 @@
1016
  },
1017
  {
1018
  "id": 32104,
1019
- "content": "β",
1020
  "single_word": false,
1021
  "lstrip": false,
1022
  "rstrip": false,
@@ -1025,7 +1025,7 @@
1025
  },
1026
  {
1027
  "id": 32105,
1028
- "content": "ɓ",
1029
  "single_word": false,
1030
  "lstrip": false,
1031
  "rstrip": false,
@@ -1034,7 +1034,7 @@
1034
  },
1035
  {
1036
  "id": 32106,
1037
- "content": "ʙ",
1038
  "single_word": false,
1039
  "lstrip": false,
1040
  "rstrip": false,
@@ -1043,7 +1043,7 @@
1043
  },
1044
  {
1045
  "id": 32107,
1046
- "content": "ɕ",
1047
  "single_word": false,
1048
  "lstrip": false,
1049
  "rstrip": false,
@@ -1052,7 +1052,7 @@
1052
  },
1053
  {
1054
  "id": 32108,
1055
- "content": "ð",
1056
  "single_word": false,
1057
  "lstrip": false,
1058
  "rstrip": false,
@@ -1061,7 +1061,7 @@
1061
  },
1062
  {
1063
  "id": 32109,
1064
- "content": "͡",
1065
  "single_word": false,
1066
  "lstrip": false,
1067
  "rstrip": false,
@@ -1070,7 +1070,7 @@
1070
  },
1071
  {
1072
  "id": 32110,
1073
- "content": "ʒ",
1074
  "single_word": false,
1075
  "lstrip": false,
1076
  "rstrip": false,
@@ -1079,7 +1079,7 @@
1079
  },
1080
  {
1081
  "id": 32111,
1082
- "content": "ɖ",
1083
  "single_word": false,
1084
  "lstrip": false,
1085
  "rstrip": false,
@@ -1088,7 +1088,7 @@
1088
  },
1089
  {
1090
  "id": 32112,
1091
- "content": "ɗ",
1092
  "single_word": false,
1093
  "lstrip": false,
1094
  "rstrip": false,
@@ -1097,7 +1097,7 @@
1097
  },
1098
  {
1099
  "id": 32113,
1100
- "content": "ə",
1101
  "single_word": false,
1102
  "lstrip": false,
1103
  "rstrip": false,
@@ -1106,7 +1106,7 @@
1106
  },
1107
  {
1108
  "id": 32114,
1109
- "content": "ɚ",
1110
  "single_word": false,
1111
  "lstrip": false,
1112
  "rstrip": false,
@@ -1115,7 +1115,7 @@
1115
  },
1116
  {
1117
  "id": 32115,
1118
- "content": "ɵ",
1119
  "single_word": false,
1120
  "lstrip": false,
1121
  "rstrip": false,
@@ -1124,7 +1124,7 @@
1124
  },
1125
  {
1126
  "id": 32116,
1127
- "content": "ɘ",
1128
  "single_word": false,
1129
  "lstrip": false,
1130
  "rstrip": false,
@@ -1133,7 +1133,7 @@
1133
  },
1134
  {
1135
  "id": 32117,
1136
- "content": "ɛ",
1137
  "single_word": false,
1138
  "lstrip": false,
1139
  "rstrip": false,
@@ -1142,7 +1142,7 @@
1142
  },
1143
  {
1144
  "id": 32118,
1145
- "content": "ɜ",
1146
  "single_word": false,
1147
  "lstrip": false,
1148
  "rstrip": false,
@@ -1151,7 +1151,7 @@
1151
  },
1152
  {
1153
  "id": 32119,
1154
- "content": "ɝ",
1155
  "single_word": false,
1156
  "lstrip": false,
1157
  "rstrip": false,
@@ -1160,7 +1160,7 @@
1160
  },
1161
  {
1162
  "id": 32120,
1163
- "content": "ɞ",
1164
  "single_word": false,
1165
  "lstrip": false,
1166
  "rstrip": false,
@@ -1169,7 +1169,7 @@
1169
  },
1170
  {
1171
  "id": 32121,
1172
- "content": "ɠ",
1173
  "single_word": false,
1174
  "lstrip": false,
1175
  "rstrip": false,
@@ -1178,7 +1178,7 @@
1178
  },
1179
  {
1180
  "id": 32122,
1181
- "content": "ɢ",
1182
  "single_word": false,
1183
  "lstrip": false,
1184
  "rstrip": false,
@@ -1187,7 +1187,7 @@
1187
  },
1188
  {
1189
  "id": 32123,
1190
- "content": "ʛ",
1191
  "single_word": false,
1192
  "lstrip": false,
1193
  "rstrip": false,
@@ -1196,7 +1196,7 @@
1196
  },
1197
  {
1198
  "id": 32124,
1199
- "content": "ɡ",
1200
  "single_word": false,
1201
  "lstrip": false,
1202
  "rstrip": false,
@@ -1205,7 +1205,7 @@
1205
  },
1206
  {
1207
  "id": 32125,
1208
- "content": "ħ",
1209
  "single_word": false,
1210
  "lstrip": false,
1211
  "rstrip": false,
@@ -1214,7 +1214,7 @@
1214
  },
1215
  {
1216
  "id": 32126,
1217
- "content": "ɦ",
1218
  "single_word": false,
1219
  "lstrip": false,
1220
  "rstrip": false,
@@ -1223,7 +1223,7 @@
1223
  },
1224
  {
1225
  "id": 32127,
1226
- "content": "ɥ",
1227
  "single_word": false,
1228
  "lstrip": false,
1229
  "rstrip": false,
@@ -1232,7 +1232,7 @@
1232
  },
1233
  {
1234
  "id": 32128,
1235
- "content": "ɧ",
1236
  "single_word": false,
1237
  "lstrip": false,
1238
  "rstrip": false,
@@ -1241,7 +1241,7 @@
1241
  },
1242
  {
1243
  "id": 32129,
1244
- "content": "ʜ",
1245
  "single_word": false,
1246
  "lstrip": false,
1247
  "rstrip": false,
@@ -1250,7 +1250,7 @@
1250
  },
1251
  {
1252
  "id": 32130,
1253
- "content": "ɪ",
1254
  "single_word": false,
1255
  "lstrip": false,
1256
  "rstrip": false,
@@ -1259,7 +1259,7 @@
1259
  },
1260
  {
1261
  "id": 32131,
1262
- "content": "ɨ",
1263
  "single_word": false,
1264
  "lstrip": false,
1265
  "rstrip": false,
@@ -1268,7 +1268,7 @@
1268
  },
1269
  {
1270
  "id": 32132,
1271
- "content": "̈",
1272
  "single_word": false,
1273
  "lstrip": false,
1274
  "rstrip": false,
@@ -1277,7 +1277,7 @@
1277
  },
1278
  {
1279
  "id": 32133,
1280
- "content": "ʝ",
1281
  "single_word": false,
1282
  "lstrip": false,
1283
  "rstrip": false,
@@ -1286,7 +1286,7 @@
1286
  },
1287
  {
1288
  "id": 32134,
1289
- "content": "ɟ",
1290
  "single_word": false,
1291
  "lstrip": false,
1292
  "rstrip": false,
@@ -1295,7 +1295,7 @@
1295
  },
1296
  {
1297
  "id": 32135,
1298
- "content": "ʄ",
1299
  "single_word": false,
1300
  "lstrip": false,
1301
  "rstrip": false,
@@ -1304,7 +1304,7 @@
1304
  },
1305
  {
1306
  "id": 32136,
1307
- "content": "ɫ",
1308
  "single_word": false,
1309
  "lstrip": false,
1310
  "rstrip": false,
@@ -1313,7 +1313,7 @@
1313
  },
1314
  {
1315
  "id": 32137,
1316
- "content": "ɭ",
1317
  "single_word": false,
1318
  "lstrip": false,
1319
  "rstrip": false,
@@ -1322,7 +1322,7 @@
1322
  },
1323
  {
1324
  "id": 32138,
1325
- "content": "ɬ",
1326
  "single_word": false,
1327
  "lstrip": false,
1328
  "rstrip": false,
@@ -1331,7 +1331,7 @@
1331
  },
1332
  {
1333
  "id": 32139,
1334
- "content": "ʟ",
1335
  "single_word": false,
1336
  "lstrip": false,
1337
  "rstrip": false,
@@ -1340,7 +1340,7 @@
1340
  },
1341
  {
1342
  "id": 32140,
1343
- "content": "ɮ",
1344
  "single_word": false,
1345
  "lstrip": false,
1346
  "rstrip": false,
@@ -1349,7 +1349,7 @@
1349
  },
1350
  {
1351
  "id": 32141,
1352
- "content": "ɱ",
1353
  "single_word": false,
1354
  "lstrip": false,
1355
  "rstrip": false,
@@ -1358,7 +1358,7 @@
1358
  },
1359
  {
1360
  "id": 32142,
1361
- "content": "ŋ",
1362
  "single_word": false,
1363
  "lstrip": false,
1364
  "rstrip": false,
@@ -1367,7 +1367,7 @@
1367
  },
1368
  {
1369
  "id": 32143,
1370
- "content": "ɲ",
1371
  "single_word": false,
1372
  "lstrip": false,
1373
  "rstrip": false,
@@ -1376,7 +1376,7 @@
1376
  },
1377
  {
1378
  "id": 32144,
1379
- "content": "ɳ",
1380
  "single_word": false,
1381
  "lstrip": false,
1382
  "rstrip": false,
@@ -1385,7 +1385,7 @@
1385
  },
1386
  {
1387
  "id": 32145,
1388
- "content": "ɴ",
1389
  "single_word": false,
1390
  "lstrip": false,
1391
  "rstrip": false,
@@ -1394,7 +1394,7 @@
1394
  },
1395
  {
1396
  "id": 32146,
1397
- "content": "ɔ",
1398
  "single_word": false,
1399
  "lstrip": false,
1400
  "rstrip": false,
@@ -1403,7 +1403,7 @@
1403
  },
1404
  {
1405
  "id": 32147,
1406
- "content": "œ",
1407
  "single_word": false,
1408
  "lstrip": false,
1409
  "rstrip": false,
@@ -1412,7 +1412,7 @@
1412
  },
1413
  {
1414
  "id": 32148,
1415
- "content": "ɒ",
1416
  "single_word": false,
1417
  "lstrip": false,
1418
  "rstrip": false,
@@ -1421,7 +1421,7 @@
1421
  },
1422
  {
1423
  "id": 32149,
1424
- "content": "ɶ",
1425
  "single_word": false,
1426
  "lstrip": false,
1427
  "rstrip": false,
@@ -1430,7 +1430,7 @@
1430
  },
1431
  {
1432
  "id": 32150,
1433
- "content": "ø",
1434
  "single_word": false,
1435
  "lstrip": false,
1436
  "rstrip": false,
@@ -1439,7 +1439,7 @@
1439
  },
1440
  {
1441
  "id": 32151,
1442
- "content": "ɸ",
1443
  "single_word": false,
1444
  "lstrip": false,
1445
  "rstrip": false,
@@ -1448,7 +1448,7 @@
1448
  },
1449
  {
1450
  "id": 32152,
1451
- "content": "ɾ",
1452
  "single_word": false,
1453
  "lstrip": false,
1454
  "rstrip": false,
@@ -1457,7 +1457,7 @@
1457
  },
1458
  {
1459
  "id": 32153,
1460
- "content": "ɹ",
1461
  "single_word": false,
1462
  "lstrip": false,
1463
  "rstrip": false,
@@ -1466,7 +1466,7 @@
1466
  },
1467
  {
1468
  "id": 32154,
1469
- "content": "ʁ",
1470
  "single_word": false,
1471
  "lstrip": false,
1472
  "rstrip": false,
@@ -1475,7 +1475,7 @@
1475
  },
1476
  {
1477
  "id": 32155,
1478
- "content": "ʀ",
1479
  "single_word": false,
1480
  "lstrip": false,
1481
  "rstrip": false,
@@ -1484,7 +1484,7 @@
1484
  },
1485
  {
1486
  "id": 32156,
1487
- "content": "ɻ",
1488
  "single_word": false,
1489
  "lstrip": false,
1490
  "rstrip": false,
@@ -1493,7 +1493,7 @@
1493
  },
1494
  {
1495
  "id": 32157,
1496
- "content": "ɽ",
1497
  "single_word": false,
1498
  "lstrip": false,
1499
  "rstrip": false,
@@ -1502,7 +1502,7 @@
1502
  },
1503
  {
1504
  "id": 32158,
1505
- "content": "ɺ",
1506
  "single_word": false,
1507
  "lstrip": false,
1508
  "rstrip": false,
@@ -1511,7 +1511,7 @@
1511
  },
1512
  {
1513
  "id": 32159,
1514
- "content": "ʃ",
1515
  "single_word": false,
1516
  "lstrip": false,
1517
  "rstrip": false,
@@ -1520,7 +1520,7 @@
1520
  },
1521
  {
1522
  "id": 32160,
1523
- "content": "ʂ",
1524
  "single_word": false,
1525
  "lstrip": false,
1526
  "rstrip": false,
@@ -1529,7 +1529,7 @@
1529
  },
1530
  {
1531
  "id": 32161,
1532
- "content": "θ",
1533
  "single_word": false,
1534
  "lstrip": false,
1535
  "rstrip": false,
@@ -1538,7 +1538,7 @@
1538
  },
1539
  {
1540
  "id": 32162,
1541
- "content": "ʈ",
1542
  "single_word": false,
1543
  "lstrip": false,
1544
  "rstrip": false,
@@ -1547,7 +1547,7 @@
1547
  },
1548
  {
1549
  "id": 32163,
1550
- "content": "ʊ",
1551
  "single_word": false,
1552
  "lstrip": false,
1553
  "rstrip": false,
@@ -1556,7 +1556,7 @@
1556
  },
1557
  {
1558
  "id": 32164,
1559
- "content": "ʉ",
1560
  "single_word": false,
1561
  "lstrip": false,
1562
  "rstrip": false,
@@ -1565,7 +1565,7 @@
1565
  },
1566
  {
1567
  "id": 32165,
1568
- "content": "ʌ",
1569
  "single_word": false,
1570
  "lstrip": false,
1571
  "rstrip": false,
@@ -1574,7 +1574,7 @@
1574
  },
1575
  {
1576
  "id": 32166,
1577
- "content": "ʋ",
1578
  "single_word": false,
1579
  "lstrip": false,
1580
  "rstrip": false,
@@ -1583,7 +1583,7 @@
1583
  },
1584
  {
1585
  "id": 32167,
1586
- "content": "",
1587
  "single_word": false,
1588
  "lstrip": false,
1589
  "rstrip": false,
@@ -1592,7 +1592,7 @@
1592
  },
1593
  {
1594
  "id": 32168,
1595
- "content": "ɯ",
1596
  "single_word": false,
1597
  "lstrip": false,
1598
  "rstrip": false,
@@ -1601,7 +1601,7 @@
1601
  },
1602
  {
1603
  "id": 32169,
1604
- "content": "ʍ",
1605
  "single_word": false,
1606
  "lstrip": false,
1607
  "rstrip": false,
@@ -1610,7 +1610,7 @@
1610
  },
1611
  {
1612
  "id": 32170,
1613
- "content": "ɰ",
1614
  "single_word": false,
1615
  "lstrip": false,
1616
  "rstrip": false,
@@ -1619,7 +1619,7 @@
1619
  },
1620
  {
1621
  "id": 32171,
1622
- "content": "χ",
1623
  "single_word": false,
1624
  "lstrip": false,
1625
  "rstrip": false,
@@ -1628,7 +1628,7 @@
1628
  },
1629
  {
1630
  "id": 32172,
1631
- "content": "ɣ",
1632
  "single_word": false,
1633
  "lstrip": false,
1634
  "rstrip": false,
@@ -1637,7 +1637,7 @@
1637
  },
1638
  {
1639
  "id": 32173,
1640
- "content": "ʎ",
1641
  "single_word": false,
1642
  "lstrip": false,
1643
  "rstrip": false,
@@ -1646,7 +1646,7 @@
1646
  },
1647
  {
1648
  "id": 32174,
1649
- "content": "ʏ",
1650
  "single_word": false,
1651
  "lstrip": false,
1652
  "rstrip": false,
@@ -1655,7 +1655,7 @@
1655
  },
1656
  {
1657
  "id": 32175,
1658
- "content": "ɤ",
1659
  "single_word": false,
1660
  "lstrip": false,
1661
  "rstrip": false,
@@ -1664,7 +1664,7 @@
1664
  },
1665
  {
1666
  "id": 32176,
1667
- "content": "ʐ",
1668
  "single_word": false,
1669
  "lstrip": false,
1670
  "rstrip": false,
@@ -1673,7 +1673,7 @@
1673
  },
1674
  {
1675
  "id": 32177,
1676
- "content": "ʑ",
1677
  "single_word": false,
1678
  "lstrip": false,
1679
  "rstrip": false,
@@ -1682,7 +1682,7 @@
1682
  },
1683
  {
1684
  "id": 32178,
1685
- "content": "ʔ",
1686
  "single_word": false,
1687
  "lstrip": false,
1688
  "rstrip": false,
@@ -1691,7 +1691,7 @@
1691
  },
1692
  {
1693
  "id": 32179,
1694
- "content": "ʕ",
1695
  "single_word": false,
1696
  "lstrip": false,
1697
  "rstrip": false,
@@ -1700,7 +1700,7 @@
1700
  },
1701
  {
1702
  "id": 32180,
1703
- "content": "ʡ",
1704
  "single_word": false,
1705
  "lstrip": false,
1706
  "rstrip": false,
@@ -1709,7 +1709,7 @@
1709
  },
1710
  {
1711
  "id": 32181,
1712
- "content": "ʢ",
1713
  "single_word": false,
1714
  "lstrip": false,
1715
  "rstrip": false,
@@ -1718,7 +1718,7 @@
1718
  },
1719
  {
1720
  "id": 32182,
1721
- "content": "ˈ",
1722
  "single_word": false,
1723
  "lstrip": false,
1724
  "rstrip": false,
@@ -1727,7 +1727,7 @@
1727
  },
1728
  {
1729
  "id": 32183,
1730
- "content": "ˌ",
1731
  "single_word": false,
1732
  "lstrip": false,
1733
  "rstrip": false,
@@ -1736,7 +1736,7 @@
1736
  },
1737
  {
1738
  "id": 32184,
1739
- "content": "ː",
1740
  "single_word": false,
1741
  "lstrip": false,
1742
  "rstrip": false,
@@ -1745,7 +1745,7 @@
1745
  },
1746
  {
1747
  "id": 32185,
1748
- "content": "ʤ",
1749
  "single_word": false,
1750
  "lstrip": false,
1751
  "rstrip": false,
 
980
  },
981
  {
982
  "id": 32100,
983
+ "content": "ʤ",
984
  "single_word": false,
985
  "lstrip": false,
986
  "rstrip": false,
 
989
  },
990
  {
991
  "id": 32101,
992
+ "content": "ɑ",
993
  "single_word": false,
994
  "lstrip": false,
995
  "rstrip": false,
 
998
  },
999
  {
1000
  "id": 32102,
1001
+ "content": "æ",
1002
  "single_word": false,
1003
  "lstrip": false,
1004
  "rstrip": false,
 
1007
  },
1008
  {
1009
  "id": 32103,
1010
+ "content": "ɐ",
1011
  "single_word": false,
1012
  "lstrip": false,
1013
  "rstrip": false,
 
1016
  },
1017
  {
1018
  "id": 32104,
1019
+ "content": "̃",
1020
  "single_word": false,
1021
  "lstrip": false,
1022
  "rstrip": false,
 
1025
  },
1026
  {
1027
  "id": 32105,
1028
+ "content": "β",
1029
  "single_word": false,
1030
  "lstrip": false,
1031
  "rstrip": false,
 
1034
  },
1035
  {
1036
  "id": 32106,
1037
+ "content": "ɓ",
1038
  "single_word": false,
1039
  "lstrip": false,
1040
  "rstrip": false,
 
1043
  },
1044
  {
1045
  "id": 32107,
1046
+ "content": "ʙ",
1047
  "single_word": false,
1048
  "lstrip": false,
1049
  "rstrip": false,
 
1052
  },
1053
  {
1054
  "id": 32108,
1055
+ "content": "ɕ",
1056
  "single_word": false,
1057
  "lstrip": false,
1058
  "rstrip": false,
 
1061
  },
1062
  {
1063
  "id": 32109,
1064
+ "content": "ð",
1065
  "single_word": false,
1066
  "lstrip": false,
1067
  "rstrip": false,
 
1070
  },
1071
  {
1072
  "id": 32110,
1073
+ "content": "͡",
1074
  "single_word": false,
1075
  "lstrip": false,
1076
  "rstrip": false,
 
1079
  },
1080
  {
1081
  "id": 32111,
1082
+ "content": "ʒ",
1083
  "single_word": false,
1084
  "lstrip": false,
1085
  "rstrip": false,
 
1088
  },
1089
  {
1090
  "id": 32112,
1091
+ "content": "ɖ",
1092
  "single_word": false,
1093
  "lstrip": false,
1094
  "rstrip": false,
 
1097
  },
1098
  {
1099
  "id": 32113,
1100
+ "content": "ɗ",
1101
  "single_word": false,
1102
  "lstrip": false,
1103
  "rstrip": false,
 
1106
  },
1107
  {
1108
  "id": 32114,
1109
+ "content": "ə",
1110
  "single_word": false,
1111
  "lstrip": false,
1112
  "rstrip": false,
 
1115
  },
1116
  {
1117
  "id": 32115,
1118
+ "content": "ɚ",
1119
  "single_word": false,
1120
  "lstrip": false,
1121
  "rstrip": false,
 
1124
  },
1125
  {
1126
  "id": 32116,
1127
+ "content": "ɵ",
1128
  "single_word": false,
1129
  "lstrip": false,
1130
  "rstrip": false,
 
1133
  },
1134
  {
1135
  "id": 32117,
1136
+ "content": "ɘ",
1137
  "single_word": false,
1138
  "lstrip": false,
1139
  "rstrip": false,
 
1142
  },
1143
  {
1144
  "id": 32118,
1145
+ "content": "ɛ",
1146
  "single_word": false,
1147
  "lstrip": false,
1148
  "rstrip": false,
 
1151
  },
1152
  {
1153
  "id": 32119,
1154
+ "content": "ɜ",
1155
  "single_word": false,
1156
  "lstrip": false,
1157
  "rstrip": false,
 
1160
  },
1161
  {
1162
  "id": 32120,
1163
+ "content": "ɝ",
1164
  "single_word": false,
1165
  "lstrip": false,
1166
  "rstrip": false,
 
1169
  },
1170
  {
1171
  "id": 32121,
1172
+ "content": "ɞ",
1173
  "single_word": false,
1174
  "lstrip": false,
1175
  "rstrip": false,
 
1178
  },
1179
  {
1180
  "id": 32122,
1181
+ "content": "ɠ",
1182
  "single_word": false,
1183
  "lstrip": false,
1184
  "rstrip": false,
 
1187
  },
1188
  {
1189
  "id": 32123,
1190
+ "content": "ɢ",
1191
  "single_word": false,
1192
  "lstrip": false,
1193
  "rstrip": false,
 
1196
  },
1197
  {
1198
  "id": 32124,
1199
+ "content": "ʛ",
1200
  "single_word": false,
1201
  "lstrip": false,
1202
  "rstrip": false,
 
1205
  },
1206
  {
1207
  "id": 32125,
1208
+ "content": "ɡ",
1209
  "single_word": false,
1210
  "lstrip": false,
1211
  "rstrip": false,
 
1214
  },
1215
  {
1216
  "id": 32126,
1217
+ "content": "ħ",
1218
  "single_word": false,
1219
  "lstrip": false,
1220
  "rstrip": false,
 
1223
  },
1224
  {
1225
  "id": 32127,
1226
+ "content": "ɦ",
1227
  "single_word": false,
1228
  "lstrip": false,
1229
  "rstrip": false,
 
1232
  },
1233
  {
1234
  "id": 32128,
1235
+ "content": "ɥ",
1236
  "single_word": false,
1237
  "lstrip": false,
1238
  "rstrip": false,
 
1241
  },
1242
  {
1243
  "id": 32129,
1244
+ "content": "ɧ",
1245
  "single_word": false,
1246
  "lstrip": false,
1247
  "rstrip": false,
 
1250
  },
1251
  {
1252
  "id": 32130,
1253
+ "content": "ʜ",
1254
  "single_word": false,
1255
  "lstrip": false,
1256
  "rstrip": false,
 
1259
  },
1260
  {
1261
  "id": 32131,
1262
+ "content": "ɪ",
1263
  "single_word": false,
1264
  "lstrip": false,
1265
  "rstrip": false,
 
1268
  },
1269
  {
1270
  "id": 32132,
1271
+ "content": "ɨ",
1272
  "single_word": false,
1273
  "lstrip": false,
1274
  "rstrip": false,
 
1277
  },
1278
  {
1279
  "id": 32133,
1280
+ "content": "̈",
1281
  "single_word": false,
1282
  "lstrip": false,
1283
  "rstrip": false,
 
1286
  },
1287
  {
1288
  "id": 32134,
1289
+ "content": "ʝ",
1290
  "single_word": false,
1291
  "lstrip": false,
1292
  "rstrip": false,
 
1295
  },
1296
  {
1297
  "id": 32135,
1298
+ "content": "ɟ",
1299
  "single_word": false,
1300
  "lstrip": false,
1301
  "rstrip": false,
 
1304
  },
1305
  {
1306
  "id": 32136,
1307
+ "content": "ʄ",
1308
  "single_word": false,
1309
  "lstrip": false,
1310
  "rstrip": false,
 
1313
  },
1314
  {
1315
  "id": 32137,
1316
+ "content": "ɫ",
1317
  "single_word": false,
1318
  "lstrip": false,
1319
  "rstrip": false,
 
1322
  },
1323
  {
1324
  "id": 32138,
1325
+ "content": "ɭ",
1326
  "single_word": false,
1327
  "lstrip": false,
1328
  "rstrip": false,
 
1331
  },
1332
  {
1333
  "id": 32139,
1334
+ "content": "ɬ",
1335
  "single_word": false,
1336
  "lstrip": false,
1337
  "rstrip": false,
 
1340
  },
1341
  {
1342
  "id": 32140,
1343
+ "content": "ʟ",
1344
  "single_word": false,
1345
  "lstrip": false,
1346
  "rstrip": false,
 
1349
  },
1350
  {
1351
  "id": 32141,
1352
+ "content": "ɮ",
1353
  "single_word": false,
1354
  "lstrip": false,
1355
  "rstrip": false,
 
1358
  },
1359
  {
1360
  "id": 32142,
1361
+ "content": "ɱ",
1362
  "single_word": false,
1363
  "lstrip": false,
1364
  "rstrip": false,
 
1367
  },
1368
  {
1369
  "id": 32143,
1370
+ "content": "ŋ",
1371
  "single_word": false,
1372
  "lstrip": false,
1373
  "rstrip": false,
 
1376
  },
1377
  {
1378
  "id": 32144,
1379
+ "content": "ɲ",
1380
  "single_word": false,
1381
  "lstrip": false,
1382
  "rstrip": false,
 
1385
  },
1386
  {
1387
  "id": 32145,
1388
+ "content": "ɳ",
1389
  "single_word": false,
1390
  "lstrip": false,
1391
  "rstrip": false,
 
1394
  },
1395
  {
1396
  "id": 32146,
1397
+ "content": "ɴ",
1398
  "single_word": false,
1399
  "lstrip": false,
1400
  "rstrip": false,
 
1403
  },
1404
  {
1405
  "id": 32147,
1406
+ "content": "ɔ",
1407
  "single_word": false,
1408
  "lstrip": false,
1409
  "rstrip": false,
 
1412
  },
1413
  {
1414
  "id": 32148,
1415
+ "content": "œ",
1416
  "single_word": false,
1417
  "lstrip": false,
1418
  "rstrip": false,
 
1421
  },
1422
  {
1423
  "id": 32149,
1424
+ "content": "ɒ",
1425
  "single_word": false,
1426
  "lstrip": false,
1427
  "rstrip": false,
 
1430
  },
1431
  {
1432
  "id": 32150,
1433
+ "content": "ɶ",
1434
  "single_word": false,
1435
  "lstrip": false,
1436
  "rstrip": false,
 
1439
  },
1440
  {
1441
  "id": 32151,
1442
+ "content": "ø",
1443
  "single_word": false,
1444
  "lstrip": false,
1445
  "rstrip": false,
 
1448
  },
1449
  {
1450
  "id": 32152,
1451
+ "content": "ɸ",
1452
  "single_word": false,
1453
  "lstrip": false,
1454
  "rstrip": false,
 
1457
  },
1458
  {
1459
  "id": 32153,
1460
+ "content": "ɾ",
1461
  "single_word": false,
1462
  "lstrip": false,
1463
  "rstrip": false,
 
1466
  },
1467
  {
1468
  "id": 32154,
1469
+ "content": "ɹ",
1470
  "single_word": false,
1471
  "lstrip": false,
1472
  "rstrip": false,
 
1475
  },
1476
  {
1477
  "id": 32155,
1478
+ "content": "ʁ",
1479
  "single_word": false,
1480
  "lstrip": false,
1481
  "rstrip": false,
 
1484
  },
1485
  {
1486
  "id": 32156,
1487
+ "content": "ʀ",
1488
  "single_word": false,
1489
  "lstrip": false,
1490
  "rstrip": false,
 
1493
  },
1494
  {
1495
  "id": 32157,
1496
+ "content": "ɻ",
1497
  "single_word": false,
1498
  "lstrip": false,
1499
  "rstrip": false,
 
1502
  },
1503
  {
1504
  "id": 32158,
1505
+ "content": "ɽ",
1506
  "single_word": false,
1507
  "lstrip": false,
1508
  "rstrip": false,
 
1511
  },
1512
  {
1513
  "id": 32159,
1514
+ "content": "ɺ",
1515
  "single_word": false,
1516
  "lstrip": false,
1517
  "rstrip": false,
 
1520
  },
1521
  {
1522
  "id": 32160,
1523
+ "content": "ʃ",
1524
  "single_word": false,
1525
  "lstrip": false,
1526
  "rstrip": false,
 
1529
  },
1530
  {
1531
  "id": 32161,
1532
+ "content": "ʂ",
1533
  "single_word": false,
1534
  "lstrip": false,
1535
  "rstrip": false,
 
1538
  },
1539
  {
1540
  "id": 32162,
1541
+ "content": "θ",
1542
  "single_word": false,
1543
  "lstrip": false,
1544
  "rstrip": false,
 
1547
  },
1548
  {
1549
  "id": 32163,
1550
+ "content": "ʈ",
1551
  "single_word": false,
1552
  "lstrip": false,
1553
  "rstrip": false,
 
1556
  },
1557
  {
1558
  "id": 32164,
1559
+ "content": "ʊ",
1560
  "single_word": false,
1561
  "lstrip": false,
1562
  "rstrip": false,
 
1565
  },
1566
  {
1567
  "id": 32165,
1568
+ "content": "ʉ",
1569
  "single_word": false,
1570
  "lstrip": false,
1571
  "rstrip": false,
 
1574
  },
1575
  {
1576
  "id": 32166,
1577
+ "content": "ʌ",
1578
  "single_word": false,
1579
  "lstrip": false,
1580
  "rstrip": false,
 
1583
  },
1584
  {
1585
  "id": 32167,
1586
+ "content": "ʋ",
1587
  "single_word": false,
1588
  "lstrip": false,
1589
  "rstrip": false,
 
1592
  },
1593
  {
1594
  "id": 32168,
1595
+ "content": "",
1596
  "single_word": false,
1597
  "lstrip": false,
1598
  "rstrip": false,
 
1601
  },
1602
  {
1603
  "id": 32169,
1604
+ "content": "ɯ",
1605
  "single_word": false,
1606
  "lstrip": false,
1607
  "rstrip": false,
 
1610
  },
1611
  {
1612
  "id": 32170,
1613
+ "content": "ʍ",
1614
  "single_word": false,
1615
  "lstrip": false,
1616
  "rstrip": false,
 
1619
  },
1620
  {
1621
  "id": 32171,
1622
+ "content": "ɰ",
1623
  "single_word": false,
1624
  "lstrip": false,
1625
  "rstrip": false,
 
1628
  },
1629
  {
1630
  "id": 32172,
1631
+ "content": "χ",
1632
  "single_word": false,
1633
  "lstrip": false,
1634
  "rstrip": false,
 
1637
  },
1638
  {
1639
  "id": 32173,
1640
+ "content": "ɣ",
1641
  "single_word": false,
1642
  "lstrip": false,
1643
  "rstrip": false,
 
1646
  },
1647
  {
1648
  "id": 32174,
1649
+ "content": "ʎ",
1650
  "single_word": false,
1651
  "lstrip": false,
1652
  "rstrip": false,
 
1655
  },
1656
  {
1657
  "id": 32175,
1658
+ "content": "ʏ",
1659
  "single_word": false,
1660
  "lstrip": false,
1661
  "rstrip": false,
 
1664
  },
1665
  {
1666
  "id": 32176,
1667
+ "content": "ɤ",
1668
  "single_word": false,
1669
  "lstrip": false,
1670
  "rstrip": false,
 
1673
  },
1674
  {
1675
  "id": 32177,
1676
+ "content": "ʐ",
1677
  "single_word": false,
1678
  "lstrip": false,
1679
  "rstrip": false,
 
1682
  },
1683
  {
1684
  "id": 32178,
1685
+ "content": "ʑ",
1686
  "single_word": false,
1687
  "lstrip": false,
1688
  "rstrip": false,
 
1691
  },
1692
  {
1693
  "id": 32179,
1694
+ "content": "ʔ",
1695
  "single_word": false,
1696
  "lstrip": false,
1697
  "rstrip": false,
 
1700
  },
1701
  {
1702
  "id": 32180,
1703
+ "content": "ʕ",
1704
  "single_word": false,
1705
  "lstrip": false,
1706
  "rstrip": false,
 
1709
  },
1710
  {
1711
  "id": 32181,
1712
+ "content": "ʡ",
1713
  "single_word": false,
1714
  "lstrip": false,
1715
  "rstrip": false,
 
1718
  },
1719
  {
1720
  "id": 32182,
1721
+ "content": "ʢ",
1722
  "single_word": false,
1723
  "lstrip": false,
1724
  "rstrip": false,
 
1727
  },
1728
  {
1729
  "id": 32183,
1730
+ "content": "ˈ",
1731
  "single_word": false,
1732
  "lstrip": false,
1733
  "rstrip": false,
 
1736
  },
1737
  {
1738
  "id": 32184,
1739
+ "content": "ˌ",
1740
  "single_word": false,
1741
  "lstrip": false,
1742
  "rstrip": false,
 
1745
  },
1746
  {
1747
  "id": 32185,
1748
+ "content": "ː",
1749
  "single_word": false,
1750
  "lstrip": false,
1751
  "rstrip": false,
tokenizer_config.json CHANGED
@@ -104,7 +104,7 @@
104
  "eos_token": "</s>",
105
  "extra_ids": 100,
106
  "model_max_length": 512,
107
- "name_or_path": "mariopeng/phoneT5",
108
  "pad_token": "<pad>",
109
  "special_tokens_map_file": null,
110
  "tokenizer_class": "T5Tokenizer",
 
104
  "eos_token": "</s>",
105
  "extra_ids": 100,
106
  "model_max_length": 512,
107
+ "name_or_path": "t5-small",
108
  "pad_token": "<pad>",
109
  "special_tokens_map_file": null,
110
  "tokenizer_class": "T5Tokenizer",