Karan Chand commited on
Commit
7cc705a
·
1 Parent(s): 4be5ec6

Upload lm-boosted decoder

Browse files
alphabet.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"labels": ["", "<s>", "</s>", "\u2047", " ", "'", "-", "a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u", "v", "w", "x", "y", "z"], "is_bpe": false}
language_model/5gram_correct.arpa ADDED
The diff for this file is too large to render. See raw diff
 
language_model/attrs.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"alpha": 0.5, "beta": 1.5, "unk_score_offset": -10.0, "score_boundary": true}
language_model/unigrams.txt ADDED
@@ -0,0 +1,764 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ </s>
2
+ <s>
3
+ a
4
+ able
5
+ about
6
+ above
7
+ accept
8
+ adieu
9
+ adios
10
+ adjacent
11
+ adjo
12
+ adria
13
+ advi
14
+ advised
15
+ aero
16
+ aerovic
17
+ affirm
18
+ after
19
+ afternoo
20
+ afternoon
21
+ afterwards
22
+ again
23
+ ageri
24
+ agree
25
+ ah
26
+ aha
27
+ ahead
28
+ ahm
29
+ ai
30
+ air
31
+ airals
32
+ airbus
33
+ aircraft
34
+ airforce
35
+ airfrans
36
+ airlink
37
+ airtas
38
+ airtours
39
+ airway
40
+ al
41
+ albix
42
+ alfa
43
+ algerie
44
+ ali
45
+ alita
46
+ alitalia
47
+ allowed
48
+ alpha
49
+ already
50
+ alright
51
+ also
52
+ amendment
53
+ an
54
+ and
55
+ another
56
+ any
57
+ anyhow
58
+ aosta
59
+ approval
60
+ approved
61
+ approximately
62
+ arbos
63
+ are
64
+ area
65
+ arrivederci
66
+ as
67
+ ascot
68
+ at
69
+ au
70
+ auf
71
+ austrian
72
+ aviva
73
+ awhile
74
+ b
75
+ back
76
+ bafair
77
+ balkan
78
+ bama
79
+ be
80
+ bee
81
+ been
82
+ before
83
+ being
84
+ belgian
85
+ below
86
+ belstar
87
+ berlin
88
+ bern
89
+ best
90
+ bilsa
91
+ bit
92
+ blocked
93
+ blue
94
+ bonjour
95
+ both
96
+ bravo
97
+ bre
98
+ break
99
+ bri
100
+ britan
101
+ britannia
102
+ british
103
+ bull
104
+ buongiorno
105
+ but
106
+ by
107
+ bye
108
+ c
109
+ call
110
+ called
111
+ calling
112
+ callsign
113
+ can
114
+ cann
115
+ canne
116
+ case
117
+ centennial
118
+ chance
119
+ change
120
+ charl
121
+ charlie
122
+ check
123
+ checked
124
+ cheena
125
+ ciao
126
+ clear
127
+ clearance
128
+ cleared
129
+ cli
130
+ climb
131
+ climbing
132
+ co
133
+ code
134
+ color
135
+ come
136
+ coming
137
+ commence
138
+ computer
139
+ con
140
+ condor
141
+ confirm
142
+ confirmation
143
+ confirmed
144
+ constellation
145
+ cont
146
+ contact
147
+ contacted
148
+ continental
149
+ continue
150
+ control
151
+ convenience
152
+ cooperation
153
+ coordination
154
+ copied
155
+ corna
156
+ correct
157
+ correction
158
+ corsair
159
+ costa
160
+ cot
161
+ cotam
162
+ could
163
+ course
164
+ cross
165
+ crossing
166
+ cruise
167
+ cruising
168
+ current
169
+ d
170
+ dag
171
+ day
172
+ decim
173
+ decimal
174
+ decrease
175
+ degrees
176
+ del
177
+ delta
178
+ des
179
+ descend
180
+ descending
181
+ descent
182
+ destination
183
+ devec
184
+ did
185
+ dijon
186
+ dinkelsbuhl
187
+ dir
188
+ direct
189
+ disregard
190
+ distance
191
+ do
192
+ does
193
+ dont
194
+ down
195
+ du
196
+ due
197
+ dusseldorf
198
+ earlier
199
+ eas
200
+ east
201
+ echo
202
+ egypt
203
+ egyptair
204
+ eigh
205
+ eight
206
+ eighty
207
+ either
208
+ eleven
209
+ emirates
210
+ enable
211
+ epinal
212
+ equipped
213
+ established
214
+ europa
215
+ eva
216
+ even
217
+ evening
218
+ exact
219
+ expect
220
+ expedite
221
+ expeditious
222
+ expeditiously
223
+ f
224
+ familiar
225
+ faster
226
+ feet
227
+ fi
228
+ fifteen
229
+ final
230
+ fine
231
+ finnair
232
+ five
233
+ flight
234
+ fly
235
+ fo
236
+ fokker
237
+ for
238
+ force
239
+ forty
240
+ four
241
+ fox
242
+ foxtrot
243
+ foxy
244
+ france
245
+ frankfurt
246
+ french
247
+ freq
248
+ frequenc
249
+ frequency
250
+ fribourg
251
+ from
252
+ fu
253
+ full
254
+ fully
255
+ further
256
+ fusse
257
+ futura
258
+ gave
259
+ ge
260
+ gene
261
+ genev
262
+ geneva
263
+ georgia
264
+ german
265
+ germania
266
+ get
267
+ gibair
268
+ give
269
+ go
270
+ going
271
+ golf
272
+ goo
273
+ good
274
+ got
275
+ gotil
276
+ gott
277
+ gruss
278
+ gulf
279
+ guten
280
+ h
281
+ half
282
+ hallo
283
+ hamburg
284
+ hansa
285
+ hanseli
286
+ hap
287
+ hapag
288
+ have
289
+ heading
290
+ hejda
291
+ hello
292
+ help
293
+ herbi
294
+ high
295
+ higher
296
+ hm
297
+ ho
298
+ hochwald
299
+ hoi
300
+ hot
301
+ hote
302
+ hotel
303
+ how
304
+ however
305
+ hundred
306
+ i
307
+ iberia
308
+ iden
309
+ ident
310
+ identification
311
+ identified
312
+ if
313
+ ill
314
+ im
315
+ immediately
316
+ in
317
+ inbound
318
+ increase
319
+ ind
320
+ indeed
321
+ india
322
+ indialook
323
+ indication
324
+ information
325
+ ingishire
326
+ initial
327
+ initially
328
+ instead
329
+ instructed
330
+ inter
331
+ interested
332
+ interfere
333
+ intersection
334
+ into
335
+ is
336
+ israeli
337
+ it
338
+ its
339
+ japan
340
+ japanair
341
+ jat
342
+ jet
343
+ jetaviation
344
+ jetcom
345
+ jose
346
+ juliett
347
+ just
348
+ k
349
+ kamas
350
+ karlsruhe
351
+ kay
352
+ keep
353
+ kempten
354
+ kilo
355
+ kines
356
+ kir
357
+ knots
358
+ know
359
+ l
360
+ la
361
+ larvi
362
+ last
363
+ later
364
+ lauda
365
+ le
366
+ least
367
+ leave
368
+ left
369
+ leisure
370
+ less
371
+ lev
372
+ level
373
+ liberty
374
+ light
375
+ likewise
376
+ lima
377
+ line
378
+ link
379
+ little
380
+ lloyd
381
+ london
382
+ looking
383
+ looks
384
+ lower
385
+ lu
386
+ luftha
387
+ lufthansa
388
+ lufty
389
+ luha
390
+ lupen
391
+ luxair
392
+ luxeuil
393
+ lyon
394
+ m
395
+ mach
396
+ maintain
397
+ maintaining
398
+ make
399
+ malay
400
+ malaysian
401
+ malta
402
+ many
403
+ marseille
404
+ masp
405
+ may
406
+ me
407
+ med
408
+ merair
409
+ meridiana
410
+ metavec
411
+ midland
412
+ mike
413
+ milan
414
+ milano
415
+ miles
416
+ military
417
+ minimum
418
+ minute
419
+ minutes
420
+ mis
421
+ missed
422
+ missing
423
+ mission
424
+ mistake
425
+ mixed
426
+ monarch
427
+ mor
428
+ more
429
+ morgen
430
+ morn
431
+ morning
432
+ morok
433
+ much
434
+ mun
435
+ munchen
436
+ munich
437
+ my
438
+ nafamens
439
+ nah
440
+ nato
441
+ nattenheim
442
+ navi
443
+ navig
444
+ navigatio
445
+ navigation
446
+ near
447
+ neckar
448
+ need
449
+ negative
450
+ negra
451
+ nelli
452
+ netherlands
453
+ new
454
+ ni
455
+ nin
456
+ nine
457
+ no
458
+ non
459
+ normal
460
+ north
461
+ norvenich
462
+ not
463
+ november
464
+ now
465
+ number
466
+ o
467
+ observe
468
+ occupied
469
+ oclock
470
+ odina
471
+ of
472
+ oh
473
+ ohh
474
+ ok
475
+ okay
476
+ okaydoke
477
+ olben
478
+ olympic
479
+ omega
480
+ on
481
+ one
482
+ onur
483
+ opposite
484
+ or
485
+ osca
486
+ oscar
487
+ other
488
+ out
489
+ over
490
+ own
491
+ p
492
+ papa
493
+ paris
494
+ passe
495
+ passeiry
496
+ passing
497
+ per
498
+ period
499
+ permit
500
+ pick
501
+ pin
502
+ planned
503
+ please
504
+ point
505
+ portugal
506
+ portugalia
507
+ position
508
+ possible
509
+ preceding
510
+ prefer
511
+ present
512
+ presently
513
+ pressure
514
+ previous
515
+ prex
516
+ problem
517
+ problems
518
+ proc
519
+ procee
520
+ proceed
521
+ quite
522
+ r
523
+ ra
524
+ rad
525
+ radar
526
+ radio
527
+ rate
528
+ re
529
+ reach
530
+ reaching
531
+ read
532
+ reading
533
+ ready
534
+ realized
535
+ reason
536
+ received
537
+ reclearance
538
+ recleared
539
+ reduce
540
+ rei
541
+ reims
542
+ remain
543
+ report
544
+ reported
545
+ request
546
+ requested
547
+ requesting
548
+ rerouted
549
+ resia
550
+ restricting
551
+ restrictions
552
+ resume
553
+ revoir
554
+ rhei
555
+ rhein
556
+ rhi
557
+ right
558
+ roge
559
+ roger
560
+ rolampont
561
+ rollen
562
+ romeo
563
+ route
564
+ routing
565
+ roystar
566
+ runway
567
+ rv
568
+ s
569
+ sabena
570
+ said
571
+ same
572
+ saronno
573
+ sata
574
+ saudia
575
+ say
576
+ scandinavian
577
+ schonen
578
+ sec
579
+ second
580
+ sector
581
+ see
582
+ seems
583
+ sent
584
+ separation
585
+ servus
586
+ set
587
+ sev
588
+ seven
589
+ shamrock
590
+ short
591
+ shortcut
592
+ shortly
593
+ should
594
+ si
595
+ sierra
596
+ since
597
+ singa
598
+ sir
599
+ six
600
+ skyfox
601
+ slightly
602
+ slower
603
+ so
604
+ sobelair
605
+ soon
606
+ sorry
607
+ south
608
+ space
609
+ spair
610
+ spar
611
+ speed
612
+ speedbird
613
+ speedway
614
+ squawk
615
+ squawking
616
+ st
617
+ stable
618
+ stand
619
+ standard
620
+ state
621
+ station
622
+ stay
623
+ steel
624
+ still
625
+ stop
626
+ stress
627
+ succeeding
628
+ sufficient
629
+ suggest
630
+ sunwing
631
+ sure
632
+ swi
633
+ swiss
634
+ swissair
635
+ switch
636
+ t
637
+ ta
638
+ tag
639
+ taitian
640
+ talk
641
+ tan
642
+ tango
643
+ tarom
644
+ tele
645
+ ten
646
+ th
647
+ than
648
+ thank
649
+ thanks
650
+ that
651
+ thats
652
+ the
653
+ then
654
+ there
655
+ thereafter
656
+ think
657
+ thirteen
658
+ thirty
659
+ this
660
+ thousand
661
+ thr
662
+ three
663
+ through
664
+ till
665
+ time
666
+ to
667
+ today
668
+ told
669
+ too
670
+ topswiss
671
+ torino
672
+ tour
673
+ towards
674
+ tra
675
+ track
676
+ traffic
677
+ tran
678
+ transavia
679
+ translift
680
+ transmission
681
+ transu
682
+ transwede
683
+ trasa
684
+ trasad
685
+ trasadingen
686
+ triple
687
+ troubles
688
+ try
689
+ tsch
690
+ tschu
691
+ tschuss
692
+ tun
693
+ tunair
694
+ tunis
695
+ turkair
696
+ turkish
697
+ turn
698
+ turning
699
+ tw
700
+ twenty
701
+ two
702
+ type
703
+ u
704
+ ukay
705
+ understand
706
+ uniform
707
+ united
708
+ until
709
+ up
710
+ upon
711
+ us
712
+ v
713
+ valda
714
+ vectors
715
+ very
716
+ vi
717
+ via
718
+ victor
719
+ viscinity
720
+ viva
721
+ w
722
+ wanted
723
+ warburg
724
+ was
725
+ wasnt
726
+ way
727
+ we
728
+ welcome
729
+ well
730
+ were
731
+ what
732
+ whats
733
+ when
734
+ where
735
+ whether
736
+ which
737
+ whiskey
738
+ whitestar
739
+ who
740
+ whos
741
+ wiederhoren
742
+ will
743
+ willisau
744
+ wind
745
+ with
746
+ within
747
+ worth
748
+ would
749
+ wrong
750
+ xray
751
+ yankee
752
+ yeah
753
+ yes
754
+ you
755
+ your
756
+ youre
757
+ youve
758
+ z
759
+ ze
760
+ zer
761
+ zero
762
+ zulu
763
+ zuri
764
+ zurich
preprocessor_config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "do_normalize": true,
3
+ "feature_extractor_type": "Wav2Vec2FeatureExtractor",
4
+ "feature_size": 1,
5
+ "padding_side": "right",
6
+ "padding_value": 0.0,
7
+ "processor_class": "Wav2Vec2ProcessorWithLM",
8
+ "return_attention_mask": true,
9
+ "sampling_rate": 16000
10
+ }
special_tokens_map.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>"}
tokenizer_config.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "<pad>", "do_lower_case": false, "word_delimiter_token": "|", "replace_word_delimiter_char": " ", "special_tokens_map_file": "/root/.cache/huggingface/transformers/c2fa5198a7a6c87e4e444afac6d9a7c2d8e45299aaf8966e41d727cc6ae7e04c.9d6cd81ef646692fb1c169a880161ea1cb95f49694f220aced9b704b457e51dd", "name_or_path": "jonatasgrosman/wav2vec2-large-xlsr-53-english", "tokenizer_class": "Wav2Vec2CTCTokenizer", "processor_class": "Wav2Vec2ProcessorWithLM"}
vocab.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"<pad>": 0, "<s>": 1, "</s>": 2, "<unk>": 3, "|": 4, "'": 5, "-": 6, "a": 7, "b": 8, "c": 9, "d": 10, "e": 11, "f": 12, "g": 13, "h": 14, "i": 15, "j": 16, "k": 17, "l": 18, "m": 19, "n": 20, "o": 21, "p": 22, "q": 23, "r": 24, "s": 25, "t": 26, "u": 27, "v": 28, "w": 29, "x": 30, "y": 31, "z": 32}