transformers 10

Parameter Efficient Fine Tuning Notes Jun 15, 2025
Notes on PyTorch's Distributed Data Parallel (DDP) May 13, 2025
Different Transformers Attention Variants Jan 22, 2025
Context Parallelism in Transformers: A Brief Overview Sep 28, 2024
Distributed Tensor (DTensor) in PyTorch: Overview Sep 28, 2024
Zero Redunduncy Optimizer (ZeRO): Paper Summary Sep 28, 2024
Distributed training technologies for Transformers: Overview Aug 30, 2024
Named Entity Recognition (NER) as Machine Reading Comprehension (MRC) Aug 20, 2021
Train BERT for Question Answering Task Jan 14, 2021
Abstractive Text Summarization with GPT2 Aug 15, 2020