File size: 22,902 Bytes

8d82201

import contextlib
import io
import logging
import numpy as np
import os
import random
import copy
import pycocotools.mask as mask_util
from fvcore.common.timer import Timer
from PIL import Image
import torch.utils.data as data

from detectron2.structures import Boxes, BoxMode, PolygonMasks, RotatedBoxes
from detectron2.utils.file_io import PathManager

import time
import copy
import logging
import torch
import math

from detectron2.config import configurable
from detectron2.data import detection_utils as utils
from detectron2.data import transforms as T

# from transformers import BertTokenizer
from bert.tokenization_bert import BertTokenizer
from pycocotools import mask as coco_mask
from data.utils import convert_coco_poly_to_mask, build_transform_train, build_transform_test
from .utils import cosine_annealing
"""
This file contains functions to parse RefCOCO-format annotations into dicts in "Detectron2 format".
"""


import albumentations as A
from albumentations.pytorch import ToTensorV2
from PIL import Image, ImageDraw, ImageFilter
import lmdb
import pyarrow as pa


  
def loads_pyarrow(buf):
    return pa.deserialize(buf)



logger = logging.getLogger(__name__)

__all__ = ["load_refcoco_json"]

class GReferDataset(data.Dataset):
    def __init__(self, 
                 args, refer_root, dataset_name, splitby, split, image_root,
                 img_format="RGB", merge=True,
                 extra_annotation_keys=None, extra_refer_keys=None):
        
        self.refer_root = refer_root
        self.dataset_name = dataset_name
        self.splitby = splitby
        self.split = split
        self.image_root = image_root
        self.extra_annotation_keys = extra_annotation_keys
        self.extra_refer_keys = extra_refer_keys
        self.img_format = img_format
        self.merge = merge
        self.max_tokens = 20
        self.tokenizer = BertTokenizer.from_pretrained(args.bert_tokenizer)
        
        if split == "train":
            self.tfm_gens = build_transform_train(args)
        elif split in ["val", "test", "testA", "testB"]:
            self.tfm_gens = build_transform_test(args)
    
        if self.dataset_name == 'refcocop':
            self.dataset_name = 'refcoco+'
        if self.dataset_name == 'refcoco' or self.dataset_name == 'refcoco+':
            self.splitby == 'unc'
        if self.dataset_name == 'refcocog':
            assert self.splitby == 'umd' or self.splitby == 'google'

        dataset_id = '_'.join([self.dataset_name, self.splitby, self.split])
        
        from refer.grefer import G_REFER
        logger.info('Loading dataset {} ({}-{}) ...'.format(self.dataset_name, self.splitby, self.split))
        logger.info('Refcoco root: {}'.format(self.refer_root))
        timer = Timer()
        self.refer_root = PathManager.get_local_path(self.refer_root)
        with contextlib.redirect_stdout(io.StringIO()):
            self.refer = G_REFER(data_root=self.refer_root,
                            dataset=self.dataset_name,
                            splitBy=self.splitby)
        if timer.seconds() > 1:
            logger.info("Loading {} takes {:.2f} seconds.".format(dataset_id, timer.seconds()))
        
        self.ref_ids = self.refer.getRefIds(split=self.split)
        self.img_ids = self.refer.getImgIds(self.ref_ids)
        self.refs = self.refer.loadRefs(self.ref_ids)
        imgs = [self.refer.loadImgs(ref['image_id'])[0] for ref in self.refs]
        anns = [self.refer.loadAnns(ref['ann_id']) for ref in self.refs]
        self.imgs_refs_anns = list(zip(imgs, self.refs, anns))

        logger.info("Loaded {} images, {} referring object sets in G_RefCOCO format from {}".format(len(self.img_ids), len(self.ref_ids), dataset_id))


        self.dataset_dicts = []

        ann_keys = ["iscrowd", "bbox", "category_id"] + (self.extra_annotation_keys or [])
        ref_keys = ["raw", "sent_id"] + (self.extra_refer_keys or [])

        ann_lib = {}

        NT_count = 0
        MT_count = 0

        for idx, (img_dict, ref_dict, anno_dicts) in enumerate(self.imgs_refs_anns):
            record = {}
            record['id'] = idx
            record["source"] = 'grefcoco'
            record["file_name"] = os.path.join(self.image_root, img_dict["file_name"])
            record["height"] = img_dict["height"]
            record["width"] = img_dict["width"]
            image_id = record["image_id"] = img_dict["id"]

            # Check that information of image, ann and ref match each other
            # This fails only when the data parsing logic or the annotation file is buggy.
            assert ref_dict['image_id'] == image_id
            assert ref_dict['split'] == self.split
            if not isinstance(ref_dict['ann_id'], list):
                ref_dict['ann_id'] = [ref_dict['ann_id']]

            # No target samples
            if None in anno_dicts:
                assert anno_dicts == [None]
                assert ref_dict['ann_id'] == [-1]
                record['empty'] = True
                obj = {key: None for key in ann_keys if key in ann_keys}
                obj["bbox_mode"] = BoxMode.XYWH_ABS
                obj["empty"] = True
                obj = [obj]

            # Multi target samples
            else:
                record['empty'] = False
                obj = []
                for anno_dict in anno_dicts:
                    ann_id = anno_dict['id']
                    if anno_dict['iscrowd']:
                        continue
                    assert anno_dict["image_id"] == image_id
                    assert ann_id in ref_dict['ann_id']

                    if ann_id in ann_lib:
                        ann = ann_lib[ann_id]
                    else:
                        ann = {key: anno_dict[key] for key in ann_keys if key in anno_dict}
                        ann["bbox_mode"] = BoxMode.XYWH_ABS
                        ann["empty"] = False
    
                        segm = anno_dict.get("segmentation", None)
                        assert segm  # either list[list[float]] or dict(RLE)
                        if isinstance(segm, dict):
                            if isinstance(segm["counts"], list):
                                # convert to compressed RLE
                                segm = mask_util.frPyObjects(segm, *segm["size"])
                        else:
                            # filter out invalid polygons (< 3 points)
                            segm = [poly for poly in segm if len(poly) % 2 == 0 and len(poly) >= 6]
                            if len(segm) == 0:
                                num_instances_without_valid_segmentation += 1
                                continue  # ignore this instance
                        ann["segmentation"] = segm
                        ann_lib[ann_id] = ann

                    obj.append(ann)

            record["annotations"] = obj

            # Process referring expressions
            sents = ref_dict['sentences']
            for sent in sents:
                ref_record = record.copy()
                ref = {key: sent[key] for key in ref_keys if key in sent}
                ref["ref_id"] = ref_dict["ref_id"]
                ref_record["sentence"] = ref
                self.dataset_dicts.append(ref_record)
        #         if ref_record['empty']:
        #             NT_count += 1
        #         else:
        #             MT_count += 1

        # logger.info("NT samples: %d, MT samples: %d", NT_count, MT_count)

        # Debug mode
        # return self.dataset_dicts[:100]
        
        # grefcoco
        self.classes = []
        self.aug = args.aug  
        self.bert_type = args.bert_tokenizer   
        
        self.img_sz = args.img_size
         
        each_img_sz = int(args.img_size/math.sqrt(self.aug.num_bgs))
        mean = (0.485, 0.456, 0.406)
        std = (0.229, 0.224, 0.225)
        
        self.resize_bg1 = A.Compose([
            A.Resize(args.img_size, args.img_size, always_apply=True)])
        
        self.resize_bg4 = A.Compose([
            A.Resize(each_img_sz, each_img_sz, always_apply=True)],
            additional_targets={'image1': 'image', 'image2': 'image', 'image3': 'image',
                                'mask1': 'mask', 'mask2': 'mask', 'mask3': 'mask',})
            
        self.transforms = A.Compose([
            A.Normalize(mean=mean, std=std),
            ToTensorV2 (),
        ])
        
        # ref_ids = self.refer.getRefIds(split=self.split)
        # img_ids = self.refer.getImgIds(ref_ids)
        all_imgs = self.refer.Imgs
        self.imgs = list(all_imgs[i] for i in self.img_ids)
        # self.ref_ids = ref_ids#[:500]
        self.ref_id2idx = dict(zip(self.ref_ids, range(len(self.ref_ids))))
        self.ref_idx2id = dict(zip(range(len(self.ref_ids)), self.ref_ids))
        self.img2refs = self.refer.imgToRefs


        # self.tokenizer.add_special_tokens({'additional_special_tokens': task_tokens})
        # self.tokenizer.add_tokens(position_tokens)

        # if we are testing on a dataset, test all sentences of an object;
        # o/w, we are validating during training, randomly sample one sentence for efficiency
        self.max_tokens = 20
        self.is_train = True if split == "train" else False
        self.input_ids = []
        self.attention_masks = []
        for i, r in enumerate(self.ref_ids):
            ref = self.refer.Refs[r]
            
            sentences_for_ref = []
            attentions_for_ref = []
            for j, (el, sent_id) in enumerate(zip(ref['sentences'], ref['sent_ids'])):
                sentence_raw = el['raw']
                input_ids = self.tokenizer.encode(text=sentence_raw, add_special_tokens=True, max_length=self.max_tokens, truncation=True)
                #input_ids = input_ids[:self.max_tokens]
                padded_input_ids = [0] * self.max_tokens
                padded_input_ids[:len(input_ids)] = input_ids
                attention_mask = [0] * self.max_tokens 
                attention_mask[:len(input_ids)] = [1]*len(input_ids)
                sentences_for_ref.append(padded_input_ids)
                attentions_for_ref.append(attention_mask)

            self.input_ids.append(sentences_for_ref)
            self.attention_masks.append(attentions_for_ref)
            
        if self.aug.blur:
            self.blur = ImageFilter.GaussianBlur(100)
            
        # Load mldb data / temptative
        lmdb_path = f'/data2/dataset/RefCOCO/logit_db/grefcoco/grefcoco.lmdb'
        # self.lmdb_dict = read_from_lmdb(lmdb_dir)
        self.lmdb_env = lmdb.open(
            lmdb_path, subdir=False, max_readers=32,
            readonly=True, lock=False,
            readahead=False, meminit=False
        )
        with self.lmdb_env.begin(write=False) as txn:
            self.length = loads_pyarrow(txn.get(b'__len__'))
            self.keys = loads_pyarrow(txn.get(b'__keys__'))
            
        self.epoch = 0
        np.random.seed()
        
        
    
    @staticmethod
    def _merge_masks(x):
        return x.sum(dim=0, keepdim=True).clamp(max=1)

    def __len__(self):
        return len(self.dataset_dicts)
    
    
    def __getitem__(self, index):
        
        refid = self.ref_idx2id[index]
        with self.lmdb_env.begin(write=False) as txn:
            byteflow = txn.get(self.keys[refid])
        lmdb_dict = loads_pyarrow(byteflow)
            
        
        dataset_dict = copy.deepcopy(self.dataset_dicts[index])
        img_id = dataset_dict["image_id"]
        index = dataset_dict["id"]
        
        # decide mosaic size
        if self.split=='train':
            if self.aug.num_bgs==4:
                aug_prob = self.aug.aug_prob # 0.6
                if self.epoch < self.aug.retrieval_epoch :
                    num_bgs = np.random.choice([1, 4], p=[1-aug_prob, aug_prob])
                else :
                    rand_prob = cosine_annealing(epoch=self.epoch-self.aug.retrieval_epoch, \
                                                n_epochs=self.args.epochs-self.aug.retrieval_epoch, 
                                                n_cycles=1, lrate_max=aug_prob)
                    retr_prob = aug_prob-rand_prob
                    choice = np.random.choice(['one', 'random', 'retrieval'], p=[1-aug_prob, rand_prob, retr_prob])
                    if choice == 'one':
                        num_bgs = 1
                    else :
                        num_bgs = 4
            else:
                num_bgs = 1
        else:
            num_bgs = 1   
        
        
        target_sent_idx = np.random.choice(len(self.input_ids[index])) 
        ref_id = self.ref_idx2id[index]
        insert_idx = np.random.choice(range(num_bgs))
        
        if num_bgs==1:
            ref_ids = []
            sent_idxs = []
            sents = np.array([], dtype='str')
            img_ids = [self.refer.Refs[ref_id]['image_id']]
            
        else:  
            if self.epoch >= self.aug.retrieval_epoch :
                sent_id = list(lmdb_dict.keys())[target_sent_idx]
                img_ids = list(np.random.choice(lmdb_dict[sent_id], size=num_bgs-1, replace=True))
                img_ids = np.insert(img_ids, insert_idx, self.refer.Refs[ref_id]['image_id'])
                                    
            ref_ids = list(np.random.choice(self.ref_ids, size=num_bgs-1, replace=False))
            sent_idxs = [np.random.choice(len(self.refer.Refs[r]['sentences'])) for r in ref_ids]
            sents = np.array([self.refer.Refs[r]['sentences'][sent_idxs[i]]['raw'] for i, r in enumerate(ref_ids)], dtype='str')
        
        ref_ids = np.insert(ref_ids, insert_idx, self.ref_idx2id[index]).astype(int)
        sents = np.insert(sents, insert_idx,
                          self.refer.Refs[ref_ids[insert_idx]]['sentences'][target_sent_idx]['raw'])
        sent_idxs = np.insert(sent_idxs, insert_idx, target_sent_idx).astype(int)
        
        # pick a target origin
        if self.aug.tgt_selection == 'random':
            target_idx = np.random.choice(range(num_bgs))
            target_ref_idx = self.ref_id2idx[ref_ids[target_idx]]
            target_sent_idx = int(np.random.choice(len(self.input_ids[target_ref_idx])))
        elif self.aug.tgt_selection == 'longest':
            target_idx = np.argmax(list(map(len, sents)))
            target_sent_idx = sent_idxs[target_idx]
        elif self.aug.tgt_selection == 'fixed':
            target_idx = insert_idx
        # target_ref_id = ref_ids[target_idx]
        target_ref_id = self.ref_idx2id[index]

        # load items
        imgs, masks = [], []
        if self.epoch >= self.aug.retrieval_epoch :
            for img_id in img_ids:
                img_info = self.refer.Imgs[img_id]
                img_path = os.path.join(self.refer.IMAGE_DIR, img_info['file_name'])
                img = Image.open(img_path).convert("RGB")
                imgs.append(np.array(img))
                ref = self.refer.imgToRefs[img_id][0]
                # if self.dataset_name in ['refcoco', 'refcoco+', 'refcocog']:
                #     mask = np.array(self.refer.getMask(ref)['mask'])
                # elif self.dataset_name in ['grefcoco'] : 
                mask = self.refer.getMaskByRef(ref, ref['ref_id'], self.merge)['mask']
                masks.append(mask)
                
        else :    
            for ref_id in ref_ids:
                img_id = self.refer.getImgIds([ref_id])[0]
                img_info = self.refer.Imgs[img_id]
                img_path = os.path.join(self.refer.IMAGE_DIR, img_info['file_name'])
                img = Image.open(img_path).convert("RGB")
                imgs.append(np.array(img))
                ref = self.refer.loadRefs(ref_ids=[ref_id])
                # if self.dataset_name in ['refcoco', 'refcoco+', 'refcocog']:
                #     mask = np.array(self.refer.getMask(ref[0])['mask'])
                # elif self.dataset_name in ['grefcoco'] : 
                mask = self.refer.getMaskByRef(ref[0], ref_id, self.merge)['mask']
                masks.append(mask)
        
        # image resize and apply 4in1 augmentation
        if num_bgs==1:
            resized = self.resize_bg1(image=imgs[0], mask=masks[0])
            imgs, masks = [resized['image']], [resized['mask']]
            img = imgs[0]
        else:
            if self.aug.move_crs_pnt:
                crs_y = np.random.randint(0, self.img_sz+1)
                crs_x = np.random.randint(0, self.img_sz+1)
            else:
                crs_y = 480//2 #
                crs_x = 480//2 #

            if crs_y==0 or crs_x==0:
                img1 = np.zeros([0,crs_x,3]) if crs_y==0 else np.zeros([crs_y,0,3])
                mask1 = np.zeros([0,crs_x]) if crs_y==0 else np.zeros([crs_y,0])
            else:
                resize_bg1 = A.Compose([A.Resize(crs_y, crs_x, always_apply=True)])
                temp = resize_bg1(image=imgs[0], mask=masks[0])
                img1 = temp['image']
                mask1 = temp['mask']
            
            if crs_y==0 or crs_x==self.img_sz:
                img2 = np.zeros([0,self.img_sz-crs_x,3]) if crs_y==0 \
                    else np.zeros([crs_y,0,3])
                mask2 = np.zeros([0,self.img_sz-crs_x]) if crs_y==0 \
                    else np.zeros([crs_y,0])
            else:
                resize_bg2 = A.Compose([
                    A.Resize(crs_y, self.img_sz-crs_x, always_apply=True)])
                temp = resize_bg2(image=imgs[1], mask=masks[1])
                img2 = temp['image']
                mask2 = temp['mask']
                
            if crs_y==self.img_sz or crs_x==0:
                img3 = np.zeros([0,crs_x,3]) if crs_y==self.img_sz \
                    else np.zeros([self.img_sz-crs_y,0,3])
                mask3 = np.zeros([0,crs_x]) if crs_y==self.img_sz \
                    else np.zeros([self.img_sz-crs_y,0])
            else:                
                resize_bg3 = A.Compose([
                    A.Resize(self.img_sz-crs_y, crs_x, always_apply=True)])
                temp = resize_bg3(image=imgs[2], mask=masks[2])
                img3 = temp['image']
                mask3 = temp['mask']
                
            if crs_y==self.img_sz or crs_x==self.img_sz:
                img4 = np.zeros([0,self.img_sz-crs_x,3]) if crs_y==self.img_sz \
                    else np.zeros([self.img_sz-crs_y,0,3])
                mask4 = np.zeros([0,self.img_sz-crs_x]) if crs_y==self.img_sz \
                    else np.zeros([self.img_sz-crs_y,0])
            else:
                resize_bg4 = A.Compose([
                    A.Resize(self.img_sz-crs_y,
                             self.img_sz-crs_x, always_apply=True)])
                temp = resize_bg4(image=imgs[3], mask=masks[3])
                img4 = temp['image']
                mask4 = temp['mask']
                
            imgs = [img1, img2, img3, img4]
            masks = [mask1, mask2, mask3, mask4]
            
            # scale effect ablation
            if self.aug.blur:
                imgs = [np.asarray(Image.fromarray(x).filter(self.blur)) if i!=insert_idx else x for i, x in enumerate(imgs)]
            
            num_rows = num_cols = int(math.sqrt(num_bgs))
            idxs = [(i*num_cols,i*num_cols+num_cols) for i in range(num_rows)]
            img = [np.concatenate(imgs[_from:_to], axis=1) for (_from, _to) in idxs]
            img = np.concatenate(img, axis=0).astype(np.uint8)
            
            masks_arr = []
            for bg_idx in range(num_bgs):
                mask = masks[bg_idx]
                temp = [mask if idx==bg_idx else np.zeros_like(masks[idx]) for idx in range(num_bgs)]
                mask = [np.concatenate(temp[_from:_to], axis=1) for (_from, _to) in idxs]
                mask = np.concatenate(mask, axis=0).astype(np.int32)
                masks_arr.append(mask)
            masks = masks_arr
        
        mask = masks[target_idx]    
        mask = mask.astype(np.uint8)
        mask[mask>0] = 1

        item = self.transforms(image=img, mask=mask)
        img_tensor = item['image']
        target = item['mask'].long()

        target_ref_idx = self.ref_id2idx[target_ref_id]
        # if self.is_train:
        #     embedding = []
        #     att = []
        #     for s in range(len(self.input_ids[target_ref_idx])):
        #         padded_input_ids = self.input_ids[target_ref_idx][s]
        #         tensor_embeddings = torch.tensor(padded_input_ids).unsqueeze(0)
        #         attention_mask = self.attention_masks[target_ref_idx][s]
        #         attention_mask = torch.tensor(attention_mask).unsqueeze(0)
        #         embedding.append(tensor_embeddings.unsqueeze(-1))
        #         att.append(attention_mask.unsqueeze(-1))
        #     tensor_embeddings = torch.cat(embedding, dim=-1)
        #     attention_mask = torch.cat(att, dim=-1)
        # else:
        padded_input_ids = self.input_ids[target_ref_idx][target_sent_idx]
        tensor_embeddings = torch.tensor(padded_input_ids).unsqueeze(0)
        attention_mask = self.attention_masks[target_ref_idx][target_sent_idx]
        attention_mask = torch.tensor(attention_mask).unsqueeze(0)

        empty = dataset_dict.get("empty", False)
        dataset_dict["empty"] = empty
        dataset_dict['image'] = img_tensor
        dataset_dict['gt_masks'] = target.unsqueeze(0)
        dataset_dict['lang_tokens'] = tensor_embeddings
        dataset_dict['lang_mask'] = attention_mask
        # dataset_dict["gt_mask_merged"] = self._merge_masks(target) if self.merge else None
        dataset_dict["gt_mask_merged"] = target.unsqueeze(0)

        
        item = {
            'image': img_tensor.float(),
            'seg_target': target.long(),
            'sentence': tensor_embeddings,
            'attn_mask': attention_mask,
        }
        return item

    


    




if __name__ == "__main__":
    """
    Test the COCO json dataset loader.

    Usage:
        python -m detectron2.data.datasets.coco \
            path/to/json path/to/image_root dataset_name

        "dataset_name" can be "coco_2014_minival_100", or other
        pre-registered ones
    """
    from detectron2.utils.logger import setup_logger
    from detectron2.utils.visualizer import Visualizer
    import detectron2.data.datasets  # noqa # add pre-defined metadata
    import sys

    REFCOCO_PATH = '/data2/projects/donghwa/RIS/ReLA/datasets'
    COCO_TRAIN_2014_IMAGE_ROOT = '/data2/projects/donghwa/RIS/ReLA/datasets/images'
    REFCOCO_DATASET = 'grefcoco'
    REFCOCO_SPLITBY = 'unc'
    REFCOCO_SPLIT = 'train'

    logger = setup_logger(name=__name__)
    dicts = load_grefcoco_json(REFCOCO_PATH, REFCOCO_DATASET, REFCOCO_SPLITBY, REFCOCO_SPLIT, COCO_TRAIN_2014_IMAGE_ROOT)
    logger.info("Done loading {} samples.".format(len(dicts)))