Features to Text: A Comprehensive Survey of Deep Learning on Semantic Segmentation and Image Captioning

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr class="thead"><td class="align_left">Dataset</td><td class="align_center">Method</td><td class="align_center">mIoU</td></tr><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr><td class="align_left" rowspan="12">CamVid</td><td class="align_center">ApesNet [<a href="/journals/complexity/2021/5538927/#B90" target="_blank">90</a>]</td><td class="align_center">48.0</td></tr><tr><td class="align_center">ENet [<a href="/journals/complexity/2021/5538927/#B91" target="_blank">91</a>]</td><td class="align_center">51.3</td></tr><tr><td class="align_center">SegNet [<a href="/journals/complexity/2021/5538927/#B60" target="_blank">60</a>]</td><td class="align_center">55.6</td></tr><tr><td class="align_center">LinkNet [<a href="/journals/complexity/2021/5538927/#B92" target="_blank">92</a>]</td><td class="align_center">55.8</td></tr><tr><td class="align_center">FCN8 [<a href="/journals/complexity/2021/5538927/#B59" target="_blank">59</a>]</td><td class="align_center">57.0</td></tr><tr><td class="align_center">AttentionM [<a href="/journals/complexity/2021/5538927/#B93" target="_blank">93</a>]</td><td class="align_center">60.1</td></tr><tr><td class="align_center">DeepLab-LFOV [<a href="/journals/complexity/2021/5538927/#B72" target="_blank">72</a>]</td><td class="align_center">61.6</td></tr><tr><td class="align_center">Dilation8 [<a href="/journals/complexity/2021/5538927/#B66" target="_blank">66</a>]</td><td class="align_center">65.3</td></tr><tr><td class="align_center">BiseNet [<a href="/journals/complexity/2021/5538927/#B94" target="_blank">94</a>]</td><td class="align_center">68.7</td></tr><tr><td class="align_center">PSPNet [<a href="/journals/complexity/2021/5538927/#B60" target="_blank">60</a>]</td><td class="align_center">69.1</td></tr><tr><td class="align_center">DenseDecoder [<a href="/journals/complexity/2021/5538927/#B67" target="_blank">67</a>]</td><td class="align_center">70.9</td></tr><tr><td class="align_center">AGNet [<a href="/journals/complexity/2021/5538927/#B95" target="_blank">95</a>]</td><td class="align_center">75.2</td></tr><tr><td class="align_left" colspan="3"><hr/></td></tr><tr><td class="align_left" rowspan="10">PASCAL VOC</td><td class="align_center">Wails [<a href="/journals/complexity/2021/5538927/#B96" target="_blank">96</a>]</td><td class="align_center">55.9</td></tr><tr><td class="align_center">FCN8 [<a href="/journals/complexity/2021/5538927/#B59" target="_blank">59</a>]</td><td class="align_center">62.2</td></tr><tr><td class="align_center">PSP-CRF [<a href="/journals/complexity/2021/5538927/#B97" target="_blank">97</a>]</td><td class="align_center">65.4</td></tr><tr><td class="align_center">Zoom Out [<a href="/journals/complexity/2021/5538927/#B98" target="_blank">98</a>]</td><td class="align_center">69.6</td></tr><tr><td class="align_center">DCU [<a href="/journals/complexity/2021/5538927/#B99" target="_blank">99</a>]</td><td class="align_center">71.7</td></tr><tr><td class="align_center">DeepLab1 [<a href="/journals/complexity/2021/5538927/#B72" target="_blank">72</a>]</td><td class="align_center">71.6</td></tr><tr><td class="align_center">DeConvNet [<a href="/journals/complexity/2021/5538927/#B61" target="_blank">61</a>]</td><td class="align_center">72.5</td></tr><tr><td class="align_center">GCRF [<a href="/journals/complexity/2021/5538927/#B100" target="_blank">100</a>]</td><td class="align_center">73.2</td></tr><tr><td class="align_center">DPN [<a href="/journals/complexity/2021/5538927/#B101" target="_blank">101</a>]</td><td class="align_center">74.1</td></tr><tr><td class="align_center">Piecewise [<a href="/journals/complexity/2021/5538927/#B102" target="_blank">102</a>]</td><td class="align_center">75.3</td></tr><tr><td class="align_left" colspan="3"><hr/></td></tr><tr><td class="align_left" rowspan="12">Cityscapes</td><td class="align_center">FCN8 [<a href="/journals/complexity/2021/5538927/#B59" target="_blank">59</a>]</td><td class="align_center">65.3</td></tr><tr><td class="align_center">DPN [<a href="/journals/complexity/2021/5538927/#B101" target="_blank">101</a>]</td><td class="align_center">66.8</td></tr><tr><td class="align_center">Dilation10 [<a href="/journals/complexity/2021/5538927/#B103" target="_blank">103</a>]</td><td class="align_center">67.1</td></tr><tr><td class="align_center">LRR [<a href="/journals/complexity/2021/5538927/#B104" target="_blank">104</a>]</td><td class="align_center">69.7</td></tr><tr><td class="align_center">DeepLab2 [<a href="/journals/complexity/2021/5538927/#B73" target="_blank">73</a>]</td><td class="align_center">70.4</td></tr><tr><td class="align_center">FRRN [<a href="/journals/complexity/2021/5538927/#B105" target="_blank">105</a>]</td><td class="align_center">71.8</td></tr><tr><td class="align_center">RefineNet [<a href="/journals/complexity/2021/5538927/#B106" target="_blank">106</a>]</td><td class="align_center">73.6</td></tr><tr><td class="align_center">GEM [<a href="/journals/complexity/2021/5538927/#B107" target="_blank">107</a>]</td><td class="align_center">73.69</td></tr><tr><td class="align_center">PEARL [<a href="/journals/complexity/2021/5538927/#B108" target="_blank">108</a>]</td><td class="align_center">75.4</td></tr><tr><td class="align_center">TuSimple [<a href="/journals/complexity/2021/5538927/#B109" target="_blank">109</a>]</td><td class="align_center">77.6</td></tr><tr><td class="align_center">PSPNet [<a href="/journals/complexity/2021/5538927/#B110" target="_blank">110</a>]</td><td class="align_center">78.4</td></tr><tr><td class="align_center">SPP-DCU [<a href="/journals/complexity/2021/5538927/#B99" target="_blank">99</a>]</td><td class="align_center">78.9</td></tr><tr class="table-tr"><td colspan="3"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Class pixel label distribution in the CamVid dataset.</div>

Complexity

tab1

Table 1

Table 1: Features to Text: A Comprehensive Survey of Deep Learning on Semantic Segmentation and Image Captioning