علوم اعصاب شناختی

علوم اعصاب شناختی؛ تشخیص ابژه؛ ذهن خوانی: رمزگشایی و رمزگذاری سیگنال‌های مغزی


دعای مطالعه [ نمایش ]

بِسْمِ الله الرَّحْمنِ الرَّحیمِ

اَللّهُمَّ اَخْرِجْنى مِنْ ظُلُماتِ الْوَهْمِ

خدایا مرا بیرون آور از تاریکى‏‌هاى‏ وهم،

وَ اَکْرِمْنى بِنُورِ الْفَهْمِ

و به نور فهم گرامى ‏ام بدار،

اَللّهُمَّ افْتَحْ عَلَیْنا اَبْوابَ رَحْمَتِکَ

خدایا درهاى رحمتت را به روى ما بگشا،

وَانْشُرْ عَلَیْنا خَزائِنَ عُلُومِکَ بِرَحْمَتِکَ یا اَرْحَمَ الرّاحِمینَ

و خزانه‏‌هاى علومت را بر ما باز کن به امید رحمتت اى مهربان‌‏ترین مهربانان.



» کتاب علوم اعصاب شناختی گازانیگا


» » »» فصل ۶: فصل تشخیص ابژه؛ قسمت دوم

در حال ویرایش




» Cognitive Neuroscience: The Biology of the Mind 


»» CHAPTER 6: Object Recognition; part two



۶.۳ Seeing Shapes and Perceiving Objects

۶.۳ دیدن اشکال و ادراک اشیا

Object perception depends primarily on an analysis of the shape of a visual stimulus, though cues such as color, texture, and motion certainly also contribute to normal perception. For example, when people look at the surf breaking on the shore, their acuity is not sufficient to see grains of sand, and the water is essentially amorphous, lacking any definable shape. Yet the textures of the sand’s surface and the water’s edge, and their differences in col- or, enable us to distinguish between the two regions. The water’s motion is important too.

ادراک اشیاء در درجه اول به تجزیه و تحلیل شکل یک محرک بصری بستگی دارد، اگرچه نشانه‌هایی مانند رنگ، بافت و حرکت قطعاً به ادراک عادی کمک می‌کنند. برای مثال، وقتی مردم به موج‌سواری در حال شکستن در ساحل نگاه می‌کنند، دقت آنها برای دیدن دانه‌های شن کافی نیست و آب اساساً بی‌شکل است و هیچ شکل قابل تعریفی ندارد. با این حال، بافت سطح شن و لبه آب، و تفاوت‌های رنگی آن‌ها، ما را قادر می‌سازد بین این دو منطقه تمایز قائل شویم. حرکت آب نیز مهم است.

Nevertheless, even if surface features like texture and color are absent or applied inappropriately, recognition is minimally affected: We can readily identify the elephant, apple, and human form in Figure 6.9, even though they are shown as blue and green geometric shapes, striped onyx, and a marble statue, respectively. Here, object recognition is derived from a perceptual ability to match an analysis of shape and form to an object, regardless of color, texture, or motion cues. How is a shape rep- resented internally? What enables us to recognize differences between a triangle and a square, or between a chimp and a person?

با این وجود، حتی اگر ویژگی‌های سطحی مانند بافت و رنگ وجود نداشته باشند یا به‌طور نامناسب اعمال شوند، تشخیص کمترین تأثیر را می‌گذارد: ما می‌توانیم به آسانی شکل فیل، سیب و انسان را در شکل ۶.۹ شناسایی کنیم، حتی اگر آنها به صورت اشکال هندسی آبی و سبز، عقیق راه راه و مجسمه‌ای مرمری نشان داده شده باشند. در اینجا، تشخیص شی از یک توانایی ادراکی برای تطبیق تجزیه و تحلیل شکل و فرم با یک شی، بدون توجه به رنگ، بافت، یا نشانه‌های حرکت ناشی می‌شود. چگونه یک شکل در داخل نمایش داده می‌شود؟ چه چیزی ما را قادر می‌سازد تفاوت بین مثلث و مربع یا شامپانزه و شخص را تشخیص دهیم؟

Shape Encoding

رمزگذاری شکل

In the previous chapter we introduced the idea that recognition may involve hierarchical representations in which each successive stage adds complexity. Simple features such as lines can be combined into edges, corners, and intersections, which-as processing continues up the hierarchy-are grouped into parts, and the parts grouped into objects. People recognize a pentagon because it contains five line segments of equal length, joined together to form five corners that define an enclosed region (Figure 6.10). The same five line segments can define other objects, such as a pyramid. With the pyramid, however, there are only four points of intersection, not five, and the lines define a more complicated shape that implies it is three-dimensional. The pentagon and the pyramid might activate similar representations at the lowest levels of the hierarchy, yet the combinations of these features into a shape produce distinct representations at higher levels of the processing hierarchy.

در فصل قبل این ایده را معرفی کردیم که تشخیص ممکن است شامل نمایش‌های سلسله مراتبی باشد که در آن هر مرحله متوالی پیچیدگی می‌افزاید. ویژگی‌های ساده‌ای مانند خطوط را می‌توان در لبه‌ها، گوشه‌ها و تقاطع‌ها ترکیب کرد، که با ادامه پردازش در سلسله مراتب، به بخش‌ها و قطعات به اشیاء گروه‌بندی می‌شوند. مردم یک پنج ضلعی را تشخیص می‌دهند زیرا شامل پنج بخش خط با طول مساوی است که به هم پیوسته اند تا پنج گوشه را تشکیل دهند که یک ناحیه محصور را مشخص می‌کند (شکل ۶.۱۰). همان پنج پاره خط می‌تواند اشیاء دیگری مانند یک هرم را تعریف کند. با این حال، با هرم، تنها چهار نقطه تقاطع وجود دارد، نه پنج، و خطوط شکل پیچیده تری را تعریف می‌کنند که به معنای سه بعدی بودن آن است. پنج ضلعی و هرم ممکن است نمایش‌های مشابهی را در پایین ترین سطوح سلسله مراتب فعال کنند، با این حال ترکیب این ویژگی‌ها در یک شکل، نمایش‌های متمایزی را در سطوح بالاتر سلسله مراتب پردازش ایجاد می‌کند.

One way to investigate how we encode shapes is to identify areas of the brain that are active when we compare contours that form a recognizable shape versus contours that are just squiggles. How do activity patterns in the brain change when a shape is familiar? This question emphasizes the idea that perception involves a connection between sensation and memory (recall our four guiding principles of object recognition).

یکی از راه‌های بررسی نحوه کدگذاری شکل‌ها، شناسایی مناطقی از مغز است که هنگام مقایسه خطوطی که شکل قابل تشخیصی را تشکیل می‌دهند در مقابل خطوطی که فقط قیچی هستند، فعال هستند. وقتی شکلی آشناست، الگوهای فعالیت در مغز چگونه تغییر می‌کند؟ این سوال بر این ایده تاکید می‌کند که ادراک شامل ارتباط بین حس و حافظه است (چهار اصل راهنمای ما در تشخیص شی را به یاد بیاورید).

شکل 6.9 تجزیه و تحلیل شکل و فرم

FIGURE 6.9 Analyzing shape and form.
Despite the irregularities in how these objects are depicted, most people have little problem recognizing them. We may never have seen blue and green elephants or striped apples, but our object recognition system can still discern the essential features that identify these objects as elephants and apples.

شکل ۶.۹ تجزیه و تحلیل شکل و فرم.
با وجود بی‌نظمی‌هایی که در نحوه به تصویر کشیدن این اشیا وجود دارد، اکثر مردم مشکل کمی‌در تشخیص آنها دارند. شاید هرگز فیل‌های آبی و سبز یا سیب‌های راه راه را ندیده باشیم، اما سیستم تشخیص اشیاء ما هنوز می‌تواند ویژگی‌های اساسی را که این اشیاء را به عنوان فیل و سیب شناسایی می‌کند، تشخیص دهد.

شکل 6.10 عناصر اساسی و اشیاء مختلفی که می‌توانند تشکیل دهند.

FIGURE 6.10
Basic elements and the different objects they can form. The same basic components (five lines) can form different items (e.g., a pentagon or a pyramid), depending on their arrangement. Although the low-level components (a) are the same, the high-level percepts (b) are distinct.

شکل ۶.۱۰
عناصر اساسی و اشیاء مختلفی که می‌توانند تشکیل دهند. اجزای اصلی یکسان (پنج خط) بسته به ترتیب آنها می‌توانند موارد مختلفی را تشکیل دهند (به عنوان مثال، یک پنج ضلعی یا یک هرم). اگرچه اجزای سطح پایین (الف) یکسان هستند، ادراکات سطح بالا (ب) متمایز هستند.

Researchers explored this question in a PET study designed to isolate the specific mental operations used when people viewed familiar shapes, novel shapes, or stimuli formed by scrambling the shapes to generate random drawings (Kanwisher et al., 1997). All three types of stimuli should engage the early stages of visual perception, or what is called feature extraction (Figure 6.11a). To identify areas involved in object perception, a comparison can be made between responses to novel objects and responses to scrambled stimuli-as well as between responses to familiar objects and responses to scrambled stimuli-under the assumption that scrambled stimuli do not define objects per se. The memory retrieval contribution should be most evident when we are viewing novel or familiar objects.

محققان این سوال را در یک مطالعه PET که برای جداسازی عملیات ذهنی خاص مورد استفاده در زمانی که افراد اشکال آشنا، اشکال بدیع یا محرک‌هایی را مشاهده می‌کنند که از درهم‌کوبی شکل‌ها برای ایجاد نقاشی‌های تصادفی تشکیل شده‌اند، بررسی کردند (Kanwisher et al., 1997). هر سه نوع محرک باید مراحل اولیه ادراک بصری یا آنچه استخراج ویژگی نامیده می‌شود را درگیر کنند (شکل ۶.11a). برای شناسایی نواحی درگیر در ادراک اشیاء، می‌توان بین پاسخ‌ها به اشیاء جدید و پاسخ‌ها به محرک‌های درهم و همچنین بین پاسخ‌ها به اشیاء آشنا و پاسخ‌ها به محرک‌های درهم مقایسه کرد، با این فرض که محرک‌های درهم به خودی خود اشیا را تعریف نمی‌کنند. سهم بازیابی حافظه زمانی که در حال مشاهده اشیاء بدیع یا آشنا هستیم باید بیشتر مشهود باشد.

Viewing both novel and familiar stimuli led to increases in regional cerebral blood flow bilaterally in lateral occipital cortex (LOC; Figure 6.11b) compared to viewing scrambled drawings without a recognizable shape. Since this study, many others have shown that the LOC is critical for shape and object recognition. Interestingly, no differences were found between the novel and familiar stimuli in the posterior cortical regions. At least within these areas, recognizing that something is familiar may be as taxing as recognizing that something is unfamiliar.

مشاهده محرک‌های جدید و آشنا منجر به افزایش جریان خون منطقه ای مغز به صورت دو طرفه در قشر اکسیپیتال جانبی (LOC؛ شکل ۶.11b) در مقایسه با مشاهده نقاشی‌های درهم بدون شکل قابل تشخیص شد. از این مطالعه، بسیاری دیگر نشان داده اند که LOC برای تشخیص شکل و اشیا بسیار مهم است. جالب توجه است، هیچ تفاوتی بین محرک‌های جدید و آشنا در مناطق قشر خلفی یافت نشد. حداقل در این زمینه‌ها، تشخیص اینکه چیزی آشناست ممکن است به اندازه تشخیص ناآشنا بودن چیزی سخت باشد.

When we view an object such as a dog, whether it’s a real dog, a drawing of a dog, a statue of a dog, or an outline of a dog made of flashing lights, we recognize it as a dog. This insensitivity to the specific visual cues that define an object is known as cue invariance.

وقتی جسمی‌مانند سگ را مشاهده می‌کنیم، خواه یک سگ واقعی باشد، نقاشی یک سگ، مجسمه یک سگ، یا طرح کلی سگی که از چراغ‌های چشمک زن ساخته شده است، آن را به عنوان یک سگ می‌شناسیم. این عدم حساسیت به نشانه‌های بصری خاصی که یک شی را تعریف می‌کنند، به عنوان تغییر ناپذیری نشانه شناخته می‌شود.

Research has shown that, for the LOC, shape seems to be the most salient property of the stimulus. In one fMRI study, participants viewed stimuli in which shapes were defined either by luminance cues or by motion cues.

تحقیقات نشان داده است که برای LOC، شکل به نظر برجسته ترین ویژگی محرک است. در یک مطالعه fMRI، شرکت‌کنندگان محرک‌هایی را مشاهده کردند که در آنها اشکال یا با نشانه‌های درخشندگی یا با نشانه‌های حرکتی تعریف می‌شدند.

شکل 6.11 تجزیه و تحلیل اجزای تشخیص شیشکل 6.11 تجزیه و تحلیل اجزای تشخیص شی قسمت دوم

FIGURE 6.11 Component analysis of object recognition.
(a) Stimuli for the three conditions and the mental operations required in each condition. Novel objects are hypothesized to engage processes involved in perception even when verbal labels do not exist. (b) When familiar and novel objects were viewed, activation was greater in the occipitotemporal cortex, shown here in a horizontal slice, than when scrambled stimuli with no recognizable object shape were viewed.

شکل ۶.۱۱ تجزیه و تحلیل اجزای تشخیص شی.
(الف) محرک برای سه حالت و عملیات ذهنی مورد نیاز در هر شرایط. فرض بر این است که اشیاء جدید درگیر فرآیندهای درگیر در ادراک هستند، حتی زمانی که برچسب‌های کلامی‌وجود ندارند. (ب) هنگامی‌که اشیاء آشنا و بدیع مشاهده می‌شد، فعال‌سازی در قشر پشتی-گیجگاهی، که در اینجا به صورت یک برش افقی نشان داده شده است، بیشتر از زمانی بود که محرک‌های درهم بدون شکل جسم قابل تشخیص مشاهده می‌شدند.

شکل 6.12 پاسخ BOLD در قشر اکسیپیتال جانبی به شکل پاسخ می‌دهد حتی اگر مرزهای جسم به صورت فیزیکی ارائه نشده باشند.

FIGURE 6.12 The BOLD response in lateral occipital cortex responds to shape even if object boundaries are not physically presented.
In an fMRI study using a block design, observers passively viewed four types of stimuli. There were two types of control stimuli with- out objects: one in which there was complete random motion of all the dots (N), and a second that had coherent motion of all the dots (MTN). The other two types of stimuli both depicted objects: either objects defined from luminance (OFL), which were silhouetted against a dark background, or objects defined from motion (OFM), which were coherently moving dots silhouetted against a background of dots moving in random directions. In this last case, the shape of the object became visible at the boundaries where the two types of motion met, producing the outline of the object. The BOLD response in the LOC increased in the OFL and OFM conditions.

شکل ۶.۱۲ پاسخ BOLD در قشر اکسیپیتال جانبی به شکل پاسخ می‌دهد حتی اگر مرزهای جسم به صورت فیزیکی ارائه نشده باشند.
در یک مطالعه fMRI با استفاده از طرح بلوک، ناظران به طور غیر فعال چهار نوع محرک را مشاهده کردند. دو نوع محرک کنترلی بدون اشیا وجود داشت: یکی که در آن حرکت تصادفی کامل تمام نقاط وجود داشت (N) و دیگری که دارای حرکت منسجم تمام نقاط بود (MTN). دو نوع دیگر از محرک‌ها، هر دو اشیا را به تصویر می‌کشند: یا اشیایی که از درخشندگی تعریف شده‌اند (OFL)، که در پس‌زمینه‌ای تاریک شکل گرفته‌اند، یا اشیایی که از حرکت تعریف شده‌اند (OFM)، که به‌طور منسجم نقاط متحرکی هستند که در برابر پس‌زمینه‌ای از نقاط در جهت‌های تصادفی حرکت می‌کنند. در این مورد آخر، شکل جسم در مرزهایی که دو نوع حرکت به هم می‌رسند، نمایان می‌شود و طرح کلی جسم را ایجاد می‌کند. پاسخ BOLD در LOC در شرایط OFL و OFM افزایش یافت.

When compared to control stimuli with similar sensory properties, the LOC response was also similar, regardless of whether the shape was defined by the juxtaposition of light against dark or the juxtaposition of coherently moving and randomly moving dots (Grill-Spector et al., 2001; Figure 6.12). Thus, the LOC can support the perception of an elephant shape even when the elephant is blue and green, or an apple shape even when the apple is made of onyx and striped.

هنگامی‌که با محرک‌های کنترلی با ویژگی‌های حسی مشابه مقایسه می‌شود، پاسخ LOC نیز مشابه بود، صرف نظر از اینکه شکل با کنار هم قرار گرفتن نور در مقابل تاریکی یا کنار هم قرار گرفتن نقاط متحرک و تصادفی متحرک در کنار هم تعریف می‌شود (گریل-اسپکتور و همکاران، ۲۰۰۱؛ شکل ۶.۱۲). بنابراین، LOC می‌تواند درک شکل فیل را حتی زمانی که فیل آبی و سبز است، یا شکل سیب را حتی زمانی که سیب از عقیق و راه راه ساخته شده است، پشتیبانی کند.

The functional specification of the LOC for shape perception is evident even in 6-month-old babies (Emberson et al., 2017). As you might imagine, it would be quite a challenge to get infants to sit still in the fMRI scanner. An alternative method involves functional near-infrared spectroscopy (fNIRS), which employs a lightweight system that looks similar to an EEG cap and can be comfortably placed on the infant’s head. This system includes a source to generate infrared light, which takes advantage of the fact that infrared light can project through the scalp and skull. The absorption of the light differs for oxygenated and deoxygenated blood, and thus, as with fMRI, sensors of the FNIRS system are used to measure changes in hemodynamic activity. The system works best when targeting cortical tissue such as the LOC, which is close to the skull.

مشخصات عملکردی LOC برای درک شکل حتی در نوزادان ۶ ماهه نیز مشهود است (امبرسون و همکاران، ۲۰۱۷). همانطور که ممکن است تصور کنید، واداشتن نوزادان به یک حرکت در اسکنر fMRI کاملاً یک چالش خواهد بود. یک روش جایگزین شامل طیف‌سنجی عملکردی مادون قرمز نزدیک (fNIRS) است که از یک سیستم سبک وزن استفاده می‌کند که شبیه یک کلاهک EEG است و می‌تواند به راحتی روی سر نوزاد قرار گیرد. این سیستم شامل منبعی برای تولید نور مادون قرمز است که از این واقعیت بهره می‌برد که نور مادون قرمز می‌تواند از طریق پوست سر و جمجمه پخش شود. جذب نور برای خون اکسیژن دار و بدون اکسیژن متفاوت است، و بنابراین، مانند fMRI، از حسگرهای سیستم FNIRS برای اندازه گیری تغییرات در فعالیت همودینامیک استفاده می‌شود. این سیستم هنگام هدف قرار دادن بافت قشر مغز مانند LOC که نزدیک جمجمه است، بهترین عملکرد را دارد.

The researchers also made use of the finding, from various imaging studies, that when a stimulus is repeated, the BOLD response is lower in the second presentation compared to the first. This repetition suppression (RS) effect is hypothesized to indicate increased neural efficiency: The neural response to the stimulus is more efficient and perhaps faster when the pattern has been recently activated.

محققان همچنین از یافته‌های مطالعات تصویربرداری مختلف استفاده کردند که وقتی یک محرک تکرار می‌شود، پاسخ BOLD در ارائه دوم در مقایسه با اولی کمتر است. فرضیه این اثر سرکوب تکرار (RS) نشان‌دهنده افزایش کارایی عصبی است: پاسخ عصبی به محرک زمانی که الگوی اخیراً فعال شده است کارآمدتر و شاید سریع‌تر است.

Not only do researchers have to give special consideration to the type of imaging methodology when working with infants, but they also have to come up with age-appropriate tasks. To study shape perception, the researchers created two sets of visual stimuli: one in which the stimuli varied in shape and color while texture was held constant, and another in which the stimuli varied in texture and color while shape was held constant (Emberson et al., 2017). In this way, color was a relevant feature for both sets, but only shape or texture was relevant in their respective conditions.

محققان نه تنها هنگام کار با نوزادان باید به نوع روش تصویربرداری توجه ویژه ای داشته باشند، بلکه باید وظایف متناسب با سن را نیز ارائه دهند. برای مطالعه ادراک شکل، محققان دو مجموعه از محرک‌های بصری ایجاد کردند: یکی که در آن محرک‌ها در شکل و رنگ متفاوت بودند در حالی که بافت ثابت بود، و دیگری که در آن محرک‌ها در بافت و رنگ متفاوت بودند در حالی که شکل ثابت بود (امبرسون و همکاران، ۲۰۱۷). به این ترتیب، رنگ یک ویژگی مرتبط برای هر دو مجموعه بود، اما فقط شکل یا بافت در شرایط مربوطه مرتبط بود.

Taking advantage of the RS effect, the researchers focused on how the fNIRS response changed when certain features were repeated (Figure 6.13a). When a shape was repeated, the hemodynamic response from the LOC decreased compared to when different shapes were shown. In contrast, there was no difference between conditions in which texture was repeated or varied (Figure 6.13b), providing evidence that the infant LOC is sensitive to shape but not to other visual features.

با بهره گیری از اثر RS، محققان بر چگونگی تغییر پاسخ fNIRS با تکرار ویژگی‌های خاص تمرکز کردند (شکل ۶.13a). هنگامی‌که یک شکل تکرار شد، پاسخ همودینامیک از LOC در مقایسه با زمانی که اشکال مختلف نشان داده شد کاهش یافت. در مقابل، هیچ تفاوتی بین شرایطی که در آن بافت تکرار می‌شد یا تغییر می‌کرد وجود نداشت (شکل ۶.13b)، که نشان می‌دهد LOC نوزاد به شکل حساس است اما به سایر ویژگی‌های بصری حساس نیست.

شکل 6.13 ویژگی شناسایی شکل در LOC تا 6 ماهگی مشهود است.شکل 6.13 ویژگی شناسایی شکل در LOC تا 6 ماهگی مشهود است. قسمت دوم

FIGURE 6.13 Specificity for shape identification in the LOC is evident by 6 months of age. (a) Examples of stimuli. Within a block of trials, one dimension (either shape or texture) varied, and the other was held constant. (b) When a single shape was repeated eight times, the hemodynamic response in LOC decreased, as compared to when the shape varied with the texture repeated. This repetition suppression effect indicates that the LOC is selectively sensitive to shape.

شکل ۶.۱۳ ویژگی شناسایی شکل در LOC تا ۶ ماهگی مشهود است. الف) نمونه‌هایی از محرک‌ها. در یک بلوک آزمایش، یک بعد (چه شکل یا بافت) متفاوت بود و دیگری ثابت نگه داشت. (ب) هنگامی‌که یک شکل تنها هشت بار تکرار شد، پاسخ همودینامیک در LOC در مقایسه با زمانی که شکل با تکرار بافت تغییر می‌کرد، کاهش می‌یابد. این اثر سرکوب تکرار نشان می‌دهد که LOC به طور انتخابی به شکل حساس است.

From Shapes to Objects

از اشکال تا اشیا

What does Figure 6.14a show? If you are like most people, you initially saw a vase. With continued viewing, the vase changes to the profiles of two people facing each other, and then back to the vase, and on and on, in an ex- ample of multistable perception. How are multistable percepts resolved in the brain? The stimulus information does not change at the points of transition from one percept to the other, but the interpretation of the pictorial cues does. When staring at the white region, you see the vase. If you shift attention to the black regions, you see the profiles. But here we run into a chicken-and-egg question. Did the representation of individual features change first and thus cause the percept to change? Or did the percept change and lead to a reinterpretation of the features?

شکل ۶.14a چه چیزی را نشان می‌دهد؟ اگر شما هم مثل اکثر مردم هستید، ابتدا یک گلدان دیدید. با مشاهده ادامه، گلدان به نمایه‌های دو نفر که روبروی یکدیگر هستند تغییر می‌کند، و سپس به گلدان باز می‌گردد، و به عنوان مثالی از ادراک چندپایه، ادامه می‌یابد. ادراکات چندپایه چگونه در مغز حل می‌شوند؟ اطلاعات محرک در نقاط انتقال از یک ادراک به درک دیگر تغییر نمی‌کند، اما تفسیر نشانه‌های تصویری تغییر می‌کند. وقتی به ناحیه سفید خیره می‌شوید، گلدان را می‌بینید. اگر توجه خود را به مناطق سیاه معطوف کنید، نمایه‌ها را می‌بینید. اما در اینجا با یک سوال مرغ و تخم مرغ مواجه می‌شویم. آیا بازنمایی ویژگی‌های فردی ابتدا تغییر کرد و در نتیجه باعث تغییر ادراک شد؟ یا اینکه این برداشت تغییر کرده و منجر به تفسیر مجدد ویژگی‌ها شده است؟

شکل 6.14 حالا شما آن را می‌بینید، حالا نمی‌بینید: ادراکات چندپایه

FIGURE 6.14 Now you see it, now you don’t: multistable percepts.
(a) As you continue to stare at the figure, though the stimulus stays the same, your perception changes. (b) When the starburst or monkey face is presented alone (not shown), the cell in the temporal cortex responds vigorously to the monkey face but not to the starburst. In the rivalrous condition shown here, the two stimuli are presented simultaneously, one to the left eye and one to the right eye. The bottom bar shows the monkey’s perception, which the monkey indicated by a lever press-left for the starburst, right for the face. About 1 second after the onset of the rivalrous stimulus, the animal perceives the starburst; the cell is silent during this period. About 7 seconds later, the cell shows a large increase in activity and, correspondingly, the monkey indicates that its perception has changed to the monkey face shortly thereafter. Then, 2 seconds later, the percept flips back to the starburst and the cell’s activity is again reduced.

شکل ۶.۱۴ حالا شما آن را می‌بینید، حالا نمی‌بینید: ادراکات چندپایه.
(الف) همانطور که همچنان به شکل خیره می‌شوید، اگرچه محرک ثابت می‌ماند، ادراک شما تغییر می‌کند. (ب) هنگامی‌که ستاره انفجار یا صورت میمون به تنهایی ارائه می‌شود (نشان داده نمی‌شود)، سلول در قشر گیجگاهی به شدت به صورت میمون پاسخ می‌دهد اما به ستاره فوران پاسخ نمی‌دهد. در شرایط رقیب نشان داده شده در اینجا، دو محرک به طور همزمان ارائه می‌شوند، یکی به چشم چپ و دیگری به چشم راست. نوار پایینی ادراک میمون را نشان می‌دهد، که میمون با فشار دادن اهرمی‌به چپ برای انفجار ستاره، درست برای صورت، نشان می‌دهد. حدود ۱ ثانیه پس از شروع محرک رقیب، حیوان انفجار ستاره را درک می‌کند. سلول در این مدت ساکت است. حدود ۷ ثانیه بعد، سلول افزایش زیادی در فعالیت نشان می‌دهد و به همین ترتیب، میمون نشان می‌دهد که درک آن به صورت میمون در مدت کوتاهی پس از آن تغییر کرده است. سپس، ۲ ثانیه بعد، ادراک به انفجار ستاره برمی‌گردد و فعالیت سلول دوباره کاهش می‌یابد.

To explore these questions, David Sheinberg and Nikos Logothetis of the Max Planck Institute in Tübin- gen, Germany, turned to a different form of multistable perception: binocular rivalry (Sheinberg & Logothetis, 1997). The exquisite focusing capability of our eyes (perhaps assisted by an optometrist) makes us forget that they provide two separate snapshots of the world. These snapshots are only slightly different, and they provide important cues for depth perception. The researchers made special glasses that present radically different images to each eye and have a shutter that can alternately block the input to one eye and then the other at very rapid rates. When humans don these glasses, they do not see two things in one location. As with the ambiguous vase-face profiles picture, only one object or the other is seen at any single point in time, although at transitions there is sometimes a period of fuzziness in which neither object is clearly perceived.

برای بررسی این سؤالات، دیوید شینبرگ و نیکوس لوگوتیس از مؤسسه ماکس پلانک در توبینگن، آلمان، به شکل متفاوتی از ادراک چندپایه روی آوردند: رقابت دوچشمی‌(شاینبرگ و لوگوتیس، ۱۹۹۷). قابلیت فوکوس عالی چشمان ما (شاید با کمک یک اپتومتریست) باعث می‌شود فراموش کنیم که آنها دو عکس فوری جداگانه از جهان ارائه می‌دهند. این عکس‌های فوری فقط کمی‌متفاوت هستند و نشانه‌های مهمی‌برای درک عمق ارائه می‌دهند. محققان عینک‌های ویژه‌ای ساختند که تصاویر کاملاً متفاوتی را برای هر چشم نشان می‌دهد و دارای یک شاتر است که می‌تواند به طور متناوب ورودی یک چشم و سپس چشم دیگر را با سرعت بسیار سریع مسدود کند. وقتی انسان‌ها این عینک را می‌زنند، دو چیز را در یک مکان نمی‌بینند. همانند تصویر مبهم نمایه‌های صورت گلدانی، تنها یک شی یا آن شی در هر نقطه از زمان دیده می‌شود، اگرچه در انتقال گاهی اوقات دوره‌ای از مبهم وجود دارد که در آن هیچ یک از شی‌ها به وضوح درک نمی‌شوند.

The researchers fitted monkeys with the glasses and presented them with radically different inputs to the two eyes, either separately or simultaneously. The monkeys were trained to press one of two levers to indicate which object was being perceived. To make sure the animals were not responding randomly, the researchers included non-rivalrous trials in which only one of the objects was presented. They then recorded from single cells in various areas of the visual cortex. Within each area they tested two objects, only one of which was effective in driving the cell. In this way the activity of the cell could be correlated with the animal’s perceptual experience.

محققان این عینک را به میمون‌ها نصب کردند و ورودی‌های کاملاً متفاوتی را به دو چشم به صورت جداگانه یا همزمان به آن‌ها ارائه کردند. به میمون‌ها آموزش داده شد که یکی از دو اهرم را فشار دهند تا نشان دهند کدام شی در حال درک است. برای اطمینان از اینکه حیوانات به طور تصادفی پاسخ نمی‌دهند، محققان آزمایش‌های غیررقابتی را انجام دادند که در آن تنها یکی از اشیا ارائه شد. سپس آنها از تک سلولی در نواحی مختلف قشر بینایی ضبط کردند. در هر منطقه دو جسم را آزمایش کردند که تنها یکی از آنها در راندن سلول مؤثر بود. به این ترتیب فعالیت سلول می‌تواند با تجربه ادراکی حیوان مرتبط باشد.

The researchers found that activity in early visual areas was closely linked to the stimulus, while activity in higher areas (IT cortex) was linked to the percept. In V1, the responses of less than 20% of the cells fluctuated as a function of whether the animal perceived the effective or ineffective stimulus. In V4, this percentage increased to over 33%. In contrast, the activity of all the cells in the higher-order visual areas of the temporal lobe was tightly correlated with the animal’s perception. Here the cells would respond only when the effective stimulus, the mon- key face, was perceived (Figure 6.14b).

محققان دریافتند که فعالیت در نواحی بینایی اولیه ارتباط نزدیکی با محرک دارد، در حالی که فعالیت در نواحی بالاتر (قشر IT) با ادراک مرتبط است. در V1، پاسخ کمتر از ۲۰٪ از سلول‌ها به عنوان تابعی از اینکه حیوان محرک موثر یا غیر موثر را درک می‌کند، در نوسان است. در V4، این درصد به بیش از ۳۳٪ افزایش یافت. در مقابل، فعالیت تمام سلول‌ها در نواحی بصری مرتبه بالاتر لوب گیجگاهی با درک حیوان ارتباط تنگاتنگی داشت. در اینجا سلول‌ها تنها زمانی پاسخ می‌دهند که محرک موثر، چهره میمون، درک شود (شکل ۶.14b).

When the animal pressed the lever indicating that it perceived the ineffective stimulus (the starburst) under rivalrous conditions, the cells were essentially silent. In both V4 and the temporal lobe, the cell activity changed in advance of the animal’s response, indicating that the percept had changed. Thus, even when the stimulus did not change, an increase in activity was observed before the transition from a perception of the ineffective stimulus to a perception of the effective stimulus.

وقتی حیوان اهرمی‌را فشار داد که نشان می‌دهد محرک بی‌اثر (ستاره‌باران) را در شرایط رقیب درک کرده است، سلول‌ها اساساً ساکت بودند. هم در V4 و هم در لوب گیجگاهی، فعالیت سلولی قبل از پاسخ حیوان تغییر می‌کند، که نشان می‌دهد درک تغییر کرده است. بنابراین، حتی زمانی که محرک تغییر نمی‌کرد، قبل از انتقال از درک محرک بی اثر به درک محرک موثر، افزایش فعالیت مشاهده شد.

These results suggest a competition during the early stages of cortical processing between the two possible “what” percepts in the ventral pathway. The activity of the cells in VI and in V4 can be thought of as perceptual hypotheses, with the patterns across an ensemble of cells reflecting the strengths of the different hypotheses. Interactions between these cells ensure that, by the time the information reaches the inferior temporal lobe, one of these hypotheses has coalesced into a stable percept. Reflecting the properties of the real world, the brain is not fooled into believing that two objects exist at the same place at the same time.

این نتایج یک رقابت را در مراحل اولیه پردازش قشر مغز بین دو درک احتمالی “چه چیزی” در مسیر شکمی‌نشان می‌دهد. فعالیت سلول‌ها در VI و V4 را می‌توان به عنوان فرضیه‌های ادراکی در نظر گرفت، با الگوهای موجود در مجموعه‌ای از سلول‌ها که منعکس‌کننده نقاط قوت فرضیه‌های مختلف است. فعل و انفعالات بین این سلول‌ها تضمین می‌کند که تا زمانی که اطلاعات به لوب گیجگاهی تحتانی می‌رسد، یکی از این فرضیه‌ها به یک ادراک پایدار ادغام می‌شود. با انعکاس ویژگی‌های دنیای واقعی، مغز فریب نمی‌خورد که باور کند دو شی در یک مکان در یک زمان وجود دارند.

Grandmother Cells and Ensemble Coding

سلول‌های مادربزرگ و برنامه نویسی گروه

How do we recognize specific objects? For example, what enables us to distinguish between a coyote and a dog, a peach and a nectarine, or the orchid Dracula simia and a monkey face (Figure 6.15)? Are there individual cells that respond only to specific integrated percepts, or does perception of an object depend on the firing of a collection or ensemble of cells? In the latter case, this would mean that when you see a peach, a group of neurons that code for different features of the peach might become active, with some subset of them also active when you see a nectarine.

چگونه اشیاء خاص را تشخیص دهیم؟ به عنوان مثال، چه چیزی ما را قادر می‌سازد بین کایوت و سگ، هلو و شلیل، یا ارکیده Dracula simia و صورت میمون تمایز قائل شویم (شکل ۶.۱۵)؟ آیا سلول‌های منفردی وجود دارند که فقط به ادراکات یکپارچه خاصی پاسخ می‌دهند یا اینکه درک یک شی به شلیک مجموعه یا مجموعه ای از سلول‌ها بستگی دارد؟ در مورد دوم، این بدان معناست که وقتی هلو را می‌بینید، گروهی از نورون‌ها که ویژگی‌های مختلف هلو را کد می‌کنند ممکن است فعال شوند و برخی از زیرمجموعه‌های آن‌ها نیز با دیدن شلیل فعال شوند.

شکل 6.15 ارکیده میمون (Dracula simia)

FIGURE 6.15 Monkey orchid (Dracula simia). The flower of this species of orchid looks remarkably like a monkey’s face.

شکل ۶.۱۵ ارکیده میمون (Dracula simia). گل این گونه ارکیده به طرز چشمگیری شبیه صورت میمون است.

The finding that cells in the IT cortex selectively respond to complex stimuli (e.g., objects, places, body parts, or faces; Figure 6.6) is consistent with hierarchical theories of object perception. According to these theories, cells in the initial areas of the visual cortex code elementary features such as line orientation and color. The outputs from these cells are combined to form detectors sensitive to higher-order features such as corners or inter- sections—an idea consistent with the findings of Hubel and Wiesel (see Chapter 5). The process continues as each successive stage codes more complex combinations (Figure 6.16). The type of neuron that can recognize a complex object has been called a gnostic unit, referring to the idea that the cell (or cells) signals the presence of a known stimulus-an object, a place, or an animal that has been encountered in the past.

این یافته که سلول‌های قشر فناوری اطلاعات به طور انتخابی به محرک‌های پیچیده (مانند اشیا، مکان‌ها، قسمت‌های بدن یا چهره‌ها؛ شکل ۶.۶) پاسخ می‌دهند، با نظریه‌های سلسله مراتبی ادراک شی مطابقت دارد. طبق این نظریه‌ها، سلول‌ها در نواحی اولیه قشر بینایی ویژگی‌های ابتدایی مانند جهت گیری خط و رنگ را کد می‌کنند. خروجی‌های این سلول‌ها برای ایجاد آشکارسازهای حساس به ویژگی‌های مرتبه بالاتر مانند گوشه‌ها یا مقاطع، ترکیب می‌شوند – ایده‌ای که با یافته‌های Hubel و Wiesel سازگار است (به فصل ۵ مراجعه کنید). این فرآیند همچنان ادامه می‌یابد که هر مرحله متوالی ترکیب‌های پیچیده تری را کد می‌کند (شکل ۶.۱۶). نوع نورونی که می‌تواند یک شی پیچیده را تشخیص دهد واحد عرفانی نامیده می‌شود و به این ایده اشاره دارد که سلول (یا سلول‌ها) وجود یک محرک شناخته‌شده را نشان می‌دهد – یک شی، یک مکان یا حیوانی که در گذشته با آن مواجه شده‌اند.

It is tempting to conclude that the cell represented by the recordings in Figure 6.6 signals the presence of a hand, independent of viewpoint. Other cells in the IT cortex respond preferentially to complex stimuli, such as jagged contours or fuzzy textures. The latter might be useful for a monkey, to help it identify that an object has a fur-covered surface and therefore might be the back- side of another member of its group.

وسوسه انگیز است که نتیجه بگیریم سلولی که با ضبط‌های شکل ۶.۶ نشان داده شده است، وجود یک دست، مستقل از دیدگاه را نشان می‌دهد. سلول‌های دیگر در قشر فناوری اطلاعات ترجیحاً به محرک‌های پیچیده مانند خطوط ناهموار یا بافت‌های مبهم پاسخ می‌دهند. دومی‌ممکن است برای یک میمون مفید باشد تا به او کمک کند تا تشخیص دهد که یک شی دارای سطحی پوشیده از خز است و بنابراین ممکن است پشت یکی دیگر از اعضای گروه خود باشد.

Even more intriguing, researchers discovered cells in the IT gyrus and the floor of the superior temporal sulcus (STS) that are selectively activated by faces. In a tongue- in-check manner, they coined the term grandmother cell to convey the notion that people’s brains might have a gnostic unit that becomes excited only when their grand- mother comes into view. Other gnostic units would be specialized to recognize, for example, a blue Volkswagen or the Golden Gate Bridge.

حتی جالب‌تر از این، محققان سلول‌هایی را در شکنج فناوری اطلاعات و کف شیار گیجگاهی فوقانی (STS) کشف کردند که به‌طور انتخابی توسط چهره‌ها فعال می‌شوند. آنها با بررسی زبان، اصطلاح سلول مادربزرگ را ابداع کردند تا این تصور را منتقل کنند که مغز افراد ممکن است یک واحد عرفانی داشته باشد که تنها زمانی هیجان زده می‌شود که مادربزرگشان به چشم بیاید. سایر واحدهای عرفانی برای تشخیص، به عنوان مثال، یک فولکس واگن آبی یا پل گلدن گیت تخصصی خواهند بود.

Itzhak Fried and his colleagues at UCLA explored this question by making single-cell recordings in human participants (Quiroga et al., 2005). These participants all had epilepsy, and in preparation for a surgical procedure to alleviate their symptoms, electrodes were surgically implanted in the temporal lobe. In the study, they were shown a wide range of pictures, including animals, objects, landmarks, and individuals. The investigators’ first observation was that, in general, it was difficult to make these cells respond. Even when the stimuli were individually tailored to each participant on the basis of an interview to determine that person’s visual history, the temporal lobe cells were generally inactive.

Itzhak Fried و همکارانش در UCLA این سوال را با انجام ضبط‌های تک سلولی در شرکت کنندگان انسانی بررسی کردند (Quiroga et al., 2005). این شرکت کنندگان همگی صرع داشتند و در آماده سازی برای یک عمل جراحی برای کاهش علائم آنها، الکترودهایی با جراحی در لوب تمپورال کاشته شدند. در این مطالعه، طیف وسیعی از تصاویر، از جمله حیوانات، اشیاء، نقاط دیدنی و افراد به آنها نشان داده شد. اولین مشاهده محققین این بود که به طور کلی، پاسخ دادن به این سلول‌ها دشوار است. حتی زمانی که محرک‌ها به صورت جداگانه برای هر یک از شرکت کنندگان بر اساس مصاحبه برای تعیین تاریخچه بینایی آن فرد تنظیم می‌شد، سلول‌های لوب گیجگاهی عموماً غیرفعال بودند.

Nonetheless, there were exceptions. Most notable, these exceptions revealed an extraordinary degree of stimulus specificity. Recall Figure 3.21, which shows the response of one temporal lobe neuron that was selectively activated in response to photographs of the actress Halle Berry. Ms. Berry could be wearing sunglasses, sporting a dramatically different haircut, or even in costume as Catwoman-in all cases, this particular neuron was activated. Other actresses or famous people failed to activate the neuron.

با این حال، استثناهایی وجود داشت. قابل توجه تر، این استثناها درجه فوق العاده ای از ویژگی محرک را نشان می‌دهد. شکل ۳.۲۱ را به یاد بیاورید، که پاسخ یک نورون لوب گیجگاهی را نشان می‌دهد که به طور انتخابی در پاسخ به عکس‌های بازیگر زن‌هالی بری فعال شده است. خانم بری ممکن است عینک آفتابی بزند، مدل موی کاملا متفاوتی داشته باشد، یا حتی در لباس گربه‌ای – در همه موارد، این نورون خاص فعال شده است. دیگر بازیگران زن یا افراد مشهور نتوانستند نورون را فعال کنند.

Although it is tempting to conclude that cells like these are gnostic units, it is important to keep in mind the limitations of such experiments. First, aside from the infinite number of possible stimuli, the recordings are performed on only a small subset of neurons. This cell potentially could be activated by a broader set of stimuli, and many other neurons might respond in a similar manner. Second, the results also suggest that these gnostic-like units are not really “perceptual.” The same cell was also activated when the words “Halle Berry” were presented. This observation takes the wind out of the argument that this is a grandmother cell, at least in the original sense of the idea. Rather, the cell may represent the concept of “Halle Berry,” or even represent the name Halle Berry, a name that is likely recalled from memory for any of the stimuli relevant to the actress.

اگرچه وسوسه انگیز است که نتیجه بگیریم که سلول‌هایی مانند این واحدهای گنوسی هستند، مهم است که محدودیت‌های چنین آزمایش‌هایی را در نظر داشته باشیم. اول، جدا از تعداد نامتناهی محرک‌های ممکن، ضبط‌ها تنها بر روی یک زیر مجموعه کوچک از نورون‌ها انجام می‌شوند. این سلول به طور بالقوه می‌تواند توسط مجموعه وسیع تری از محرک‌ها فعال شود و بسیاری از نورون‌های دیگر ممکن است به شیوه ای مشابه پاسخ دهند. دوم، نتایج همچنین نشان می‌دهد که این واحدهای عرفانی‌مانند واقعاً «ادراکی» نیستند. با ارائه عبارت “Halle Berry” نیز همین سلول فعال شد. این مشاهدات این بحث را که این یک سلول مادربزرگ است، حداقل به معنای اصلی ایده، از بین می‌برد. در عوض، سلول ممکن است مفهوم “هالی بری” را نشان دهد، یا حتی نام‌هالی بری را نشان دهد، نامی‌که احتمالاً برای هر یک از محرک‌های مربوط به بازیگر از حافظه به یاد می‌آید.

One alternative to the grandmother-cell hypothesis is that object recognition results from activation across complex feature detectors (Figure 6.17). Granny, then, is recognized when some of these higher-order neurons are activated. Some of the cells may respond to her shape, others to the color of her hair, and still others to the features of her face. According to this ensemble hypothesis, recognition is due not to one unit but to the collective activation of many units. Ensemble theories readily account for why we can recognize similarities between objects (say, a tiger and a lion) and may confuse one visually similar object with another: Both objects activate many of the same neurons. Losing some units might degrade our ability to recognize an object, but the remaining units might suffice. Ensemble theories also account for our ability to recognize novel objects. Novel objects bear a similarity to familiar things, and our percepts result from activating units that represent their features.

یک جایگزین برای فرضیه سلول مادربزرگ این است که تشخیص شی از فعال سازی در آشکارسازهای ویژگی پیچیده حاصل می‌شود (شکل ۶.۱۷). بنابراین، مادربزرگ زمانی شناخته می‌شود که برخی از این نورون‌های مرتبه بالاتر فعال شوند. برخی از سلول‌ها ممکن است به شکل او، برخی دیگر به رنگ موهای او و برخی دیگر به ویژگی‌های صورت او پاسخ دهند. بر اساس این فرضیه مجموعه، شناخت نه به دلیل یک واحد بلکه به دلیل فعال شدن جمعی بسیاری از واحدها است. تئوری‌های مجموعه به راحتی توضیح می‌دهند که چرا ما می‌توانیم شباهت‌های بین اشیاء (مثلاً ببر و شیر) را تشخیص دهیم و ممکن است یک شی از نظر بصری مشابه را با دیگری اشتباه بگیریم: هر دو شی بسیاری از نورون‌های مشابه را فعال می‌کنند. از دست دادن برخی واحدها ممکن است توانایی ما در تشخیص یک شی را کاهش دهد، اما واحدهای باقی مانده ممکن است کافی باشند. تئوری‌های مجموعه همچنین توانایی ما در تشخیص اشیاء جدید را توضیح می‌دهند. اشیاء جدید شباهتی به چیزهای آشنا دارند و ادراکات ما از واحدهای فعالی که نمایانگر ویژگی‌های آنهاست، ناشی می‌شود.

شکل 6.16 فرضیه کدگذاری سلسله مراتبی

FIGURE 6.16 The hierarchical coding hypothesis.
Elementary features are combined to create objects that can be recognized by gnostic units. At the first level of the hierarchy depicted are edge detectors, which operate similarly to the simple cells discussed in Chapter 5. These feature units combine to form corner detectors, which in turn combine to form cells that respond to even more complex stimuli, such as surfaces. (a) Hypothesized computational stages for hierarchical coding. (b) Cartoon of neuronal implementation of the computational stages illustrated in (a).

شکل ۶.۱۶ فرضیه کدگذاری سلسله مراتبی.
ویژگی‌های ابتدایی برای ایجاد اشیایی که توسط واحدهای عرفانی قابل تشخیص هستند ترکیب می‌شوند. در سطح اول سلسله مراتب نشان داده شده، آشکارسازهای لبه‌ای هستند که مشابه سلول‌های ساده مورد بحث در فصل ۵ عمل می‌کنند. این واحدهای ویژگی ترکیب می‌شوند تا آشکارسازهای گوشه‌ای را تشکیل دهند، که به نوبه خود سلول‌هایی را تشکیل می‌دهند که به محرک‌های پیچیده‌تر، مانند سطوح، پاسخ می‌دهند. (الف) مراحل محاسباتی فرضی برای کدگذاری سلسله مراتبی. (ب) کاریکاتور اجرای عصبی مراحل محاسباتی نشان داده شده در (الف).

The results of single-cell studies of temporal lobe neurons are in accord with ensemble theories of object recognition. Although it is striking that some cells are selective for complex objects, the selectivity is almost always relative, not absolute. The cells in the IT cortex prefer certain stimuli to others, but they are also activated by visually similar stimuli. The cell represented in Figure 6.6, for instance, increases its activity when presented with a mitten-like stimulus. No cells respond to a particular individual’s hand; the hand-selective cell responds equally to just about any hand. In contrast, as people’s perceptual abilities demonstrate, we make much finer discriminations.

نتایج مطالعات تک سلولی نورون‌های لوب گیجگاهی با تئوری‌های گروهی تشخیص اشیا مطابقت دارد. اگرچه جالب است که برخی از سلول‌ها برای اشیاء پیچیده انتخابی هستند، اما گزینش پذیری تقریباً همیشه نسبی است، نه مطلق. سلول‌های قشر IT محرک‌های خاصی را به محرک‌های دیگر ترجیح می‌دهند، اما آنها نیز توسط محرک‌های بصری مشابه فعال می‌شوند. به عنوان مثال، سلولی که در شکل ۶.۶ نشان داده شده است، هنگامی‌که با یک محرک دستکش ارائه می‌شود، فعالیت خود را افزایش می‌دهد. هیچ سلولی به دست یک فرد خاص پاسخ نمی‌دهد. سلول انتخابی دست تقریباً به هر دستی پاسخ می‌دهد. در مقابل، همانطور که توانایی‌های ادراکی افراد نشان می‌دهد، ما تبعیض‌های بسیار ظریف‌تری انجام می‌دهیم.

شکل 6.17 فرضیه کدگذاری مجموعه. اشیا با فعال سازی همزمان مجموعه ای از ویژگی‌های تعریف کننده تعریف می‌شوند

FIGURE 6.17 The ensemble coding hypothesis. Objects are defined by the simultaneous activation of a set of defining properties. “Granny” is recognized here by the co-occurrence of her wrinkles, face shape, hair color, and so on.

شکل ۶.۱۷ فرضیه کدگذاری مجموعه. اشیا با فعال سازی همزمان مجموعه ای از ویژگی‌های تعریف کننده تعریف می‌شوند. “بزرگ” در اینجا با ایجاد همزمان چین و چروک، فرم صورت، رنگ مو و غیره شناخته می‌شود.

Exploiting the Computational Power of Neural Networks

بهره برداری از توان محاسباتی شبکه‌های عصبی

How are perceptual systems organized to make sense of the complex information that is constantly bombarding our sense organs? One suggestion is that a layered architecture with extensive connectivity and subject to some simple learning principles is optimal for learning about the rich structure of the environment. Although this conjecture has been debated at a theoretical level for a long time, recent advances in artificial intelligence research have enabled researchers to put the idea to the test, comparing simulations derived in deep learning net- works (see Chapter 3) with data from neurophysiological experiments.

چگونه سیستم‌های ادراکی سازماندهی می‌شوند تا اطلاعات پیچیده‌ای را که دائماً اندام‌های حسی ما را بمباران می‌کنند، درک کنند؟ یک پیشنهاد این است که یک معماری لایه ای با اتصال گسترده و با رعایت برخی اصول یادگیری ساده برای یادگیری ساختار غنی محیط بهینه است. اگرچه این حدس برای مدت طولانی در سطح نظری مورد بحث بوده است، پیشرفت‌های اخیر در تحقیقات هوش مصنوعی محققان را قادر می‌سازد تا این ایده را آزمایش کنند و شبیه‌سازی‌های به دست آمده در شبکه‌های یادگیری عمیق (به فصل ۳ را ببینید) با داده‌های آزمایش‌های عصبی فیزیولوژیکی مقایسه کنند.

At the input layer of these networks, the representation may be somewhat akin to information in the environment; for example, a visual recognition network might have an input layer that corresponds to the pixels in an image. At the output layer, the representation might correspond to a decision; for example, is there a face in the image and if so, whose? The middle layers, or what are called the hidden layers, entail additional processing steps in which the information is recombined and reweighted according to different processing rules (Figure 6.18).

در لایه ورودی این شبکه‌ها، نمایش ممکن است تا حدودی شبیه به اطلاعات موجود در محیط باشد. به عنوان مثال، یک شبکه تشخیص بصری ممکن است دارای یک لایه ورودی باشد که با پیکسل‌های یک تصویر مطابقت دارد. در لایه خروجی، نمایش ممکن است با یک تصمیم مطابقت داشته باشد. به عنوان مثال، آیا چهره ای در تصویر وجود دارد و اگر وجود دارد، چه کسی؟ لایه‌های میانی، یا آنچه لایه‌های پنهان نامیده می‌شود، مستلزم مراحل پردازش اضافی است که در آن اطلاعات با توجه به قوانین مختلف پردازش، دوباره ترکیب و وزن‌دهی می‌شوند (شکل ۶.۱۸).

How this comes about depends on the algorithms used to train the system. In some cases, error signals might be created by comparing the output of the network with the correct answer and then using this information to modify the connections-for example, by weakening connections that are active when errors are made. In other cases, the training rules might be based on simple network properties, such as level of activity (e.g., making active connections stronger).

اینکه چگونه این اتفاق می‌افتد بستگی به الگوریتم‌های مورد استفاده برای آموزش سیستم دارد. در برخی موارد، سیگنال‌های خطا ممکن است با مقایسه خروجی شبکه با پاسخ صحیح و سپس استفاده از این اطلاعات برای اصلاح اتصالات ایجاد شوند – به عنوان مثال، با تضعیف اتصالاتی که در هنگام بروز خطا فعال هستند. در موارد دیگر، قوانین آموزشی ممکن است بر اساس ویژگی‌های شبکه ساده، مانند سطح فعالیت (به عنوان مثال، قوی تر کردن اتصالات فعال) باشد.

The key insight to be drawn from research with deep learning networks is that these systems are remarkably efficient at extracting statistical regularities or creating representations that can solve complex problems (Figure 6.19). Deep learning networks have surpassed human abilities in games such as Go and Texas Hold’em poker, and they are becoming highly proficient in some of our most exquisite perceptual abilities, such as judging whether a face is familiar.

بینش کلیدی که باید از تحقیقات با شبکه‌های یادگیری عمیق استخراج شود این است که این سیستم‌ها در استخراج قانونمندی‌های آماری یا ایجاد نمایش‌هایی که می‌توانند مسائل پیچیده را حل کنند به طور قابل توجهی کارآمد هستند (شکل ۶.۱۹). شبکه‌های یادگیری عمیق در بازی‌هایی مانند پوکر Go و Texas Hold’em از توانایی‌های انسانی پیشی گرفته‌اند و در برخی از نفیس‌ترین توانایی‌های ادراکی ما، مانند قضاوت در مورد آشنا بودن چهره، مهارت بالایی پیدا کرده‌اند.

To explore whether our visual system is organized in a similar manner, Jim DiCarlo and his colleagues at MIT (Yamins et al., 2014) constructed a hierarchical model with a layered architecture of the ventral pathway to solve a fundamental perceptual problem: determining the category of a visual stimulus. To train the network, the model was presented with 5,760 pictures that included objects from eight different categories (animals, boats, cars, chairs, faces, fruits, planes, and tables). This training would be analogous to a baby’s continued exposure to different visual scenes.

برای بررسی اینکه آیا سیستم بینایی ما به شیوه ای مشابه سازماندهی شده است، جیم دی کارلو و همکارانش در MIT (یامینز و همکاران، ۲۰۱۴) یک مدل سلسله مراتبی با معماری لایه ای از مسیر شکمی‌برای حل یک مشکل ادراکی اساسی ساختند: تعیین دسته یک محرک بصری. برای آموزش شبکه، این مدل با ۵۷۶۰ تصویر ارائه شد که شامل اشیاء از هشت دسته مختلف (حیوانات، قایق‌ها، ماشین‌ها، صندلی‌ها، صورت‌ها، میوه‌ها، هواپیماها و میزها) بود. این آموزش مشابه مواجهه مداوم نوزاد با صحنه‌های بصری مختلف خواهد بود.

Each image was then propagated through a four- layered network in which the processing at each stage incorporated computational principles derived from neurophysiological and computational studies. At the VI stage, activation reflected the integration of luminance information from a small set of pixels. Higher stages combined the output from lower stages, with the output from the final stage used as a prediction of the model’s judgment of the depicted object’s category membership. The connections within each layer and between layers were refined according to how well the prediction matched the true answer; for example, if the prediction was wrong, active connections were weakened.

سپس هر تصویر از طریق یک شبکه چهار لایه منتشر شد که در آن پردازش در هر مرحله شامل اصول محاسباتی برگرفته از مطالعات عصبی فیزیولوژیکی و محاسباتی بود. در مرحله VI، فعال‌سازی ادغام اطلاعات درخشندگی از مجموعه کوچکی از پیکسل‌ها را منعکس می‌کرد. مراحل بالاتر خروجی مراحل پایین‌تر را با خروجی مرحله نهایی به عنوان پیش‌بینی قضاوت مدل در مورد عضویت در دسته شی تصویر شده ترکیب کردند. اتصالات درون هر لایه و بین لایه‌ها با توجه به اینکه چقدر پیش بینی با پاسخ واقعی مطابقت دارد، اصلاح شد. برای مثال، اگر پیش‌بینی اشتباه بود، اتصالات فعال ضعیف می‌شدند.

شکل 6.18 شبکه‌های پیشخوراند لایه لایه‌‌ای

FIGURE 6.18 Layered feedforward networks.
(a) A shallow feedforward network has no hidden layers or one hidden layer. (b) A deep feedforward network has more than one hidden layer. The use of multilayered networks has been a major breakthrough in machine learning and neuroscience, allowing systems to solve complex problems.

شکل ۶.۱۸ شبکه‌های پیشخوراند لایه لایه‌‌ای.
(الف) یک شبکه پیشخور کم عمق هیچ لایه پنهان یا یک لایه پنهان ندارد. (ب) یک شبکه پیشخور عمیق بیش از یک لایه پنهان دارد. استفاده از شبکه‌های چندلایه یک پیشرفت بزرگ در یادگیری ماشین و علوم اعصاب بوده است و به سیستم‌ها اجازه می‌دهد تا مسائل پیچیده را حل کنند.

شکل 6.19 نمایش‌هایی که می‌توانند از لایه‌های مختلف یک شبکه عمیق استخراج شوند

FIGURE 6.19 Representations that can be extracted from different layers of a deep network.
Early layers (here, Layers 1 and 2) correspond to features identified in early visual areas (V1-V4). Later layers (here, Layers 3-5) correspond to what you see in cells further along the ventral pathway. These representations emerge naturally when networks are trained to recognize objects.

شکل ۶.۱۹ نمایش‌هایی که می‌توانند از لایه‌های مختلف یک شبکه عمیق استخراج شوند.
لایه‌های اولیه (در اینجا، لایه‌های ۱ و ۲) با ویژگی‌های شناسایی‌شده در مناطق بصری اولیه (V1-V4) مطابقت دارند. لایه‌های بعدی (در اینجا، لایه‌های ۳-۵) با آنچه در سلول‌های بیشتر در امتداد مسیر شکمی‌می‌بینید مطابقت دارد. این نمایش‌ها به طور طبیعی زمانی پدیدار می‌شوند که شبکه‌ها برای تشخیص اشیا آموزش ببینند.

DiCarlo and his team provided two tests of the model. First, they asked how well the output from different layers in the model compared to neuronal activity at different levels of the ventral pathway. In particular, they showed the same pictures to monkeys while recording from cells in V4 and IT cortex. Interestingly, the output from the third layer of the network correlated strongly with the activity patterns in V4, whereas the output from the fourth layer correlated with activity patterns in the IT cortex. Even though the model entails radical simplifications of the complex interactions that underlie actual neuronal activity, there was a strong correspondence between the artificial and biological systems, providing support for the idea that the biological brain has a layered architecture. We discuss this theory in more detail in Chapter 14.

دی کارلو و تیمش دو آزمایش از این مدل ارائه کردند. ابتدا، آنها پرسیدند که خروجی لایه‌های مختلف در مدل در مقایسه با فعالیت عصبی در سطوح مختلف مسیر شکمی‌چقدر خوب است. به طور خاص، آنها همان تصاویر را در حین ضبط از سلول‌های V4 و قشر IT به میمون‌ها نشان دادند. جالب توجه است که خروجی از لایه سوم شبکه به شدت با الگوهای فعالیت در V4 همبستگی دارد، در حالی که خروجی از لایه چهارم با الگوهای فعالیت در قشر فناوری اطلاعات ارتباط دارد. اگرچه این مدل مستلزم ساده‌سازی‌های بنیادی از فعل و انفعالات پیچیده‌ای است که زیربنای فعالیت‌های عصبی واقعی است، یک تناظر قوی بین سیستم‌های مصنوعی و بیولوژیکی وجود دارد که از این ایده پشتیبانی می‌کند که مغز بیولوژیکی دارای معماری لایه‌ای است. ما این نظریه را در فصل ۱۴ با جزئیات بیشتری مورد بحث قرار می‌دهیم.

Second, the researchers looked at the model’s performance on three categorization tasks of increasing difficulty (Figure 6.20a). In the easiest test, the objects were of a similar size and shown in a similar orientation and background. In the harder tests, the objects had more variation in their pose, position, scale, and background. The model’s ability to identify the object’s category was compared to humans doing the same task, as well as to predictions derived from neuronal activity in V4 or IT neurons. As can be seen in Figure 6.20c, categorization accuracy was similar for the model, the IT neurons, and the human observers. Moreover, as one would expect from what we have learned, V4 activity did a reasonably good job in predicting category membership for the easy task, but its performance dropped dramatically on the harder tasks.

دوم، محققان به عملکرد مدل در سه وظیفه طبقه بندی افزایش دشواری نگاه کردند (شکل ۶.20a). در ساده ترین آزمایش، اشیاء دارای اندازه مشابه بودند و در جهت و پس زمینه مشابه نشان داده شدند. در آزمون‌های سخت‌تر، اجسام دارای تنوع بیشتری در حالت، موقعیت، مقیاس و پس‌زمینه خود بودند. توانایی مدل برای شناسایی دسته شی با انسان‌هایی که همان کار را انجام می‌دهند و همچنین با پیش بینی‌های ناشی از فعالیت عصبی در نورون‌های V4 یا IT مقایسه شد. همانطور که در شکل ۶.20c مشاهده می‌شود، دقت طبقه بندی برای مدل، نورون‌های IT و ناظران انسانی مشابه بود. علاوه بر این، همانطور که از آموخته‌های ما انتظار می‌رود، فعالیت V4 در پیش‌بینی عضویت در دسته برای کار آسان کار خوبی انجام داد، اما عملکرد آن در کارهای سخت‌تر به طرز چشمگیری کاهش یافت.

One way to interpret the difference between the V4 and IT predictions is that only the latter achieves object constancy, identifying category membership independent of the actual stimulus. Humans are quite adept in maintaining object constancy-by definition, this is one form of categorization and a simple, multilayered model. with fairly simple processing rules was nearly as good as the human observers. We can well imagine that with more complexity and better learning algorithms, these complex networks might soon surpass human ability to rapidly scan through complex scenes. The airport security officer scanning X-ray images of your luggage is likely to be replaced by artificial intelligence.

یکی از راه‌های تفسیر تفاوت بین پیش‌بینی‌های V4 و IT این است که فقط پیش‌بینی‌های دومی‌به ثبات شی دست می‌یابد و عضویت دسته را مستقل از محرک واقعی شناسایی می‌کند. انسان‌ها در حفظ ثبات اشیا بر اساس تعریف کاملاً ماهر هستند، این یکی از اشکال دسته بندی و یک مدل ساده و چند لایه است. با قوانین پردازش نسبتاً ساده تقریباً به خوبی ناظران انسانی بود. ما به خوبی می‌توانیم تصور کنیم که با پیچیدگی بیشتر و الگوریتم‌های یادگیری بهتر، این شبکه‌های پیچیده ممکن است به زودی از توانایی انسان برای اسکن سریع صحنه‌های پیچیده پیشی بگیرند. افسر امنیتی فرودگاه که تصاویر اشعه ایکس از چمدان شما را اسکن می‌کند احتمالاً با هوش مصنوعی جایگزین می‌شود.

Top-Down Effects on Object Recognition

اثرات بالا به پایین در تشخیص شی

Up to this point, we have emphasized a bottom-up perspective on processing within the visual system, showing how a multilayered system can combine features into more complex representations. This model appears to nicely capture the flow of information along the ventral pathway. However, it is also important to recognize that information processing is not a one-way, bottom-up street. For example, at Thanksgiving your sister may ask you to pass the potatoes. Your visual system does not meticulously inspect each food platter on the cluttered table to decide whether it contains the desired item. It can readily eliminate unlikely candidates, such as the turkey platter, and focus on the platters that contain a food with a color or consistency associated with potatoes.

تا این مرحله، ما بر دیدگاه از پایین به بالا در پردازش در سیستم بصری تاکید کرده‌ایم، که نشان می‌دهد چگونه یک سیستم چندلایه می‌تواند ویژگی‌ها را در نمایش‌های پیچیده‌تر ترکیب کند. به نظر می‌رسد این مدل به خوبی جریان اطلاعات را در امتداد مسیر شکمی‌ثبت می‌کند. با این حال، درک این نکته نیز مهم است که پردازش اطلاعات یک خیابان یک طرفه و از پایین به بالا نیست. برای مثال، در روز شکرگزاری، خواهرتان ممکن است از شما بخواهد که سیب زمینی‌ها را پاس کنید. سیستم بینایی شما به دقت هر بشقاب غذا را روی میز درهم و برهم بررسی نمی‌کند تا تصمیم بگیرد که آیا حاوی کالای مورد نظر است یا خیر. این می‌تواند به راحتی کاندیداهای نامحتمل مانند بشقاب بوقلمون را حذف کند و بر روی بشقاب‌هایی متمرکز شود که حاوی مواد غذایی با رنگ یا قوام مرتبط با سیب زمینی هستند.

One model of top-down effects emphasizes that input from the frontal cortex can influence processing along the ventral pathway. In this view, inputs from early visual areas are projected to the frontal lobe. Given their low position in the hierarchy, these representations are quite crude, perhaps just a blurry map of the distribution of objects in the scene—and even here, there may not be clear separation of the parts. The frontal lobe generates predictions about what the scene is, using this early scene analysis and knowledge of the current context. These top- down predictions can then be compared with the bottom- up analysis occurring along the ventral pathway of the temporal cortex, making for faster object recognition by limiting the field of possibilities (Figure 6.21).

یک مدل از اثرات بالا به پایین تأکید می‌کند که ورودی از قشر پیشانی می‌تواند بر پردازش در طول مسیر شکمی‌تأثیر بگذارد. در این دیدگاه، ورودی‌های نواحی بصری اولیه به لوب فرونتال فرستاده می‌شوند. با توجه به موقعیت پایین آنها در سلسله مراتب، این نمایش‌ها کاملاً خام هستند، شاید فقط نقشه‌ای مبهم از توزیع اشیاء در صحنه – و حتی در اینجا، ممکن است جداسازی واضحی از قطعات وجود نداشته باشد. لوب فرونتال با استفاده از این تجزیه و تحلیل صحنه اولیه و دانش از زمینه فعلی، پیش‌بینی‌هایی در مورد اینکه صحنه چیست، ایجاد می‌کند. سپس این پیش‌بینی‌های بالا به پایین را می‌توان با تجزیه و تحلیل از پایین به بالا که در امتداد مسیر شکمی‌قشر گیجگاهی اتفاق می‌افتد مقایسه کرد و با محدود کردن زمینه احتمالات، تشخیص سریع‌تر شی را انجام داد (شکل ۶.۲۱).

شکل 6.20 نتایج عملکرد در آزمون دسته بندی اشیا

FIGURE 6.20 Performance results on an object categorization test.
(a) Test images were of eight object categories at three levels of object view variation. (b) Chronically implanted microelectrode arrays recorded the responses of neurons in V4 and IT cortex to about 6,000 images. (c) Neuronal responses from V4 (light-green bars), IT cortex (blue bars), and multilayered network models (red bars) were collected on the same image set and used to train classifiers from which population performance accuracy was evaluated. (The y-axis represents the percentage correct in an eight-way categorization, so chance performance would be 12.5%.) The responses of the human participants (black bars) were collected via psychophysics experiments.

شکل ۶.۲۰ نتایج عملکرد در آزمون دسته بندی اشیا.
(الف) تصاویر آزمایشی از هشت دسته شی در سه سطح تنوع نمای شی بودند. (ب) آرایه‌های میکروالکترودی کاشته شده مزمن پاسخ نورون‌ها را در V4 و قشر IT به حدود ۶۰۰۰ تصویر ثبت کردند. (ج) پاسخ‌های عصبی از V4 (نوارهای سبز روشن)، قشر فناوری اطلاعات (نوارهای آبی)، و مدل‌های شبکه چندلایه (نوارهای قرمز) در همان مجموعه تصویر جمع‌آوری شدند و برای آموزش طبقه‌بندی‌کننده‌هایی که دقت عملکرد جمعیت از آن‌ها ارزیابی شد، استفاده شد. (محور y درصد صحیح را در یک طبقه بندی هشت طرفه نشان می‌دهد، بنابراین عملکرد شانسی ۱۲.۵٪ خواهد بود.) پاسخ‌های شرکت کنندگان انسانی (نوارهای سیاه) از طریق آزمایش‌های روان شناسی جمع آوری شد.

To test this model, Moshe Bar and his colleagues had volunteers perform a visual recognition task while undergoing magnetoencephalography (MEG), a method with exquisite temporal resolution and reasonable spatial resolution. They were interested in comparing the time course of activation in frontal regions to that in recognition-related regions within the temporal cortex. The volunteers were very briefly shown pictures of familiar objects flanked by two masks. The same picture could be presented several times, randomly interspersed with pictures of other objects. Thus, the participants had several opportunities to recognize the object if they failed on earlier brief glimpses. 

برای آزمایش این مدل، موشه بار و همکارانش از داوطلبان خواستند هنگام انجام مغناطیسی مغزی (MEG)، یک روش با وضوح زمانی عالی و وضوح فضایی معقول، یک کار تشخیص بصری انجام دهند. آنها علاقه مند به مقایسه دوره زمانی فعال سازی در نواحی فرونتال با نواحی مرتبط با تشخیص در قشر تمپورال بودند. به داوطلبان برای مدت کوتاهی تصاویری از اشیاء آشنا که دو ماسک در کنار آنها قرار داشتند نشان دادند. همان تصویر را می‌توان چندین بار ارائه داد و به‌طور تصادفی با تصاویری از اشیاء دیگر در هم آمیخت. بنابراین، شرکت‌کنندگان در صورت شکست در نگاه‌های اجمالی قبلی، فرصت‌های متعددی برای تشخیص شی داشتند.

شکل 6.21 یک مدل پیشنهادی برای تسهیل تشخیص بصری از بالا به پایین

FIGURE 6.21 A proposed model of top-down facilitation of visual recognition.
In this model, the orbitofrontal cortex makes predictions of objects from partially analyzed visual input and sends them to ventral- stream processing areas to facilitate object recognition.

شکل ۶.۲۱ یک مدل پیشنهادی برای تسهیل تشخیص بصری از بالا به پایین.
در این مدل، قشر اوربیتوفرونتال پیش بینی اشیاء را از ورودی بصری تا حدی تحلیل شده انجام می‌دهد و آنها را به مناطق پردازش جریان شکمی‌می‌فرستد تا تشخیص اشیا را تسهیل کند.

The MEG response on trials when the object was recognized was compared to trials in which the same object was not recognized. The researchers found that when the object was recognized (versus when it was not), activation occurred in the frontal regions 50 ms earlier than in the regions of the temporal cortex involved with object recognition (Figure 6.22).

پاسخ MEG در کارآزمایی‌ها زمانی که شی شناسایی شد با کارآزمایی‌هایی مقایسه شد که در آن شیء مشابه شناسایی نشد. محققان دریافتند که وقتی شی شناسایی شد (در مقایسه با زمانی که شناسایی نشد)، فعال سازی در نواحی جلویی ۵۰ میلی ثانیه زودتر از نواحی قشر گیجگاهی درگیر با تشخیص شی اتفاق می‌افتد (شکل ۶.۲۲).

Mind Reading: Decoding and Encoding Brain Signals

ذهن خوانی: رمزگشایی و رمزگذاری سیگنال‌های مغزی

We have seen various ways in which scientists have explored specialization within the visual cortex by manipulating the input and measuring the response. These observations have led investigators to realize that it should, at least in principle, be possible to analyze the system in the opposite direction (Figure 6.23). That is, we should be able to look at someone’s brain activity and infer what the person is currently seeing (or has recently seen, assuming our measurements are delayed)- a form of mind reading. This idea is referred to as decoding: The brain activity provides the coded message, and the challenge is to decipher it and infer what is being represented.

ما روش‌های مختلفی را دیده‌ایم که در آن دانشمندان با دستکاری ورودی و اندازه‌گیری پاسخ، تخصص را در قشر بینایی کشف کرده‌اند. این مشاهدات محققین را به درک این نکته سوق داده است که حداقل در اصل باید بتوان سیستم را در جهت مخالف تجزیه و تحلیل کرد (شکل ۶.۲۳). یعنی، ما باید بتوانیم به فعالیت مغز یک فرد نگاه کنیم و آنچه را که فرد در حال حاضر می‌بیند (یا اخیراً دیده است، با فرض اینکه اندازه‌گیری‌های ما به تأخیر افتاده است) را استنباط کنیم – نوعی خواندن ذهن. این ایده به عنوان رمزگشایی شناخته می‌شود: فعالیت مغز پیام رمزگذاری شده را ارائه می‌دهد و چالش رمزگشایی آن و استنباط چیزی است که نشان داده می‌شود.

A consideration of the computational challenges of decoding raises two key issues. One is that our ability to decode mental states is limited by our models of how the brain encodes information-that is, how information is represented in different cells or regions of the brain. Developing good hypotheses about the types of information represented in different cortical areas will help us make inferences when we attempt to build a brain decoder. To take an extreme example, if we didn’t know that the occipital lobe was responsive to visual input, it would be very hard to look at the activity in the occipital lobe and make inferences about what the person was currently doing. Similarly, having a good model of what different regions represent-for example, that a high level of activity in V5 is correlated with motion perception- can be a powerful constraint on the predictions we make of what the person is seeing.

در نظر گرفتن چالش‌های محاسباتی رمزگشایی دو موضوع کلیدی را مطرح می‌کند. یکی این است که توانایی ما برای رمزگشایی حالات ذهنی توسط مدل‌های ما در مورد نحوه رمزگذاری اطلاعات توسط مغز محدود می‌شود – یعنی نحوه نمایش اطلاعات در سلول‌ها یا مناطق مختلف مغز. ایجاد فرضیه‌های خوب در مورد انواع اطلاعات ارائه شده در نواحی مختلف قشر مغز به ما کمک می‌کند تا زمانی که سعی می‌کنیم یک رمزگشای مغزی بسازیم استنتاج کنیم. برای مثال افراطی، اگر نمی‌دانستیم که لوب اکسیپیتال به ورودی بصری پاسخ می‌دهد، نگاه کردن به فعالیت در لوب پس سری و استنباط در مورد کاری که فرد در حال حاضر انجام می‌دهد بسیار سخت خواهد بود. به طور مشابه، داشتن یک مدل خوب از آنچه مناطق مختلف نشان می‌دهند – به عنوان مثال، اینکه سطح بالای فعالیت در V5 با درک حرکت مرتبط است – می‌تواند یک محدودیت قوی برای پیش‌بینی‌هایی باشد که ما از آنچه فرد می‌بیند انجام می‌دهیم.

شکل 6.22 لوب فرونتال به تشخیص اشیا کمک می‌کند

FIGURE 6.22 The frontal lobe aids in object recognition. (a) The estimated cortical activation at different latencies from stimulus onset. Differential activation (recognized versus not recognized) peaked in the left orbitofrontal cortex (OFC) 130 ms from stimulus onset, 50 ms before it peaked in recognition-related regions in the temporal cortex. Yellow indicates the greatest activity. (b) MEG traces, showing the responses to objects. Current and statistical values on the y-axis are presented in absolute, unsigned units. LH = left hemisphere; RH = right hemisphere.

شکل ۶.۲۲ لوب فرونتال به تشخیص اشیا کمک می‌کند. (الف) تخمین زده شده فعال شدن قشر مغز در زمان‌های مختلف از شروع محرک. فعال سازی افتراقی (تشخیص داده شده در مقابل شناسایی نشده) در قشر اوربیتو فرونتال چپ (OFC) 130 میلی ثانیه از شروع محرک به اوج خود رسید، ۵۰ میلی ثانیه قبل از اینکه در مناطق مربوط به تشخیص در قشر تمپورال به اوج خود برسد. زرد نشان دهنده بیشترین فعالیت است. (ب) آثار MEG، نشان دهنده پاسخ به اشیاء. مقادیر جاری و آماری روی محور y به صورت واحدهای مطلق و بدون علامت ارائه شده است. LH = نیمکره چپ؛ RH = نیمکره راست.

The second issue is technical: Our ability to decode will be limited by the resolution of our measurement system. With EEG, we have excellent temporal resolution but poor spatial resolution, both because electrical signals disperse and because we have a limited number of sensors. Spatial resolution is better with fMRI, but here temporal resolution is quite crude. Mind reading is not all that useful if the person has to maintain the same thought for, say, 10 or 20 seconds before we get a good read on her thoughts. Perception is a rapid, fluid process. A good mind-reading system should be able to operate at similar speeds.

موضوع دوم فنی است: توانایی ما برای رمزگشایی با وضوح سیستم اندازه گیری ما محدود خواهد شد. با EEG، وضوح زمانی عالی اما وضوح فضایی ضعیفی داریم، هم به این دلیل که سیگنال‌های الکتریکی پراکنده می‌شوند و هم به دلیل اینکه تعداد محدودی سنسور داریم. وضوح فضایی با fMRI بهتر است، اما در اینجا وضوح زمانی کاملاً خام است. اگر فرد مجبور باشد مثلاً ۱۰ یا ۲۰ ثانیه قبل از اینکه افکار او را خوب مطالعه کنیم، ذهن خوانی چندان مفید نیست. ادراک فرآیندی سریع و روان است. یک سیستم ذهن خوانی خوب باید بتواند با سرعت‌های مشابه کار کند.

شکل 6.23 رمزگذاری و رمزگشایی فعالیت عصبی

FIGURE 6.23 Encoding and decoding neural activity.
Encoding refers to the problem of how stimulus features are represented in neural activity. The image is processed by the sensory system, and the scientist wants to predict the resulting BOLD activity. Decoding (or mind reading) refers to the problem of predicting the stimulus that is being viewed when a particular brain state is observed. In fMRI decoding, the BOLD activity is used to predict the stimulus being observed by the participant. Successful encoding and decoding require having an accurate hypothesis of how information is represented in the brain (feature space).

شکل ۶.۲۳ رمزگذاری و رمزگشایی فعالیت عصبی.
رمزگذاری به مسئله چگونگی نمایش ویژگی‌های محرک در فعالیت عصبی اشاره دارد. تصویر توسط سیستم حسی پردازش می‌شود و دانشمند می‌خواهد فعالیت BOLD حاصل را پیش بینی کند. رمزگشایی (یا ذهن خوانی) به مشکل پیش بینی محرکی اشاره دارد که در هنگام مشاهده یک حالت خاص مغز مشاهده می‌شود. در رمزگشایی fMRI، فعالیت BOLD برای پیش‌بینی محرک مشاهده شده توسط شرکت‌کننده استفاده می‌شود. رمزگذاری و رمزگشایی موفق مستلزم داشتن یک فرضیه دقیق از نحوه نمایش اطلاعات در مغز (فضای ویژگی) است.

How do we build a complex encoding model that operates at the level of the voxel or EEG electrode? One approach is to start with an educated guess. For example, in the visual system we could start by characterizing voxels in early visual processing areas that have tuning properties similar to what is seen with individual neurons—things like edges, orientation, and size. Keep in mind that each voxel contains hundreds of thousands, if not millions, of neurons, and that the neurons within one voxel will have different tuning profiles (e.g., for line orientation, some will be tuned for horizontal, vertical, or some other angle). Fortunately, having the same tuning profiles isn’t essential. The essential thing is that voxels show detectable differences in their aggregate responses along these dimensions. That is, one voxel might contain more neurons that are tuned to horizontal lines, while another voxel has more neurons tuned to vertical lines.

چگونه یک مدل رمزگذاری پیچیده بسازیم که در سطح الکترود وکسل یا EEG عمل کند؟ یک رویکرد این است که با یک حدس تحصیلی شروع کنید. به عنوان مثال، در سیستم بینایی می‌توانیم با مشخص کردن وکسل‌ها در نواحی پردازش بصری اولیه که دارای ویژگی‌های تنظیمی‌مشابه آنچه در نورون‌های منفرد دیده می‌شود، شروع کنیم – چیزهایی مانند لبه‌ها، جهت‌گیری و اندازه. به خاطر داشته باشید که هر وکسل حاوی صدها هزار، اگر نگوییم میلیون‌ها، نورون است، و نورون‌های درون یک وکسل پروفایل‌های تنظیم متفاوتی خواهند داشت (به عنوان مثال، برای جهت‌گیری خط، برخی برای افقی، عمودی یا زاویه‌ای دیگر تنظیم می‌شوند). خوشبختانه داشتن پروفایل‌های تنظیم یکسان ضروری نیست. نکته اساسی این است که وکسل‌ها تفاوت‌های قابل تشخیصی را در پاسخ‌های جمعی خود در طول این ابعاد نشان می‌دهند. به این معنا که یک وکسل ممکن است حاوی تعداد بیشتری نورون باشد که روی خطوط افقی تنظیم شده اند، در حالی که وکسل دیگر نورون‌های بیشتری دارد که روی خطوط عمودی تنظیم شده اند.

Jack Gallant and his colleagues at UC Berkeley set out to build an encoding model based on these ideas (Kay et al., 2008). Recognizing the challenge of characterizing individual voxels, they opted against the standard experimental procedure of testing 15 to 20 naive participants for an hour each. Instead, they had two highly motivated people (ie., two of the authors of the paper) lie in the MRI scanner for many hours, looking repeatedly at a set of 1,750 natural images. To further improve the spatial resolution, the BOLD response was recorded only in areas V1, V2, and V3. From this large data set, the researchers constructed the “receptive field” of each voxel (Figure 6.24).

جک گالانت و همکارانش در دانشگاه کالیفرنیا برکلی تصمیم گرفتند تا یک مدل رمزگذاری بر اساس این ایده‌ها بسازند (کی و همکاران، ۲۰۰۸). آنها با درک چالش مشخص کردن وکسل‌های فردی، روش آزمایشی استاندارد آزمایش ۱۵ تا ۲۰ شرکت کننده ساده لوح را برای هر یک ساعت انتخاب کردند. در عوض، آن‌ها دو نفر با انگیزه بالا (یعنی دو نفر از نویسندگان مقاله) داشتند که ساعت‌های زیادی در اسکنر MRI دراز کشیدند و به طور مکرر به مجموعه‌ای از ۱۷۵۰ تصویر طبیعی نگاه کردند. برای بهبود بیشتر وضوح فضایی، پاسخ BOLD فقط در مناطق V1، V2 و V3 ثبت شد. از این مجموعه داده بزرگ، محققان “میدان پذیرنده” هر وکسل را ساختند (شکل ۶.۲۴).

They were then ready for the critical test. The participants were shown a set of 120 new images-images that had not been used to construct the encoding model. The BOLD response in each voxel was measured for each of the 120 images. From these hemodynamic signals, the decoder was asked to reconstruct the image. To test the accuracy of the decoded prediction, the researchers compared the predicted image to the actual image. They also quantified the results by determining the best match between the predicted image and the full set of 120 novel images.

آنها سپس برای آزمون حساس آماده شدند. به شرکت کنندگان مجموعه ای از ۱۲۰ تصویر-تصویر جدید نشان داده شد که برای ساخت مدل رمزگذاری استفاده نشده بود. پاسخ BOLD در هر وکسل برای هر یک از ۱۲۰ تصویر اندازه‌گیری شد. از این سیگنال‌های همودینامیک، از رمزگشا خواسته شد تا تصویر را بازسازی کند. برای آزمایش دقت پیش‌بینی رمزگشایی شده، محققان تصویر پیش‌بینی‌شده را با تصویر واقعی مقایسه کردند. آنها همچنین نتایج را با تعیین بهترین تطابق بین تصویر پیش‌بینی‌شده و مجموعه کامل ۱۲۰ تصویر جدید، کمی‌کردند.

 

FIGURE 6.24 Using an encoding model to decode brain activity to natural images.
(a) Receptive-field encoding model of voxels in human V1. After the BOLD response to thousands of images is recorded, the receptive field of each voxel in V1 can be characterized by three dimensions: location, orientation, and size. Note that each voxel reflects the activity of millions of neurons, but over the population, there remains some tuning for these dimensions. The heat map on the right side shows the relative response strength for one voxel to stimuli of different sizes (or, technically, spatial frequencies) and orientations. The resulting tuning functions are shown below the heat map. This process is repeated for each voxel to create the full encoding model. (b) Mind reading by decoding fMRI activity to visual images. (1) An image is presented to the participant, and the BOLD response is measured at each voxel. (2) The predicted BOLD response across the set of voxels is calculated for each image in the set. (3) The observed BOLD response from Step 1 is compared to all of the predicted BOLD responses, and the image with the best match is identified. If the match involves the same stimulus as the one shown, then the encoder is successful on that trial (as shown here).

شکل ۶.۲۴ استفاده از یک مدل رمزگذاری برای رمزگشایی فعالیت مغز به تصاویر طبیعی.
(الف) مدل رمزگذاری میدان گیرنده وکسل در V1 انسانی. پس از ثبت پاسخ BOLD به هزاران تصویر، میدان دریافتی هر وکسل در V1 را می‌توان با سه بعد مشخص کرد: مکان، جهت و اندازه. توجه داشته باشید که هر وکسل فعالیت میلیون‌ها نورون را منعکس می‌کند، اما در کل جمعیت، مقداری تنظیم برای این ابعاد وجود دارد. نقشه حرارتی در سمت راست، قدرت پاسخ نسبی یک وکسل به محرک‌هایی با اندازه‌های مختلف (یا از نظر فنی، فرکانس‌های فضایی) و جهت‌گیری را نشان می‌دهد. عملکردهای تنظیم به دست آمده در زیر نقشه حرارتی نشان داده شده است. این فرآیند برای هر وکسل برای ایجاد مدل رمزگذاری کامل تکرار می‌شود. (ب) ذهن خوانی با رمزگشایی فعالیت fMRI به تصاویر بصری. (۱) یک تصویر به شرکت کننده ارائه می‌شود و پاسخ BOLD در هر وکسل اندازه گیری می‌شود. (۲) پاسخ BOLD پیش بینی شده در مجموعه وکسل‌ها برای هر تصویر در مجموعه محاسبه می‌شود. (۳) پاسخ BOLD مشاهده شده از مرحله ۱ با تمام پاسخ‌های BOLD پیش بینی شده مقایسه می‌شود و تصویری که بهترین تطابق را دارد شناسایی می‌شود. اگر تطابق شامل همان محرکی باشد که نشان داده شده است، رمزگذار در آن آزمایش موفق است (همانطور که در اینجا نشان داده شده است).

شکل 6.25 دقت رمزگشای مغز

FIGURE 6.25 Accuracy of the brain decoder.
Rather than just choosing the best match, the correlation coefficient can be calculated between the measured BOLD response for each image and the predicted BOLD response. For the 120 images, the best predictors almost always matched the actual stimulus, as indicated by the bright colors along the major diagonal.

شکل ۶.۲۵ دقت رمزگشای مغز.
به جای انتخاب بهترین تطابق، ضریب همبستگی را می‌توان بین پاسخ BOLD اندازه گیری شده برای هر تصویر و پاسخ BOLD پیش بینی شده محاسبه کرد. برای ۱۲۰ تصویر، بهترین پیش‌بینی‌کننده‌ها تقریباً همیشه با محرک واقعی مطابقت داشتند، همانطور که با رنگ‌های روشن در امتداد قطر اصلی نشان داده می‌شود.

The results were stunning (Figure 6.25). For one of the participants, the decoding model was accurate in picking the exact match for 92% of the stimuli. For the other, the decoder was accurate for 72% of the stimuli. If the decoder were acting randomly, an exact match would be expected for only 8% of the stimuli. As the Gallant research team likes to say, the experiment was similar to a magician performing a card trick: “Pick a card (or picture) from the deck, show me the BOLD response to that picture, and I’ll tell you what picture you are looking at.” No sleight of hand involved here-just good clean fMRI data.

نتایج خیره کننده بود (شکل ۶.۲۵). برای یکی از شرکت کنندگان، مدل رمزگشایی در انتخاب تطابق دقیق برای ۹۲٪ از محرک‌ها دقیق بود. برای دیگری، رمزگشا برای ۷۲ درصد از محرک‌ها دقیق بود. اگر رمزگشا به صورت تصادفی عمل می‌کرد، تنها برای ۸ درصد از محرک‌ها یک تطابق دقیق انتظار می‌رفت. همانطور که تیم تحقیقاتی گالانت دوست دارد بگوید، آزمایش شبیه به یک شعبده باز بود که یک ترفند کارت را انجام می‌داد: “یک کارت (یا تصویر) را از روی عرشه انتخاب کنید، پاسخ جسارت به آن تصویر را به من نشان دهید، و من به شما می‌گویم که به چه تصویری نگاه می‌کنید.” در اینجا هیچ سهل انگاری وجود ندارد – فقط داده‌های fMRI تمیز خوب.

As impressive as this preliminary study might be, we should remain skeptical that it constitutes real mind reading. The stimulation conditions were still highly artificial, owing to the successive presentation of a set of static images. Moreover, the encoding model was quite limited, restricted to representations of relatively simple visual features. An alternative coding scheme should build on our knowledge of how information is represented in higher-order visual areas, areas that are sensitive to more complex properties, such as places and faces. The encoding model here could be based on more than the physical properties of a stimulus. It could also incorporate semantic properties, such as “Does the stimulus contain a fruit?” or “Is a person present?”

هر چقدر هم که این مطالعه مقدماتی تأثیرگذار باشد، باید شک داشته باشیم که این مطالعه ذهنی واقعی را تشکیل می‌دهد. شرایط تحریک به دلیل ارائه متوالی مجموعه ای از تصاویر استاتیک هنوز بسیار مصنوعی بود. علاوه بر این، مدل رمزگذاری کاملاً محدود بود و محدود به نمایش ویژگی‌های بصری نسبتاً ساده بود. یک طرح کدگذاری جایگزین باید بر دانش ما از نحوه نمایش اطلاعات در مناطق بصری درجه بالاتر، مناطقی که به ویژگی‌های پیچیده تر، مانند مکان‌ها و چهره‌ها حساس هستند، بنا شود. مدل رمزگذاری در اینجا می‌تواند بر اساس بیشتر از ویژگی‌های فیزیکی یک محرک باشد. همچنین می‌تواند دارای ویژگی‌های معنایی باشد، مانند “آیا محرک حاوی میوه است؟” یا “آیا شخصی حضور دارد؟”

To build a more comprehensive model, Gallant’s lab combined two representational schemes. For early visual areas like V1, they used a model based on the receptive- field properties (as in Figure 6.24a). For higher visual areas, each voxel was modeled in terms of semantic properties whereby the BOLD response was based on the presence or absence of different features (Figure 6.26). In this way, the researchers sought to develop a general model that could be tested with an infinite set of stimuli, akin to the task that our visual system faces.

برای ساخت یک مدل جامع تر، آزمایشگاه گالانت دو طرح بازنمایی را ترکیب کرد. برای نواحی بصری اولیه مانند V1، آنها از مدلی بر اساس ویژگی‌های میدان دریافتی (مانند شکل ۶.24a) استفاده کردند. برای مناطق بصری بالاتر، هر وکسل از نظر ویژگی‌های معنایی مدل‌سازی شد که به موجب آن پاسخ BOLD بر اساس وجود یا عدم وجود ویژگی‌های مختلف بود (شکل ۶.۲۶). به این ترتیب، محققان به دنبال ایجاد یک مدل کلی بودند که می‌توان آن را با مجموعه‌ای از محرک‌های بی‌نهایت آزمایش کرد، شبیه به وظیفه‌ای که سیستم بینایی ما با آن روبروست.

To develop the model, the stimuli were drawn from 6 million natural images, randomly selected from the Internet. This hybrid decoder was accurate in providing appropriate matches (Figure 6.27). It also proved informative in revealing the limitations of models that use only physical properties or only semantic properties (Huth et al., 2016). For example, when the physical model is used exclusively, it does well with information from the early visual areas but poorly with information from the higher visual areas. On the other hand, when the semantic model is used alone, it does well with the higher-order information but not as well with information from the early visual areas. When the two models are combined, the reconstructions (Figure 6.27b), although not completely accurate, reveal the essence of the image and are more accurate than either model alone.

برای توسعه این مدل، محرک‌ها از ۶ میلیون تصویر طبیعی که به طور تصادفی از اینترنت انتخاب شده بودند، استخراج شد. این رمزگشای هیبریدی در ارائه تطابق مناسب دقیق بود (شکل ۶.۲۷). همچنین در آشکار کردن محدودیت‌های مدل‌هایی که فقط از ویژگی‌های فیزیکی یا فقط ویژگی‌های معنایی استفاده می‌کنند، آموزنده بود (Huth et al., 2016). به عنوان مثال، زمانی که مدل فیزیکی به طور انحصاری استفاده می‌شود، با اطلاعات مربوط به نواحی بصری اولیه به خوبی عمل می‌کند، اما با اطلاعات مناطق بصری بالاتر عملکرد ضعیفی دارد. از سوی دیگر، زمانی که مدل معنایی به تنهایی استفاده می‌شود، با اطلاعات مرتبه بالاتر خوب عمل می‌کند، اما با اطلاعات مناطق بصری اولیه به خوبی عمل نمی‌کند. هنگامی‌که این دو مدل با هم ترکیب می‌شوند، بازسازی‌ها (شکل ۶.27b)، اگرچه کاملاً دقیق نیستند، ماهیت تصویر را آشکار می‌کنند و از هر مدل به تنهایی دقیق تر هستند.

The next step in this research was to add action to the encoding model. After all, the world and our visual experience are full of things that move. Because action is fast and fMRI is slow, the researchers had to give their encoding model the feature of motion, which is central to many regions of the brain. The test participants returned to the MRI scanner, this time to watch movie clips (Nishimoto et al., 2011).

گام بعدی در این تحقیق افزودن اقدام به مدل رمزگذاری بود. بالاخره دنیا و تجربه بصری ما پر از چیزهایی است که حرکت می‌کنند. از آنجایی که عمل سریع است و fMRI کند است، محققان مجبور شدند به مدل رمزگذاری خود ویژگی حرکت را بدهند، که در بسیاری از مناطق مغز مرکزی است. شرکت کنندگان در آزمون به اسکنر MRI بازگشتند، این بار برای تماشای کلیپ‌های فیلم (نیشیموتو و همکاران، ۲۰۱۱).

Reams of data were collected and used to build an elaborate encoding model. Then it was time for the decoding test. The participants watched new movies, and the decoder was used to generate continuous predictions. You can see the results at http://www.youtube.com /user/gallantlabucb. While it is mind-boggling to see the match between the actual, fast-paced movie and the predicted movie, based solely on the (sluggish) fMRI data, it is also informative to consider the obvious mismatches between the two. These mismatches (feedback!) help guide researchers as they construct the next generation of encoding-decoding models.

مجموعه‌ای از داده‌ها جمع‌آوری شد و برای ساخت یک مدل رمزگذاری دقیق استفاده شد. سپس نوبت به تست رمزگشایی رسید. شرکت‌کنندگان فیلم‌های جدیدی را تماشا کردند و از رمزگشا برای تولید پیش‌بینی‌های مداوم استفاده شد. می‌توانید نتایج را در http://www.youtube.com/user/gallantlabucb ببینید. در حالی که دیدن تطابق بین فیلم واقعی و سریع و فیلم پیش‌بینی‌شده، که صرفاً بر اساس داده‌های fMRI (آهسته) است، گیج‌کننده است، در نظر گرفتن عدم تطابق آشکار بین این دو نیز آموزنده است. این عدم تطابق‌ها (بازخورد!) به هدایت محققان در ساختن نسل بعدی مدل‌های رمزگذاری-رمزگشایی کمک می‌کند.

One of the current goals of decoding research is to ask whether these methods can be used to decipher mental activity in the absence of actual sensory input, the ultimate challenge for mind reading. This would seem possible, given that fMRI activation patterns are similar whether people perceive objects or imagine them, even if the level of activity is much stronger in the former condition (e.g., Reddy et al., 2010). “Similar,” though, is a relatively superficial criterion, observed in terms of similar global patterns of activation. A much more challenging problem is to determine whether activation patterns during imagery have sufficient information to predict specific percepts.

یکی از اهداف فعلی تحقیق رمزگشایی این است که بپرسیم آیا می‌توان از این روش‌ها برای رمزگشایی فعالیت ذهنی در غیاب ورودی حسی واقعی استفاده کرد که چالش نهایی برای خواندن ذهن است. این امر ممکن به نظر می‌رسد، با توجه به اینکه الگوهای فعال سازی fMRI خواه افراد اشیاء را درک کنند یا تصور کنند مشابه هستند، حتی اگر سطح فعالیت در شرایط قبلی بسیار قوی تر باشد (به عنوان مثال، ردی و همکاران، ۲۰۱۰). هر چند “مشابه” یک معیار نسبتا سطحی است که از نظر الگوهای جهانی فعال سازی مشابه مشاهده می‌شود. مشکل بسیار چالش برانگیزتر این است که تعیین کنیم آیا الگوهای فعال سازی در طول تصویرسازی اطلاعات کافی برای پیش بینی ادراکات خاص دارند یا خیر.

شکل 6.26 بازنمایی معنایی دو وکسلشکل 6.26 بازنمایی معنایی دو وکسل قسمت دوم

FIGURE 6.26 Semantic representation of two voxels. Rather than using basic features such as size and orientation, the encoding model for voxels in higher- order visual areas incorporates semantic properties. The colors indicate the contribution of each feature to the BOLD response: Red indicates that the feature produced a greater-than-average BOLD response; blue indicates that the feature produced a less-than-average BOLD response. The size of each circle Indicates the strength of that effect. The parahippocampal voxel (a) is most activated when the scene contains artifacts such as tools and containers; the precuneus voxel (b) is most activated when the scene contains communicative carnivores.

شکل ۶.۲۶ بازنمایی معنایی دو وکسل. به جای استفاده از ویژگی‌های اساسی مانند اندازه و جهت، مدل رمزگذاری برای وکسل‌ها در مناطق بصری درجه بالاتر، ویژگی‌های معنایی را در بر می‌گیرد. رنگ‌ها سهم هر ویژگی را در پاسخ BOLD نشان می‌دهند: قرمز نشان می‌دهد که این ویژگی یک پاسخ BOLD بیشتر از حد متوسط ​​ایجاد می‌کند. آبی نشان می‌دهد که این ویژگی یک پاسخ BOLD کمتر از حد متوسط ​​ایجاد می‌کند. اندازه هر دایره قدرت آن اثر را نشان می‌دهد. وکسل پاراهیپوکامپ (a) زمانی بیشتر فعال می‌شود که صحنه حاوی مصنوعاتی مانند ابزار و ظروف باشد. وکسل precuneus (b) زمانی فعال می‌شود که صحنه شامل گوشتخواران ارتباطی باشد.

شکل 6.27 تصاویر بصری با استفاده از یک مدل کدگذاری ترکیبی

FIGURE 6.27 Visual images using a hybrid encoding model.
(a) Representative natural images (out of a nearly infinite set) that were presented to the model. (b) The reconstructed images, based on a hybrid model of multivoxel responses across multiple visual areas. The model was developed by measurement of the BOLD response to a limited set of stimuli.

شکل ۶.۲۷ تصاویر بصری با استفاده از یک مدل کدگذاری ترکیبی.
(الف) تصاویر طبیعی نماینده (از یک مجموعه تقریبا بی نهایت) که به مدل ارائه شده است. (ب) تصاویر بازسازی شده، بر اساس یک مدل ترکیبی از پاسخ‌های چندوکسلی در چندین ناحیه بصری. این مدل با اندازه گیری پاسخ BOLD به مجموعه محدودی از محرک‌ها توسعه یافت.

In one study of imagery, an encoding model was first created from representations limited to early-visual- area activities, with voxels sensitive to features such as retinotopic location, spatial frequency, and orientation (Naselaris et al., 2015). To generate this model, BOLD responses were obtained while the participants passively viewed 1,536 works of art. The researchers then asked the participants either to view or to imagine one of five paintings. As expected, the model was extremely accurate in identifying, from fMRI data, which of the five images the person was perceiving. But it also performed well above chance in decoding the imagined images. That is, it was possible to predict what the participant was thinking about, even in the absence of any sensory input!

در یک مطالعه از تصاویر، ابتدا یک مدل رمزگذاری از بازنمایی‌های محدود به فعالیت‌های منطقه بصری اولیه، با وکسل‌های حساس به ویژگی‌هایی مانند مکان رتینوتوپیک، فرکانس فضایی و جهت‌گیری ایجاد شد (ناسلاریس و همکاران، ۲۰۱۵). برای تولید این مدل، پاسخ‌های BOLD در حالی که شرکت‌کنندگان به طور منفعلانه ۱۵۳۶ اثر هنری را مشاهده کردند، به دست آمد. سپس محققان از شرکت کنندگان خواستند یکی از پنج نقاشی را ببینند یا تصور کنند. همانطور که انتظار می‌رفت، این مدل در تشخیص داده‌های fMRI، که از پنج تصویری که شخص دریافت می‌کرد، بسیار دقیق بود. اما در رمزگشایی تصاویر تصور شده نیز بسیار بالاتر از شانس عمل کرد. یعنی می‌توان پیش‌بینی کرد که شرکت‌کننده به چه چیزی فکر می‌کند، حتی در غیاب هر ورودی حسی!

This type of work opens up possibilities to tackle one of the great mysteries of the mind: the nature of dreams. As we’ve all experienced, it is very hard to describe the content of dreams, especially since we have to undergo a radical change in the state of consciousness (i.e., wake up!) to provide these reports. But a good decoder would avoid this problem.

این نوع کار فرصت‌هایی را برای مقابله با یکی از اسرار بزرگ ذهن باز می‌کند: ماهیت رویاها. همانطور که همه ما تجربه کرده‌ایم، توصیف محتوای رویاها بسیار سخت است، به خصوص که برای ارائه این گزارش‌ها باید دستخوش تغییری اساسی در وضعیت هوشیاری (یعنی بیدار شدن!) شویم. اما یک رسیور خوب از این مشکل جلوگیری می‌کند.

As a first step in this direction, Tomoyasu Horikawa and colleagues (2013) built a decoder based on their participants’ BOLD responses to images viewed when awake. Then, while the participants napped, simultaneous EEG and fMRI data were collected. The EEG data were used to indicate when the participants were in early-onset sleep Stage 1 or 2. At these points in time, the participants were awakened and asked to report their current dream (Figure 6.28a). Dream reports from sleep-onset awakenings share the features of dream frequency, length, and content with dream reports from REM sleep awakenings (Oudiette et al., 2012). Reports were taken during the sleep-onset period because it enabled the researchers to gather many observations during repeated awakenings. The dream reports were then compared to predictions generated from the BOLD activity just before the person was awakened. Focusing on a limited set of options (objects, scenes, people), the decoding model was successful in identifying the contents of the dreams (Figure 6.28b).

به عنوان اولین گام در این مسیر، تومویاسو هوریکاوا و همکارانش (۲۰۱۳) یک رمزگشا را بر اساس پاسخ‌های BOLD شرکت کنندگان خود به تصاویر مشاهده شده در هنگام بیداری ساختند. سپس، در حالی که شرکت کنندگان چرت می‌زدند، داده‌های EEG و fMRI همزمان جمع آوری شد. از داده‌های EEG برای نشان دادن زمانی که شرکت‌کنندگان در مرحله ۱ یا ۲ در خواب اولیه بودند استفاده شد. در این زمان‌ها، شرکت‌کنندگان از خواب بیدار شدند و از آنها خواسته شد تا خواب فعلی خود را گزارش کنند (شکل ۶.28a). گزارش‌های رویایی از بیداری‌های شروع خواب، ویژگی‌های فراوانی، طول و محتوای رویا را با گزارش‌های رویایی از بیداری‌های خواب REM مشترک است (Oudiette و همکاران، ۲۰۱۲). گزارش‌ها در طول دوره شروع خواب گرفته شد، زیرا محققان را قادر می‌سازد تا مشاهدات زیادی را در طول بیداری‌های مکرر جمع‌آوری کنند. سپس گزارش‌های رویا با پیش‌بینی‌های ایجاد شده از فعالیت BOLD درست قبل از بیدار شدن فرد مقایسه شد. با تمرکز بر مجموعه محدودی از گزینه‌ها (اشیاء، صحنه‌ها، افراد)، مدل رمزگشایی در شناسایی محتویات رویاها موفق بود (شکل ۶.28b).

While mind reading raises some thorny ethical problems (see Box 6.2), it also has pressing clinical applications. For example, mind reading has the potential to provide a new method of communication for people who have severe neurological conditions and are unable to speak, as we will explore in Chapter 14. And we will see in Chapter 8 that for individuals who are paralyzed or have lost the use of a limb, decoders can be used to control machines via so-called brain-machine interfaces.

در حالی که ذهن خوانی برخی از مشکلات اخلاقی خاردار را ایجاد می‌کند (به کادر ۶.۲ مراجعه کنید)، همچنین کاربردهای بالینی فوری دارد. به عنوان مثال، ذهن خوانی این پتانسیل را دارد که برای افرادی که دارای بیماری‌های عصبی شدید و قادر به صحبت نیستند، روش جدیدی برای ارتباط فراهم کند، همانطور که در فصل ۱۴ بررسی خواهیم کرد. و در فصل ۸ خواهیم دید که برای افرادی که فلج هستند یا استفاده از اندام خود را از دست داده اند، می‌توان از رمزگشاها برای کنترل ماشین‌ها از طریق رابط‌های به اصطلاح مغز و ماشین استفاده کرد.

شکل 6.28 رمزگشایی رویاهاشکل 6.28 رمزگشایی رویاها قسمت دوم

FIGURE 6.28 Decoding dreams.
(a) Experimental setup. As participants slept, fMRI and EEG data were acquired. Participants were awakened during sleep Stage 1 or 2 (red dashed line), and they immediately reported the visual activity they had experienced just before awakening. The fMRI data acquired immediately before awakening were used as the input for main decoding analyses. Words that described visual objects or scenes (red letters) were extracted. Then, machine-learning decoders trained on fMRI responses to natural images were used to predict the visual contents of the dream. (b) Accuracy in decoding the content of dream reports, relative to the moment of awakening, with the gray region highlighting the last 9 seconds of sleep. Higher visual cortex (HVC) includes lateral occipital cortex, as well as the fusiform face area and parahippocampal place area (two regions we will discuss in the next section); lower visual cortex (LVC) includes V1, V2, and V3. “All” indicates the decoding performance on a test set including all of the data, whereas the “Selected” set is limited to the items that were reported most frequently.

شکل ۶.۲۸ رمزگشایی رویاها.
(الف) راه اندازی آزمایشی. همانطور که شرکت کنندگان در خواب بودند، داده‌های fMRI و EEG به دست آمد. شرکت کنندگان در مرحله ۱ یا ۲ خواب (خط چین قرمز) بیدار شدند و بلافاصله فعالیت بینایی را که درست قبل از بیدار شدن تجربه کرده بودند گزارش کردند. داده‌های fMRI به‌دست‌آمده بلافاصله قبل از بیداری به عنوان ورودی برای تحلیل‌های رمزگشایی اصلی استفاده شد. کلماتی که اشیاء یا صحنه‌های بصری را توصیف می‌کردند (حروف قرمز) استخراج شدند. سپس، رمزگشاهای یادگیری ماشینی آموزش دیده بر روی پاسخ‌های fMRI به تصاویر طبیعی برای پیش بینی محتوای بصری رویا استفاده شدند. (ب) دقت در رمزگشایی محتوای گزارش‌های رویا، نسبت به لحظه بیدار شدن، با منطقه خاکستری که ۹ ثانیه آخر خواب را برجسته می‌کند. قشر بینایی بالاتر (HVC) شامل قشر اکسیپیتال جانبی، و همچنین ناحیه صورت دوکی شکل و ناحیه محل پاراهیپوکامپ (دو ناحیه ای است که در بخش بعدی به آن خواهیم پرداخت). قشر بینایی پایین (LVC) شامل V1، V2 و V3 است. “همه” عملکرد رمزگشایی را در یک مجموعه آزمایشی شامل تمام داده‌ها نشان می‌دهد، در حالی که مجموعه “انتخاب شده” محدود به مواردی است که اغلب گزارش شده اند.

BOX 6.2 \ HOT SCIENCE
A Wild and Crazy Future for Mind Reading

کادر ۶.۲ \ علم داغ

آینده‌ای وحشی و دیوانه‌وار برای خواندن ذهن

Mind-reading methods provide a powerful tool for testing theories of perception, where researchers ask whether signals such as the BOLD response can be used to predict what a person is looking at or even imagining. Ongoing research has also demonstrated the extent to which neuroimaging methods can be used to develop functional maps of much more abstract domains of thought. Networks that are engaged when people are making social judgments, deliberating moral dilemmas, or having religious experiences have been identified. Other work has sought to characterize brain activity in atypical populations, such as the response of psychopaths to movies that depict violent behavior. Work in these areas has led to the development of brain maps of moral reasoning, judgment, deception, and emotions.

روش‌های ذهن‌خوانی ابزار قدرتمندی برای آزمایش تئوری‌های ادراک فراهم می‌کنند، جایی که محققان می‌پرسند آیا می‌توان از سیگنال‌هایی مانند پاسخ BOLD برای پیش‌بینی آنچه که شخص به آن نگاه می‌کند یا حتی تصور می‌کند استفاده کرد یا خیر. تحقیقات در حال انجام همچنین نشان داده است که تا چه حد می‌توان از روش‌های تصویربرداری عصبی برای توسعه نقشه‌های عملکردی حوزه‌های بسیار انتزاعی فکری استفاده کرد. شبکه‌هایی که هنگام قضاوت‌های اجتماعی، بررسی معضلات اخلاقی یا داشتن تجربیات مذهبی درگیر هستند، شناسایی شده‌اند. کار دیگری به دنبال مشخص کردن فعالیت مغز در جمعیت‌های غیر معمول است، مانند واکنش روان‌پرستان به فیلم‌هایی که رفتار خشونت‌آمیز را به تصویر می‌کشند. کار در این زمینه‌ها منجر به ایجاد نقشه‌های مغزی از استدلال اخلاقی، قضاوت، فریب و احساسات شده است.

We can envision that, with sophisticated models, the pattern of activity across these maps might reveal an individual’s preferences, attitudes, or thoughts. Mind reading with these goals sounds like the plot of a bad movie-and certainly these ideas, if realized, are brimming with ethical issues. At the core of these concerns is the scenario under which a person’s thoughts could be accurately determined from examination of the activity in that person’s brain in response to various stimuli.

می‌توانیم تصور کنیم که با مدل‌های پیچیده، الگوی فعالیت در این نقشه‌ها ممکن است ترجیحات، نگرش‌ها یا افکار یک فرد را نشان دهد. ذهن خوانی با این اهداف شبیه طرح یک فیلم بد به نظر می‌رسد – و مطمئناً این ایده‌ها، در صورت تحقق، مملو از مسائل اخلاقی هستند. هسته اصلی این نگرانی‌ها سناریویی است که تحت آن می‌توان افکار یک فرد را از بررسی فعالیت مغز آن فرد در پاسخ به محرک‌های مختلف به طور دقیق تعیین کرد.

What standard would be required to determine that the mind-reading signals were reliable (Illes & Racine, 2005)? Surely we would not want to apply the p = .05 convention that is used in many scientific studies; for example, if we were to use mind-reading methods to determine psychopathic tendencies, we would not accept a misdiagnosis in one out of 20 cases. In addition, we would have to keep in mind that mind reading is inherently correlational.

چه استانداردی برای تعیین قابل اعتماد بودن سیگنال‌های ذهن خوان مورد نیاز است (ایلز و راسین، ۲۰۰۵)؟ مطمئناً ما نمی‌خواهیم قرارداد p = 0.05 را که در بسیاری از مطالعات علمی‌استفاده می‌شود، اعمال کنیم. برای مثال، اگر بخواهیم از روش‌های ذهن‌خوانی برای تعیین گرایش‌های روان‌پریشی استفاده کنیم، از هر ۲۰ مورد، یک تشخیص اشتباه را نمی‌پذیریم. علاوه بر این، باید در نظر داشته باشیم که ذهن خوانی ذاتاً همبستگی است.

Assuming, however, that such determinations could be made and would be accurate, the issue remains that people believe their thoughts are private and confidential. So, what do we need to consider if it becomes possible to decode people’s thoughts without their consent or against their will? Are there circumstances in which private thoughts should be made public? For example, should a person’s thoughts be admissible in court, just as DNA evidence now can be? Should a jury have access to the thoughts of child molesters, murder defendants, or terrorists or even witnesses to determine whether they are telling the truth or have a false memory? Should interviewers have access to the thoughts of applicants for jobs that involve children or for police or other security work? And who else should have access to this information?

با این حال، با فرض اینکه چنین تصمیماتی می‌تواند انجام شود و می‌تواند دقیق باشد، مسئله همچنان این است که مردم معتقدند افکار آنها خصوصی و محرمانه است. بنابراین، اگر رمزگشایی از افکار مردم بدون رضایت آنها یا برخلاف میل آنها ممکن شود، چه چیزی را باید در نظر بگیریم؟ آیا شرایطی وجود دارد که در آن افکار خصوصی باید عمومی‌شوند؟ به عنوان مثال، آیا افکار یک فرد باید در دادگاه قابل پذیرش باشد، همانطور که اکنون شواهد DNA می‌تواند باشد؟ آیا هیئت منصفه باید به افکار کودک آزارها، متهمان قتل، یا تروریست‌ها یا حتی شاهدان دسترسی داشته باشد تا تشخیص دهد که آیا آنها حقیقت را می‌گویند یا حافظه نادرستی دارند؟ آیا مصاحبه‌کنندگان باید به افکار متقاضیان مشاغلی که شامل کودکان یا پلیس یا سایر کارهای امنیتی است دسترسی داشته باشند؟ و چه کسی باید به این اطلاعات دسترسی داشته باشد؟

TAKE-HOME MESSAGES

پیام‌های کلیدی

▪️ People perceive an object as a unified whole, not as an assemblage of bundles of features such as color, shape, and texture.

▪️ مردم یک شی را به عنوان یک کل واحد درک می‌کنند، نه به عنوان مجموعه ای از دسته ای از ویژگی‌ها مانند رنگ، شکل و بافت.

▪️ The lateral occipital cortex is critical for recognition of an Visual object’s shape.

▪️ قشر اکسیپیتال جانبی برای تشخیص شکل جسم بصری حیاتی است.

▪️ The term grandmother cell has been coined to convey the notion that recognition arises from the activation of neurons that are finely tuned to specific stimuli. Ensemble theories, in contrast, hypothesize that recognition is the result of the collective activation of many neurons.

▪️ اصطلاح سلول مادربزرگ برای انتقال این مفهوم ابداع شده است که تشخیص از فعال شدن نورون‌هایی که به خوبی با محرک‌های خاص تنظیم شده اند، ناشی می‌شود. در مقابل، نظریه‌های گروهی فرض می‌کنند که تشخیص نتیجه فعال‌سازی جمعی بسیاری از نورون‌ها است.

▪️ Recent advances in artificial intelligence have shown how multilayered neural networks with massive connectivity may be ideal for extracting regularities in the environment-a key computation for recognition and categorization.

▪️ پیشرفت‌های اخیر در هوش مصنوعی نشان داده است که چگونه شبکه‌های عصبی چندلایه با اتصال عظیم ممکن است برای استخراج قوانین در محیط ایده آل باشند – محاسبات کلیدی برای شناسایی و طبقه بندی.

▪️ Object recognition, especially of ambiguous stimuli, appears to be enhanced by top-down processes, including information provided from the frontal cortex based on a fast but crude analysis of the visual input.

▪️ به نظر می‌رسد که تشخیص اشیاء، به ویژه محرک‌های مبهم، با فرآیندهای بالا به پایین، از جمله اطلاعات ارائه شده از قشر پیشانی بر اساس تجزیه و تحلیل سریع اما خام ورودی بینایی، افزایش می‌یابد.

▪️ Encoding models are used to predict the physiological response, such as the BOLD response, to a stimulus. Decoding models are used in the reverse manner, predicting the stimulus (or mental state) from a physiological response such as the BOLD activity across a set of voxels.

▪️ مدل‌های رمزگذاری برای پیش بینی پاسخ فیزیولوژیکی، مانند پاسخ BOLD، به یک محرک استفاده می‌شود. مدل‌های رمزگشایی به صورت معکوس استفاده می‌شوند و محرک (یا وضعیت ذهنی) را از یک پاسخ فیزیولوژیکی مانند فعالیت BOLD در مجموعه‌ای از وکسل‌ها پیش‌بینی می‌کنند.





کپی بخش یا کل این مطلب «آینده‌‌نگاران مغز» تنها با کسب مجوز مکتوب امکان‌پذیر است. 

» کتاب علوم اعصاب شناختی گازانیگا 

» کتاب علوم اعصاب شناختی گازانیگا 
»» فصل قبل: فصل پنجم: احساس و ادراک 
»» فصل بعد: فصل هفتم: توجه

» کتاب علوم اعصاب شناختی گازانیگا 
»» » تمامی کتاب

امتیاز نوشته:

میانگین امتیازها: ۰ / ۵. تعداد آراء: ۰

اولین نفری باشید که به این پست امتیاز می‌دهید.

داریوش طاهری

نه اولین، اما در تلاش برای بهترین بودن؛ نه پیشرو در آغاز، اما ممتاز در پایان. ——— ما شاید آغازگر راه نباشیم، اما با ایمان به شایستگی و تعالی، قدم برمی‌داریم تا در قله‌ی ممتاز بودن بایستیم.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا