علوم اعصاب شناختی؛ تشخیص ابژه؛ ذهن خوانی: رمزگشایی و رمزگذاری سیگنالهای مغزی

دعای مطالعه [ نمایش ]
بِسْمِ الله الرَّحْمنِ الرَّحیمِ
اَللّهُمَّ اَخْرِجْنى مِنْ ظُلُماتِ الْوَهْمِ
خدایا مرا بیرون آور از تاریکىهاى وهم،
وَ اَکْرِمْنى بِنُورِ الْفَهْمِ
و به نور فهم گرامى ام بدار،
اَللّهُمَّ افْتَحْ عَلَیْنا اَبْوابَ رَحْمَتِکَ
خدایا درهاى رحمتت را به روى ما بگشا،
وَانْشُرْ عَلَیْنا خَزائِنَ عُلُومِکَ بِرَحْمَتِکَ یا اَرْحَمَ الرّاحِمینَ
و خزانههاى علومت را بر ما باز کن به امید رحمتت اى مهربانترین مهربانان.
» Cognitive Neuroscience: The Biology of the Mind
»» CHAPTER 6: Object Recognition; part two
۶.۳ Seeing Shapes and Perceiving Objects
۶.۳ دیدن اشکال و ادراک اشیا
Object perception depends primarily on an analysis of the shape of a visual stimulus, though cues such as color, texture, and motion certainly also contribute to normal perception. For example, when people look at the surf breaking on the shore, their acuity is not sufficient to see grains of sand, and the water is essentially amorphous, lacking any definable shape. Yet the textures of the sand’s surface and the water’s edge, and their differences in col- or, enable us to distinguish between the two regions. The water’s motion is important too.
ادراک اشیاء در درجه اول به تجزیه و تحلیل شکل یک محرک بصری بستگی دارد، اگرچه نشانههایی مانند رنگ، بافت و حرکت قطعاً به ادراک عادی کمک میکنند. برای مثال، وقتی مردم به موجسواری در حال شکستن در ساحل نگاه میکنند، دقت آنها برای دیدن دانههای شن کافی نیست و آب اساساً بیشکل است و هیچ شکل قابل تعریفی ندارد. با این حال، بافت سطح شن و لبه آب، و تفاوتهای رنگی آنها، ما را قادر میسازد بین این دو منطقه تمایز قائل شویم. حرکت آب نیز مهم است.
Nevertheless, even if surface features like texture and color are absent or applied inappropriately, recognition is minimally affected: We can readily identify the elephant, apple, and human form in Figure 6.9, even though they are shown as blue and green geometric shapes, striped onyx, and a marble statue, respectively. Here, object recognition is derived from a perceptual ability to match an analysis of shape and form to an object, regardless of color, texture, or motion cues. How is a shape rep- resented internally? What enables us to recognize differences between a triangle and a square, or between a chimp and a person?
با این وجود، حتی اگر ویژگیهای سطحی مانند بافت و رنگ وجود نداشته باشند یا بهطور نامناسب اعمال شوند، تشخیص کمترین تأثیر را میگذارد: ما میتوانیم به آسانی شکل فیل، سیب و انسان را در شکل ۶.۹ شناسایی کنیم، حتی اگر آنها به صورت اشکال هندسی آبی و سبز، عقیق راه راه و مجسمهای مرمری نشان داده شده باشند. در اینجا، تشخیص شی از یک توانایی ادراکی برای تطبیق تجزیه و تحلیل شکل و فرم با یک شی، بدون توجه به رنگ، بافت، یا نشانههای حرکت ناشی میشود. چگونه یک شکل در داخل نمایش داده میشود؟ چه چیزی ما را قادر میسازد تفاوت بین مثلث و مربع یا شامپانزه و شخص را تشخیص دهیم؟
Shape Encoding
رمزگذاری شکل
In the previous chapter we introduced the idea that recognition may involve hierarchical representations in which each successive stage adds complexity. Simple features such as lines can be combined into edges, corners, and intersections, which-as processing continues up the hierarchy-are grouped into parts, and the parts grouped into objects. People recognize a pentagon because it contains five line segments of equal length, joined together to form five corners that define an enclosed region (Figure 6.10). The same five line segments can define other objects, such as a pyramid. With the pyramid, however, there are only four points of intersection, not five, and the lines define a more complicated shape that implies it is three-dimensional. The pentagon and the pyramid might activate similar representations at the lowest levels of the hierarchy, yet the combinations of these features into a shape produce distinct representations at higher levels of the processing hierarchy.
در فصل قبل این ایده را معرفی کردیم که تشخیص ممکن است شامل نمایشهای سلسله مراتبی باشد که در آن هر مرحله متوالی پیچیدگی میافزاید. ویژگیهای سادهای مانند خطوط را میتوان در لبهها، گوشهها و تقاطعها ترکیب کرد، که با ادامه پردازش در سلسله مراتب، به بخشها و قطعات به اشیاء گروهبندی میشوند. مردم یک پنج ضلعی را تشخیص میدهند زیرا شامل پنج بخش خط با طول مساوی است که به هم پیوسته اند تا پنج گوشه را تشکیل دهند که یک ناحیه محصور را مشخص میکند (شکل ۶.۱۰). همان پنج پاره خط میتواند اشیاء دیگری مانند یک هرم را تعریف کند. با این حال، با هرم، تنها چهار نقطه تقاطع وجود دارد، نه پنج، و خطوط شکل پیچیده تری را تعریف میکنند که به معنای سه بعدی بودن آن است. پنج ضلعی و هرم ممکن است نمایشهای مشابهی را در پایین ترین سطوح سلسله مراتب فعال کنند، با این حال ترکیب این ویژگیها در یک شکل، نمایشهای متمایزی را در سطوح بالاتر سلسله مراتب پردازش ایجاد میکند.
One way to investigate how we encode shapes is to identify areas of the brain that are active when we compare contours that form a recognizable shape versus contours that are just squiggles. How do activity patterns in the brain change when a shape is familiar? This question emphasizes the idea that perception involves a connection between sensation and memory (recall our four guiding principles of object recognition).
یکی از راههای بررسی نحوه کدگذاری شکلها، شناسایی مناطقی از مغز است که هنگام مقایسه خطوطی که شکل قابل تشخیصی را تشکیل میدهند در مقابل خطوطی که فقط قیچی هستند، فعال هستند. وقتی شکلی آشناست، الگوهای فعالیت در مغز چگونه تغییر میکند؟ این سوال بر این ایده تاکید میکند که ادراک شامل ارتباط بین حس و حافظه است (چهار اصل راهنمای ما در تشخیص شی را به یاد بیاورید).
FIGURE 6.9 Analyzing shape and form.
Despite the irregularities in how these objects are depicted, most people have little problem recognizing them. We may never have seen blue and green elephants or striped apples, but our object recognition system can still discern the essential features that identify these objects as elephants and apples.
شکل ۶.۹ تجزیه و تحلیل شکل و فرم.
با وجود بینظمیهایی که در نحوه به تصویر کشیدن این اشیا وجود دارد، اکثر مردم مشکل کمیدر تشخیص آنها دارند. شاید هرگز فیلهای آبی و سبز یا سیبهای راه راه را ندیده باشیم، اما سیستم تشخیص اشیاء ما هنوز میتواند ویژگیهای اساسی را که این اشیاء را به عنوان فیل و سیب شناسایی میکند، تشخیص دهد.
FIGURE 6.10
Basic elements and the different objects they can form. The same basic components (five lines) can form different items (e.g., a pentagon or a pyramid), depending on their arrangement. Although the low-level components (a) are the same, the high-level percepts (b) are distinct.
شکل ۶.۱۰
عناصر اساسی و اشیاء مختلفی که میتوانند تشکیل دهند. اجزای اصلی یکسان (پنج خط) بسته به ترتیب آنها میتوانند موارد مختلفی را تشکیل دهند (به عنوان مثال، یک پنج ضلعی یا یک هرم). اگرچه اجزای سطح پایین (الف) یکسان هستند، ادراکات سطح بالا (ب) متمایز هستند.
Researchers explored this question in a PET study designed to isolate the specific mental operations used when people viewed familiar shapes, novel shapes, or stimuli formed by scrambling the shapes to generate random drawings (Kanwisher et al., 1997). All three types of stimuli should engage the early stages of visual perception, or what is called feature extraction (Figure 6.11a). To identify areas involved in object perception, a comparison can be made between responses to novel objects and responses to scrambled stimuli-as well as between responses to familiar objects and responses to scrambled stimuli-under the assumption that scrambled stimuli do not define objects per se. The memory retrieval contribution should be most evident when we are viewing novel or familiar objects.
محققان این سوال را در یک مطالعه PET که برای جداسازی عملیات ذهنی خاص مورد استفاده در زمانی که افراد اشکال آشنا، اشکال بدیع یا محرکهایی را مشاهده میکنند که از درهمکوبی شکلها برای ایجاد نقاشیهای تصادفی تشکیل شدهاند، بررسی کردند (Kanwisher et al., 1997). هر سه نوع محرک باید مراحل اولیه ادراک بصری یا آنچه استخراج ویژگی نامیده میشود را درگیر کنند (شکل ۶.11a). برای شناسایی نواحی درگیر در ادراک اشیاء، میتوان بین پاسخها به اشیاء جدید و پاسخها به محرکهای درهم و همچنین بین پاسخها به اشیاء آشنا و پاسخها به محرکهای درهم مقایسه کرد، با این فرض که محرکهای درهم به خودی خود اشیا را تعریف نمیکنند. سهم بازیابی حافظه زمانی که در حال مشاهده اشیاء بدیع یا آشنا هستیم باید بیشتر مشهود باشد.
Viewing both novel and familiar stimuli led to increases in regional cerebral blood flow bilaterally in lateral occipital cortex (LOC; Figure 6.11b) compared to viewing scrambled drawings without a recognizable shape. Since this study, many others have shown that the LOC is critical for shape and object recognition. Interestingly, no differences were found between the novel and familiar stimuli in the posterior cortical regions. At least within these areas, recognizing that something is familiar may be as taxing as recognizing that something is unfamiliar.
مشاهده محرکهای جدید و آشنا منجر به افزایش جریان خون منطقه ای مغز به صورت دو طرفه در قشر اکسیپیتال جانبی (LOC؛ شکل ۶.11b) در مقایسه با مشاهده نقاشیهای درهم بدون شکل قابل تشخیص شد. از این مطالعه، بسیاری دیگر نشان داده اند که LOC برای تشخیص شکل و اشیا بسیار مهم است. جالب توجه است، هیچ تفاوتی بین محرکهای جدید و آشنا در مناطق قشر خلفی یافت نشد. حداقل در این زمینهها، تشخیص اینکه چیزی آشناست ممکن است به اندازه تشخیص ناآشنا بودن چیزی سخت باشد.
When we view an object such as a dog, whether it’s a real dog, a drawing of a dog, a statue of a dog, or an outline of a dog made of flashing lights, we recognize it as a dog. This insensitivity to the specific visual cues that define an object is known as cue invariance.
وقتی جسمیمانند سگ را مشاهده میکنیم، خواه یک سگ واقعی باشد، نقاشی یک سگ، مجسمه یک سگ، یا طرح کلی سگی که از چراغهای چشمک زن ساخته شده است، آن را به عنوان یک سگ میشناسیم. این عدم حساسیت به نشانههای بصری خاصی که یک شی را تعریف میکنند، به عنوان تغییر ناپذیری نشانه شناخته میشود.
Research has shown that, for the LOC, shape seems to be the most salient property of the stimulus. In one fMRI study, participants viewed stimuli in which shapes were defined either by luminance cues or by motion cues.
تحقیقات نشان داده است که برای LOC، شکل به نظر برجسته ترین ویژگی محرک است. در یک مطالعه fMRI، شرکتکنندگان محرکهایی را مشاهده کردند که در آنها اشکال یا با نشانههای درخشندگی یا با نشانههای حرکتی تعریف میشدند.
FIGURE 6.11 Component analysis of object recognition.
(a) Stimuli for the three conditions and the mental operations required in each condition. Novel objects are hypothesized to engage processes involved in perception even when verbal labels do not exist. (b) When familiar and novel objects were viewed, activation was greater in the occipitotemporal cortex, shown here in a horizontal slice, than when scrambled stimuli with no recognizable object shape were viewed.
شکل ۶.۱۱ تجزیه و تحلیل اجزای تشخیص شی.
(الف) محرک برای سه حالت و عملیات ذهنی مورد نیاز در هر شرایط. فرض بر این است که اشیاء جدید درگیر فرآیندهای درگیر در ادراک هستند، حتی زمانی که برچسبهای کلامیوجود ندارند. (ب) هنگامیکه اشیاء آشنا و بدیع مشاهده میشد، فعالسازی در قشر پشتی-گیجگاهی، که در اینجا به صورت یک برش افقی نشان داده شده است، بیشتر از زمانی بود که محرکهای درهم بدون شکل جسم قابل تشخیص مشاهده میشدند.
FIGURE 6.12 The BOLD response in lateral occipital cortex responds to shape even if object boundaries are not physically presented.
In an fMRI study using a block design, observers passively viewed four types of stimuli. There were two types of control stimuli with- out objects: one in which there was complete random motion of all the dots (N), and a second that had coherent motion of all the dots (MTN). The other two types of stimuli both depicted objects: either objects defined from luminance (OFL), which were silhouetted against a dark background, or objects defined from motion (OFM), which were coherently moving dots silhouetted against a background of dots moving in random directions. In this last case, the shape of the object became visible at the boundaries where the two types of motion met, producing the outline of the object. The BOLD response in the LOC increased in the OFL and OFM conditions.
شکل ۶.۱۲ پاسخ BOLD در قشر اکسیپیتال جانبی به شکل پاسخ میدهد حتی اگر مرزهای جسم به صورت فیزیکی ارائه نشده باشند.
در یک مطالعه fMRI با استفاده از طرح بلوک، ناظران به طور غیر فعال چهار نوع محرک را مشاهده کردند. دو نوع محرک کنترلی بدون اشیا وجود داشت: یکی که در آن حرکت تصادفی کامل تمام نقاط وجود داشت (N) و دیگری که دارای حرکت منسجم تمام نقاط بود (MTN). دو نوع دیگر از محرکها، هر دو اشیا را به تصویر میکشند: یا اشیایی که از درخشندگی تعریف شدهاند (OFL)، که در پسزمینهای تاریک شکل گرفتهاند، یا اشیایی که از حرکت تعریف شدهاند (OFM)، که بهطور منسجم نقاط متحرکی هستند که در برابر پسزمینهای از نقاط در جهتهای تصادفی حرکت میکنند. در این مورد آخر، شکل جسم در مرزهایی که دو نوع حرکت به هم میرسند، نمایان میشود و طرح کلی جسم را ایجاد میکند. پاسخ BOLD در LOC در شرایط OFL و OFM افزایش یافت.
When compared to control stimuli with similar sensory properties, the LOC response was also similar, regardless of whether the shape was defined by the juxtaposition of light against dark or the juxtaposition of coherently moving and randomly moving dots (Grill-Spector et al., 2001; Figure 6.12). Thus, the LOC can support the perception of an elephant shape even when the elephant is blue and green, or an apple shape even when the apple is made of onyx and striped.
هنگامیکه با محرکهای کنترلی با ویژگیهای حسی مشابه مقایسه میشود، پاسخ LOC نیز مشابه بود، صرف نظر از اینکه شکل با کنار هم قرار گرفتن نور در مقابل تاریکی یا کنار هم قرار گرفتن نقاط متحرک و تصادفی متحرک در کنار هم تعریف میشود (گریل-اسپکتور و همکاران، ۲۰۰۱؛ شکل ۶.۱۲). بنابراین، LOC میتواند درک شکل فیل را حتی زمانی که فیل آبی و سبز است، یا شکل سیب را حتی زمانی که سیب از عقیق و راه راه ساخته شده است، پشتیبانی کند.
The functional specification of the LOC for shape perception is evident even in 6-month-old babies (Emberson et al., 2017). As you might imagine, it would be quite a challenge to get infants to sit still in the fMRI scanner. An alternative method involves functional near-infrared spectroscopy (fNIRS), which employs a lightweight system that looks similar to an EEG cap and can be comfortably placed on the infant’s head. This system includes a source to generate infrared light, which takes advantage of the fact that infrared light can project through the scalp and skull. The absorption of the light differs for oxygenated and deoxygenated blood, and thus, as with fMRI, sensors of the FNIRS system are used to measure changes in hemodynamic activity. The system works best when targeting cortical tissue such as the LOC, which is close to the skull.
مشخصات عملکردی LOC برای درک شکل حتی در نوزادان ۶ ماهه نیز مشهود است (امبرسون و همکاران، ۲۰۱۷). همانطور که ممکن است تصور کنید، واداشتن نوزادان به یک حرکت در اسکنر fMRI کاملاً یک چالش خواهد بود. یک روش جایگزین شامل طیفسنجی عملکردی مادون قرمز نزدیک (fNIRS) است که از یک سیستم سبک وزن استفاده میکند که شبیه یک کلاهک EEG است و میتواند به راحتی روی سر نوزاد قرار گیرد. این سیستم شامل منبعی برای تولید نور مادون قرمز است که از این واقعیت بهره میبرد که نور مادون قرمز میتواند از طریق پوست سر و جمجمه پخش شود. جذب نور برای خون اکسیژن دار و بدون اکسیژن متفاوت است، و بنابراین، مانند fMRI، از حسگرهای سیستم FNIRS برای اندازه گیری تغییرات در فعالیت همودینامیک استفاده میشود. این سیستم هنگام هدف قرار دادن بافت قشر مغز مانند LOC که نزدیک جمجمه است، بهترین عملکرد را دارد.
The researchers also made use of the finding, from various imaging studies, that when a stimulus is repeated, the BOLD response is lower in the second presentation compared to the first. This repetition suppression (RS) effect is hypothesized to indicate increased neural efficiency: The neural response to the stimulus is more efficient and perhaps faster when the pattern has been recently activated.
محققان همچنین از یافتههای مطالعات تصویربرداری مختلف استفاده کردند که وقتی یک محرک تکرار میشود، پاسخ BOLD در ارائه دوم در مقایسه با اولی کمتر است. فرضیه این اثر سرکوب تکرار (RS) نشاندهنده افزایش کارایی عصبی است: پاسخ عصبی به محرک زمانی که الگوی اخیراً فعال شده است کارآمدتر و شاید سریعتر است.
Not only do researchers have to give special consideration to the type of imaging methodology when working with infants, but they also have to come up with age-appropriate tasks. To study shape perception, the researchers created two sets of visual stimuli: one in which the stimuli varied in shape and color while texture was held constant, and another in which the stimuli varied in texture and color while shape was held constant (Emberson et al., 2017). In this way, color was a relevant feature for both sets, but only shape or texture was relevant in their respective conditions.
محققان نه تنها هنگام کار با نوزادان باید به نوع روش تصویربرداری توجه ویژه ای داشته باشند، بلکه باید وظایف متناسب با سن را نیز ارائه دهند. برای مطالعه ادراک شکل، محققان دو مجموعه از محرکهای بصری ایجاد کردند: یکی که در آن محرکها در شکل و رنگ متفاوت بودند در حالی که بافت ثابت بود، و دیگری که در آن محرکها در بافت و رنگ متفاوت بودند در حالی که شکل ثابت بود (امبرسون و همکاران، ۲۰۱۷). به این ترتیب، رنگ یک ویژگی مرتبط برای هر دو مجموعه بود، اما فقط شکل یا بافت در شرایط مربوطه مرتبط بود.
Taking advantage of the RS effect, the researchers focused on how the fNIRS response changed when certain features were repeated (Figure 6.13a). When a shape was repeated, the hemodynamic response from the LOC decreased compared to when different shapes were shown. In contrast, there was no difference between conditions in which texture was repeated or varied (Figure 6.13b), providing evidence that the infant LOC is sensitive to shape but not to other visual features.
با بهره گیری از اثر RS، محققان بر چگونگی تغییر پاسخ fNIRS با تکرار ویژگیهای خاص تمرکز کردند (شکل ۶.13a). هنگامیکه یک شکل تکرار شد، پاسخ همودینامیک از LOC در مقایسه با زمانی که اشکال مختلف نشان داده شد کاهش یافت. در مقابل، هیچ تفاوتی بین شرایطی که در آن بافت تکرار میشد یا تغییر میکرد وجود نداشت (شکل ۶.13b)، که نشان میدهد LOC نوزاد به شکل حساس است اما به سایر ویژگیهای بصری حساس نیست.
FIGURE 6.13 Specificity for shape identification in the LOC is evident by 6 months of age. (a) Examples of stimuli. Within a block of trials, one dimension (either shape or texture) varied, and the other was held constant. (b) When a single shape was repeated eight times, the hemodynamic response in LOC decreased, as compared to when the shape varied with the texture repeated. This repetition suppression effect indicates that the LOC is selectively sensitive to shape.
شکل ۶.۱۳ ویژگی شناسایی شکل در LOC تا ۶ ماهگی مشهود است. الف) نمونههایی از محرکها. در یک بلوک آزمایش، یک بعد (چه شکل یا بافت) متفاوت بود و دیگری ثابت نگه داشت. (ب) هنگامیکه یک شکل تنها هشت بار تکرار شد، پاسخ همودینامیک در LOC در مقایسه با زمانی که شکل با تکرار بافت تغییر میکرد، کاهش مییابد. این اثر سرکوب تکرار نشان میدهد که LOC به طور انتخابی به شکل حساس است.
From Shapes to Objects
از اشکال تا اشیا
What does Figure 6.14a show? If you are like most people, you initially saw a vase. With continued viewing, the vase changes to the profiles of two people facing each other, and then back to the vase, and on and on, in an ex- ample of multistable perception. How are multistable percepts resolved in the brain? The stimulus information does not change at the points of transition from one percept to the other, but the interpretation of the pictorial cues does. When staring at the white region, you see the vase. If you shift attention to the black regions, you see the profiles. But here we run into a chicken-and-egg question. Did the representation of individual features change first and thus cause the percept to change? Or did the percept change and lead to a reinterpretation of the features?
شکل ۶.14a چه چیزی را نشان میدهد؟ اگر شما هم مثل اکثر مردم هستید، ابتدا یک گلدان دیدید. با مشاهده ادامه، گلدان به نمایههای دو نفر که روبروی یکدیگر هستند تغییر میکند، و سپس به گلدان باز میگردد، و به عنوان مثالی از ادراک چندپایه، ادامه مییابد. ادراکات چندپایه چگونه در مغز حل میشوند؟ اطلاعات محرک در نقاط انتقال از یک ادراک به درک دیگر تغییر نمیکند، اما تفسیر نشانههای تصویری تغییر میکند. وقتی به ناحیه سفید خیره میشوید، گلدان را میبینید. اگر توجه خود را به مناطق سیاه معطوف کنید، نمایهها را میبینید. اما در اینجا با یک سوال مرغ و تخم مرغ مواجه میشویم. آیا بازنمایی ویژگیهای فردی ابتدا تغییر کرد و در نتیجه باعث تغییر ادراک شد؟ یا اینکه این برداشت تغییر کرده و منجر به تفسیر مجدد ویژگیها شده است؟
FIGURE 6.14 Now you see it, now you don’t: multistable percepts.
(a) As you continue to stare at the figure, though the stimulus stays the same, your perception changes. (b) When the starburst or monkey face is presented alone (not shown), the cell in the temporal cortex responds vigorously to the monkey face but not to the starburst. In the rivalrous condition shown here, the two stimuli are presented simultaneously, one to the left eye and one to the right eye. The bottom bar shows the monkey’s perception, which the monkey indicated by a lever press-left for the starburst, right for the face. About 1 second after the onset of the rivalrous stimulus, the animal perceives the starburst; the cell is silent during this period. About 7 seconds later, the cell shows a large increase in activity and, correspondingly, the monkey indicates that its perception has changed to the monkey face shortly thereafter. Then, 2 seconds later, the percept flips back to the starburst and the cell’s activity is again reduced.
شکل ۶.۱۴ حالا شما آن را میبینید، حالا نمیبینید: ادراکات چندپایه.
(الف) همانطور که همچنان به شکل خیره میشوید، اگرچه محرک ثابت میماند، ادراک شما تغییر میکند. (ب) هنگامیکه ستاره انفجار یا صورت میمون به تنهایی ارائه میشود (نشان داده نمیشود)، سلول در قشر گیجگاهی به شدت به صورت میمون پاسخ میدهد اما به ستاره فوران پاسخ نمیدهد. در شرایط رقیب نشان داده شده در اینجا، دو محرک به طور همزمان ارائه میشوند، یکی به چشم چپ و دیگری به چشم راست. نوار پایینی ادراک میمون را نشان میدهد، که میمون با فشار دادن اهرمیبه چپ برای انفجار ستاره، درست برای صورت، نشان میدهد. حدود ۱ ثانیه پس از شروع محرک رقیب، حیوان انفجار ستاره را درک میکند. سلول در این مدت ساکت است. حدود ۷ ثانیه بعد، سلول افزایش زیادی در فعالیت نشان میدهد و به همین ترتیب، میمون نشان میدهد که درک آن به صورت میمون در مدت کوتاهی پس از آن تغییر کرده است. سپس، ۲ ثانیه بعد، ادراک به انفجار ستاره برمیگردد و فعالیت سلول دوباره کاهش مییابد.
To explore these questions, David Sheinberg and Nikos Logothetis of the Max Planck Institute in Tübin- gen, Germany, turned to a different form of multistable perception: binocular rivalry (Sheinberg & Logothetis, 1997). The exquisite focusing capability of our eyes (perhaps assisted by an optometrist) makes us forget that they provide two separate snapshots of the world. These snapshots are only slightly different, and they provide important cues for depth perception. The researchers made special glasses that present radically different images to each eye and have a shutter that can alternately block the input to one eye and then the other at very rapid rates. When humans don these glasses, they do not see two things in one location. As with the ambiguous vase-face profiles picture, only one object or the other is seen at any single point in time, although at transitions there is sometimes a period of fuzziness in which neither object is clearly perceived.
برای بررسی این سؤالات، دیوید شینبرگ و نیکوس لوگوتیس از مؤسسه ماکس پلانک در توبینگن، آلمان، به شکل متفاوتی از ادراک چندپایه روی آوردند: رقابت دوچشمی(شاینبرگ و لوگوتیس، ۱۹۹۷). قابلیت فوکوس عالی چشمان ما (شاید با کمک یک اپتومتریست) باعث میشود فراموش کنیم که آنها دو عکس فوری جداگانه از جهان ارائه میدهند. این عکسهای فوری فقط کمیمتفاوت هستند و نشانههای مهمیبرای درک عمق ارائه میدهند. محققان عینکهای ویژهای ساختند که تصاویر کاملاً متفاوتی را برای هر چشم نشان میدهد و دارای یک شاتر است که میتواند به طور متناوب ورودی یک چشم و سپس چشم دیگر را با سرعت بسیار سریع مسدود کند. وقتی انسانها این عینک را میزنند، دو چیز را در یک مکان نمیبینند. همانند تصویر مبهم نمایههای صورت گلدانی، تنها یک شی یا آن شی در هر نقطه از زمان دیده میشود، اگرچه در انتقال گاهی اوقات دورهای از مبهم وجود دارد که در آن هیچ یک از شیها به وضوح درک نمیشوند.
The researchers fitted monkeys with the glasses and presented them with radically different inputs to the two eyes, either separately or simultaneously. The monkeys were trained to press one of two levers to indicate which object was being perceived. To make sure the animals were not responding randomly, the researchers included non-rivalrous trials in which only one of the objects was presented. They then recorded from single cells in various areas of the visual cortex. Within each area they tested two objects, only one of which was effective in driving the cell. In this way the activity of the cell could be correlated with the animal’s perceptual experience.
محققان این عینک را به میمونها نصب کردند و ورودیهای کاملاً متفاوتی را به دو چشم به صورت جداگانه یا همزمان به آنها ارائه کردند. به میمونها آموزش داده شد که یکی از دو اهرم را فشار دهند تا نشان دهند کدام شی در حال درک است. برای اطمینان از اینکه حیوانات به طور تصادفی پاسخ نمیدهند، محققان آزمایشهای غیررقابتی را انجام دادند که در آن تنها یکی از اشیا ارائه شد. سپس آنها از تک سلولی در نواحی مختلف قشر بینایی ضبط کردند. در هر منطقه دو جسم را آزمایش کردند که تنها یکی از آنها در راندن سلول مؤثر بود. به این ترتیب فعالیت سلول میتواند با تجربه ادراکی حیوان مرتبط باشد.
The researchers found that activity in early visual areas was closely linked to the stimulus, while activity in higher areas (IT cortex) was linked to the percept. In V1, the responses of less than 20% of the cells fluctuated as a function of whether the animal perceived the effective or ineffective stimulus. In V4, this percentage increased to over 33%. In contrast, the activity of all the cells in the higher-order visual areas of the temporal lobe was tightly correlated with the animal’s perception. Here the cells would respond only when the effective stimulus, the mon- key face, was perceived (Figure 6.14b).
محققان دریافتند که فعالیت در نواحی بینایی اولیه ارتباط نزدیکی با محرک دارد، در حالی که فعالیت در نواحی بالاتر (قشر IT) با ادراک مرتبط است. در V1، پاسخ کمتر از ۲۰٪ از سلولها به عنوان تابعی از اینکه حیوان محرک موثر یا غیر موثر را درک میکند، در نوسان است. در V4، این درصد به بیش از ۳۳٪ افزایش یافت. در مقابل، فعالیت تمام سلولها در نواحی بصری مرتبه بالاتر لوب گیجگاهی با درک حیوان ارتباط تنگاتنگی داشت. در اینجا سلولها تنها زمانی پاسخ میدهند که محرک موثر، چهره میمون، درک شود (شکل ۶.14b).
When the animal pressed the lever indicating that it perceived the ineffective stimulus (the starburst) under rivalrous conditions, the cells were essentially silent. In both V4 and the temporal lobe, the cell activity changed in advance of the animal’s response, indicating that the percept had changed. Thus, even when the stimulus did not change, an increase in activity was observed before the transition from a perception of the ineffective stimulus to a perception of the effective stimulus.
وقتی حیوان اهرمیرا فشار داد که نشان میدهد محرک بیاثر (ستارهباران) را در شرایط رقیب درک کرده است، سلولها اساساً ساکت بودند. هم در V4 و هم در لوب گیجگاهی، فعالیت سلولی قبل از پاسخ حیوان تغییر میکند، که نشان میدهد درک تغییر کرده است. بنابراین، حتی زمانی که محرک تغییر نمیکرد، قبل از انتقال از درک محرک بی اثر به درک محرک موثر، افزایش فعالیت مشاهده شد.
These results suggest a competition during the early stages of cortical processing between the two possible “what” percepts in the ventral pathway. The activity of the cells in VI and in V4 can be thought of as perceptual hypotheses, with the patterns across an ensemble of cells reflecting the strengths of the different hypotheses. Interactions between these cells ensure that, by the time the information reaches the inferior temporal lobe, one of these hypotheses has coalesced into a stable percept. Reflecting the properties of the real world, the brain is not fooled into believing that two objects exist at the same place at the same time.
این نتایج یک رقابت را در مراحل اولیه پردازش قشر مغز بین دو درک احتمالی “چه چیزی” در مسیر شکمینشان میدهد. فعالیت سلولها در VI و V4 را میتوان به عنوان فرضیههای ادراکی در نظر گرفت، با الگوهای موجود در مجموعهای از سلولها که منعکسکننده نقاط قوت فرضیههای مختلف است. فعل و انفعالات بین این سلولها تضمین میکند که تا زمانی که اطلاعات به لوب گیجگاهی تحتانی میرسد، یکی از این فرضیهها به یک ادراک پایدار ادغام میشود. با انعکاس ویژگیهای دنیای واقعی، مغز فریب نمیخورد که باور کند دو شی در یک مکان در یک زمان وجود دارند.
Grandmother Cells and Ensemble Coding
سلولهای مادربزرگ و برنامه نویسی گروه
How do we recognize specific objects? For example, what enables us to distinguish between a coyote and a dog, a peach and a nectarine, or the orchid Dracula simia and a monkey face (Figure 6.15)? Are there individual cells that respond only to specific integrated percepts, or does perception of an object depend on the firing of a collection or ensemble of cells? In the latter case, this would mean that when you see a peach, a group of neurons that code for different features of the peach might become active, with some subset of them also active when you see a nectarine.
چگونه اشیاء خاص را تشخیص دهیم؟ به عنوان مثال، چه چیزی ما را قادر میسازد بین کایوت و سگ، هلو و شلیل، یا ارکیده Dracula simia و صورت میمون تمایز قائل شویم (شکل ۶.۱۵)؟ آیا سلولهای منفردی وجود دارند که فقط به ادراکات یکپارچه خاصی پاسخ میدهند یا اینکه درک یک شی به شلیک مجموعه یا مجموعه ای از سلولها بستگی دارد؟ در مورد دوم، این بدان معناست که وقتی هلو را میبینید، گروهی از نورونها که ویژگیهای مختلف هلو را کد میکنند ممکن است فعال شوند و برخی از زیرمجموعههای آنها نیز با دیدن شلیل فعال شوند.
FIGURE 6.15 Monkey orchid (Dracula simia). The flower of this species of orchid looks remarkably like a monkey’s face.
شکل ۶.۱۵ ارکیده میمون (Dracula simia). گل این گونه ارکیده به طرز چشمگیری شبیه صورت میمون است.
The finding that cells in the IT cortex selectively respond to complex stimuli (e.g., objects, places, body parts, or faces; Figure 6.6) is consistent with hierarchical theories of object perception. According to these theories, cells in the initial areas of the visual cortex code elementary features such as line orientation and color. The outputs from these cells are combined to form detectors sensitive to higher-order features such as corners or inter- sections—an idea consistent with the findings of Hubel and Wiesel (see Chapter 5). The process continues as each successive stage codes more complex combinations (Figure 6.16). The type of neuron that can recognize a complex object has been called a gnostic unit, referring to the idea that the cell (or cells) signals the presence of a known stimulus-an object, a place, or an animal that has been encountered in the past.
این یافته که سلولهای قشر فناوری اطلاعات به طور انتخابی به محرکهای پیچیده (مانند اشیا، مکانها، قسمتهای بدن یا چهرهها؛ شکل ۶.۶) پاسخ میدهند، با نظریههای سلسله مراتبی ادراک شی مطابقت دارد. طبق این نظریهها، سلولها در نواحی اولیه قشر بینایی ویژگیهای ابتدایی مانند جهت گیری خط و رنگ را کد میکنند. خروجیهای این سلولها برای ایجاد آشکارسازهای حساس به ویژگیهای مرتبه بالاتر مانند گوشهها یا مقاطع، ترکیب میشوند – ایدهای که با یافتههای Hubel و Wiesel سازگار است (به فصل ۵ مراجعه کنید). این فرآیند همچنان ادامه مییابد که هر مرحله متوالی ترکیبهای پیچیده تری را کد میکند (شکل ۶.۱۶). نوع نورونی که میتواند یک شی پیچیده را تشخیص دهد واحد عرفانی نامیده میشود و به این ایده اشاره دارد که سلول (یا سلولها) وجود یک محرک شناختهشده را نشان میدهد – یک شی، یک مکان یا حیوانی که در گذشته با آن مواجه شدهاند.
It is tempting to conclude that the cell represented by the recordings in Figure 6.6 signals the presence of a hand, independent of viewpoint. Other cells in the IT cortex respond preferentially to complex stimuli, such as jagged contours or fuzzy textures. The latter might be useful for a monkey, to help it identify that an object has a fur-covered surface and therefore might be the back- side of another member of its group.
وسوسه انگیز است که نتیجه بگیریم سلولی که با ضبطهای شکل ۶.۶ نشان داده شده است، وجود یک دست، مستقل از دیدگاه را نشان میدهد. سلولهای دیگر در قشر فناوری اطلاعات ترجیحاً به محرکهای پیچیده مانند خطوط ناهموار یا بافتهای مبهم پاسخ میدهند. دومیممکن است برای یک میمون مفید باشد تا به او کمک کند تا تشخیص دهد که یک شی دارای سطحی پوشیده از خز است و بنابراین ممکن است پشت یکی دیگر از اعضای گروه خود باشد.
Even more intriguing, researchers discovered cells in the IT gyrus and the floor of the superior temporal sulcus (STS) that are selectively activated by faces. In a tongue- in-check manner, they coined the term grandmother cell to convey the notion that people’s brains might have a gnostic unit that becomes excited only when their grand- mother comes into view. Other gnostic units would be specialized to recognize, for example, a blue Volkswagen or the Golden Gate Bridge.
حتی جالبتر از این، محققان سلولهایی را در شکنج فناوری اطلاعات و کف شیار گیجگاهی فوقانی (STS) کشف کردند که بهطور انتخابی توسط چهرهها فعال میشوند. آنها با بررسی زبان، اصطلاح سلول مادربزرگ را ابداع کردند تا این تصور را منتقل کنند که مغز افراد ممکن است یک واحد عرفانی داشته باشد که تنها زمانی هیجان زده میشود که مادربزرگشان به چشم بیاید. سایر واحدهای عرفانی برای تشخیص، به عنوان مثال، یک فولکس واگن آبی یا پل گلدن گیت تخصصی خواهند بود.
Itzhak Fried and his colleagues at UCLA explored this question by making single-cell recordings in human participants (Quiroga et al., 2005). These participants all had epilepsy, and in preparation for a surgical procedure to alleviate their symptoms, electrodes were surgically implanted in the temporal lobe. In the study, they were shown a wide range of pictures, including animals, objects, landmarks, and individuals. The investigators’ first observation was that, in general, it was difficult to make these cells respond. Even when the stimuli were individually tailored to each participant on the basis of an interview to determine that person’s visual history, the temporal lobe cells were generally inactive.
Itzhak Fried و همکارانش در UCLA این سوال را با انجام ضبطهای تک سلولی در شرکت کنندگان انسانی بررسی کردند (Quiroga et al., 2005). این شرکت کنندگان همگی صرع داشتند و در آماده سازی برای یک عمل جراحی برای کاهش علائم آنها، الکترودهایی با جراحی در لوب تمپورال کاشته شدند. در این مطالعه، طیف وسیعی از تصاویر، از جمله حیوانات، اشیاء، نقاط دیدنی و افراد به آنها نشان داده شد. اولین مشاهده محققین این بود که به طور کلی، پاسخ دادن به این سلولها دشوار است. حتی زمانی که محرکها به صورت جداگانه برای هر یک از شرکت کنندگان بر اساس مصاحبه برای تعیین تاریخچه بینایی آن فرد تنظیم میشد، سلولهای لوب گیجگاهی عموماً غیرفعال بودند.
Nonetheless, there were exceptions. Most notable, these exceptions revealed an extraordinary degree of stimulus specificity. Recall Figure 3.21, which shows the response of one temporal lobe neuron that was selectively activated in response to photographs of the actress Halle Berry. Ms. Berry could be wearing sunglasses, sporting a dramatically different haircut, or even in costume as Catwoman-in all cases, this particular neuron was activated. Other actresses or famous people failed to activate the neuron.
با این حال، استثناهایی وجود داشت. قابل توجه تر، این استثناها درجه فوق العاده ای از ویژگی محرک را نشان میدهد. شکل ۳.۲۱ را به یاد بیاورید، که پاسخ یک نورون لوب گیجگاهی را نشان میدهد که به طور انتخابی در پاسخ به عکسهای بازیگر زنهالی بری فعال شده است. خانم بری ممکن است عینک آفتابی بزند، مدل موی کاملا متفاوتی داشته باشد، یا حتی در لباس گربهای – در همه موارد، این نورون خاص فعال شده است. دیگر بازیگران زن یا افراد مشهور نتوانستند نورون را فعال کنند.
Although it is tempting to conclude that cells like these are gnostic units, it is important to keep in mind the limitations of such experiments. First, aside from the infinite number of possible stimuli, the recordings are performed on only a small subset of neurons. This cell potentially could be activated by a broader set of stimuli, and many other neurons might respond in a similar manner. Second, the results also suggest that these gnostic-like units are not really “perceptual.” The same cell was also activated when the words “Halle Berry” were presented. This observation takes the wind out of the argument that this is a grandmother cell, at least in the original sense of the idea. Rather, the cell may represent the concept of “Halle Berry,” or even represent the name Halle Berry, a name that is likely recalled from memory for any of the stimuli relevant to the actress.
اگرچه وسوسه انگیز است که نتیجه بگیریم که سلولهایی مانند این واحدهای گنوسی هستند، مهم است که محدودیتهای چنین آزمایشهایی را در نظر داشته باشیم. اول، جدا از تعداد نامتناهی محرکهای ممکن، ضبطها تنها بر روی یک زیر مجموعه کوچک از نورونها انجام میشوند. این سلول به طور بالقوه میتواند توسط مجموعه وسیع تری از محرکها فعال شود و بسیاری از نورونهای دیگر ممکن است به شیوه ای مشابه پاسخ دهند. دوم، نتایج همچنین نشان میدهد که این واحدهای عرفانیمانند واقعاً «ادراکی» نیستند. با ارائه عبارت “Halle Berry” نیز همین سلول فعال شد. این مشاهدات این بحث را که این یک سلول مادربزرگ است، حداقل به معنای اصلی ایده، از بین میبرد. در عوض، سلول ممکن است مفهوم “هالی بری” را نشان دهد، یا حتی نامهالی بری را نشان دهد، نامیکه احتمالاً برای هر یک از محرکهای مربوط به بازیگر از حافظه به یاد میآید.
One alternative to the grandmother-cell hypothesis is that object recognition results from activation across complex feature detectors (Figure 6.17). Granny, then, is recognized when some of these higher-order neurons are activated. Some of the cells may respond to her shape, others to the color of her hair, and still others to the features of her face. According to this ensemble hypothesis, recognition is due not to one unit but to the collective activation of many units. Ensemble theories readily account for why we can recognize similarities between objects (say, a tiger and a lion) and may confuse one visually similar object with another: Both objects activate many of the same neurons. Losing some units might degrade our ability to recognize an object, but the remaining units might suffice. Ensemble theories also account for our ability to recognize novel objects. Novel objects bear a similarity to familiar things, and our percepts result from activating units that represent their features.
یک جایگزین برای فرضیه سلول مادربزرگ این است که تشخیص شی از فعال سازی در آشکارسازهای ویژگی پیچیده حاصل میشود (شکل ۶.۱۷). بنابراین، مادربزرگ زمانی شناخته میشود که برخی از این نورونهای مرتبه بالاتر فعال شوند. برخی از سلولها ممکن است به شکل او، برخی دیگر به رنگ موهای او و برخی دیگر به ویژگیهای صورت او پاسخ دهند. بر اساس این فرضیه مجموعه، شناخت نه به دلیل یک واحد بلکه به دلیل فعال شدن جمعی بسیاری از واحدها است. تئوریهای مجموعه به راحتی توضیح میدهند که چرا ما میتوانیم شباهتهای بین اشیاء (مثلاً ببر و شیر) را تشخیص دهیم و ممکن است یک شی از نظر بصری مشابه را با دیگری اشتباه بگیریم: هر دو شی بسیاری از نورونهای مشابه را فعال میکنند. از دست دادن برخی واحدها ممکن است توانایی ما در تشخیص یک شی را کاهش دهد، اما واحدهای باقی مانده ممکن است کافی باشند. تئوریهای مجموعه همچنین توانایی ما در تشخیص اشیاء جدید را توضیح میدهند. اشیاء جدید شباهتی به چیزهای آشنا دارند و ادراکات ما از واحدهای فعالی که نمایانگر ویژگیهای آنهاست، ناشی میشود.
FIGURE 6.16 The hierarchical coding hypothesis.
Elementary features are combined to create objects that can be recognized by gnostic units. At the first level of the hierarchy depicted are edge detectors, which operate similarly to the simple cells discussed in Chapter 5. These feature units combine to form corner detectors, which in turn combine to form cells that respond to even more complex stimuli, such as surfaces. (a) Hypothesized computational stages for hierarchical coding. (b) Cartoon of neuronal implementation of the computational stages illustrated in (a).
شکل ۶.۱۶ فرضیه کدگذاری سلسله مراتبی.
ویژگیهای ابتدایی برای ایجاد اشیایی که توسط واحدهای عرفانی قابل تشخیص هستند ترکیب میشوند. در سطح اول سلسله مراتب نشان داده شده، آشکارسازهای لبهای هستند که مشابه سلولهای ساده مورد بحث در فصل ۵ عمل میکنند. این واحدهای ویژگی ترکیب میشوند تا آشکارسازهای گوشهای را تشکیل دهند، که به نوبه خود سلولهایی را تشکیل میدهند که به محرکهای پیچیدهتر، مانند سطوح، پاسخ میدهند. (الف) مراحل محاسباتی فرضی برای کدگذاری سلسله مراتبی. (ب) کاریکاتور اجرای عصبی مراحل محاسباتی نشان داده شده در (الف).
The results of single-cell studies of temporal lobe neurons are in accord with ensemble theories of object recognition. Although it is striking that some cells are selective for complex objects, the selectivity is almost always relative, not absolute. The cells in the IT cortex prefer certain stimuli to others, but they are also activated by visually similar stimuli. The cell represented in Figure 6.6, for instance, increases its activity when presented with a mitten-like stimulus. No cells respond to a particular individual’s hand; the hand-selective cell responds equally to just about any hand. In contrast, as people’s perceptual abilities demonstrate, we make much finer discriminations.
نتایج مطالعات تک سلولی نورونهای لوب گیجگاهی با تئوریهای گروهی تشخیص اشیا مطابقت دارد. اگرچه جالب است که برخی از سلولها برای اشیاء پیچیده انتخابی هستند، اما گزینش پذیری تقریباً همیشه نسبی است، نه مطلق. سلولهای قشر IT محرکهای خاصی را به محرکهای دیگر ترجیح میدهند، اما آنها نیز توسط محرکهای بصری مشابه فعال میشوند. به عنوان مثال، سلولی که در شکل ۶.۶ نشان داده شده است، هنگامیکه با یک محرک دستکش ارائه میشود، فعالیت خود را افزایش میدهد. هیچ سلولی به دست یک فرد خاص پاسخ نمیدهد. سلول انتخابی دست تقریباً به هر دستی پاسخ میدهد. در مقابل، همانطور که تواناییهای ادراکی افراد نشان میدهد، ما تبعیضهای بسیار ظریفتری انجام میدهیم.
FIGURE 6.17 The ensemble coding hypothesis. Objects are defined by the simultaneous activation of a set of defining properties. “Granny” is recognized here by the co-occurrence of her wrinkles, face shape, hair color, and so on.
شکل ۶.۱۷ فرضیه کدگذاری مجموعه. اشیا با فعال سازی همزمان مجموعه ای از ویژگیهای تعریف کننده تعریف میشوند. “بزرگ” در اینجا با ایجاد همزمان چین و چروک، فرم صورت، رنگ مو و غیره شناخته میشود.
Exploiting the Computational Power of Neural Networks
بهره برداری از توان محاسباتی شبکههای عصبی
How are perceptual systems organized to make sense of the complex information that is constantly bombarding our sense organs? One suggestion is that a layered architecture with extensive connectivity and subject to some simple learning principles is optimal for learning about the rich structure of the environment. Although this conjecture has been debated at a theoretical level for a long time, recent advances in artificial intelligence research have enabled researchers to put the idea to the test, comparing simulations derived in deep learning net- works (see Chapter 3) with data from neurophysiological experiments.
چگونه سیستمهای ادراکی سازماندهی میشوند تا اطلاعات پیچیدهای را که دائماً اندامهای حسی ما را بمباران میکنند، درک کنند؟ یک پیشنهاد این است که یک معماری لایه ای با اتصال گسترده و با رعایت برخی اصول یادگیری ساده برای یادگیری ساختار غنی محیط بهینه است. اگرچه این حدس برای مدت طولانی در سطح نظری مورد بحث بوده است، پیشرفتهای اخیر در تحقیقات هوش مصنوعی محققان را قادر میسازد تا این ایده را آزمایش کنند و شبیهسازیهای به دست آمده در شبکههای یادگیری عمیق (به فصل ۳ را ببینید) با دادههای آزمایشهای عصبی فیزیولوژیکی مقایسه کنند.
At the input layer of these networks, the representation may be somewhat akin to information in the environment; for example, a visual recognition network might have an input layer that corresponds to the pixels in an image. At the output layer, the representation might correspond to a decision; for example, is there a face in the image and if so, whose? The middle layers, or what are called the hidden layers, entail additional processing steps in which the information is recombined and reweighted according to different processing rules (Figure 6.18).
در لایه ورودی این شبکهها، نمایش ممکن است تا حدودی شبیه به اطلاعات موجود در محیط باشد. به عنوان مثال، یک شبکه تشخیص بصری ممکن است دارای یک لایه ورودی باشد که با پیکسلهای یک تصویر مطابقت دارد. در لایه خروجی، نمایش ممکن است با یک تصمیم مطابقت داشته باشد. به عنوان مثال، آیا چهره ای در تصویر وجود دارد و اگر وجود دارد، چه کسی؟ لایههای میانی، یا آنچه لایههای پنهان نامیده میشود، مستلزم مراحل پردازش اضافی است که در آن اطلاعات با توجه به قوانین مختلف پردازش، دوباره ترکیب و وزندهی میشوند (شکل ۶.۱۸).
How this comes about depends on the algorithms used to train the system. In some cases, error signals might be created by comparing the output of the network with the correct answer and then using this information to modify the connections-for example, by weakening connections that are active when errors are made. In other cases, the training rules might be based on simple network properties, such as level of activity (e.g., making active connections stronger).
اینکه چگونه این اتفاق میافتد بستگی به الگوریتمهای مورد استفاده برای آموزش سیستم دارد. در برخی موارد، سیگنالهای خطا ممکن است با مقایسه خروجی شبکه با پاسخ صحیح و سپس استفاده از این اطلاعات برای اصلاح اتصالات ایجاد شوند – به عنوان مثال، با تضعیف اتصالاتی که در هنگام بروز خطا فعال هستند. در موارد دیگر، قوانین آموزشی ممکن است بر اساس ویژگیهای شبکه ساده، مانند سطح فعالیت (به عنوان مثال، قوی تر کردن اتصالات فعال) باشد.
The key insight to be drawn from research with deep learning networks is that these systems are remarkably efficient at extracting statistical regularities or creating representations that can solve complex problems (Figure 6.19). Deep learning networks have surpassed human abilities in games such as Go and Texas Hold’em poker, and they are becoming highly proficient in some of our most exquisite perceptual abilities, such as judging whether a face is familiar.
بینش کلیدی که باید از تحقیقات با شبکههای یادگیری عمیق استخراج شود این است که این سیستمها در استخراج قانونمندیهای آماری یا ایجاد نمایشهایی که میتوانند مسائل پیچیده را حل کنند به طور قابل توجهی کارآمد هستند (شکل ۶.۱۹). شبکههای یادگیری عمیق در بازیهایی مانند پوکر Go و Texas Hold’em از تواناییهای انسانی پیشی گرفتهاند و در برخی از نفیسترین تواناییهای ادراکی ما، مانند قضاوت در مورد آشنا بودن چهره، مهارت بالایی پیدا کردهاند.
To explore whether our visual system is organized in a similar manner, Jim DiCarlo and his colleagues at MIT (Yamins et al., 2014) constructed a hierarchical model with a layered architecture of the ventral pathway to solve a fundamental perceptual problem: determining the category of a visual stimulus. To train the network, the model was presented with 5,760 pictures that included objects from eight different categories (animals, boats, cars, chairs, faces, fruits, planes, and tables). This training would be analogous to a baby’s continued exposure to different visual scenes.
برای بررسی اینکه آیا سیستم بینایی ما به شیوه ای مشابه سازماندهی شده است، جیم دی کارلو و همکارانش در MIT (یامینز و همکاران، ۲۰۱۴) یک مدل سلسله مراتبی با معماری لایه ای از مسیر شکمیبرای حل یک مشکل ادراکی اساسی ساختند: تعیین دسته یک محرک بصری. برای آموزش شبکه، این مدل با ۵۷۶۰ تصویر ارائه شد که شامل اشیاء از هشت دسته مختلف (حیوانات، قایقها، ماشینها، صندلیها، صورتها، میوهها، هواپیماها و میزها) بود. این آموزش مشابه مواجهه مداوم نوزاد با صحنههای بصری مختلف خواهد بود.
Each image was then propagated through a four- layered network in which the processing at each stage incorporated computational principles derived from neurophysiological and computational studies. At the VI stage, activation reflected the integration of luminance information from a small set of pixels. Higher stages combined the output from lower stages, with the output from the final stage used as a prediction of the model’s judgment of the depicted object’s category membership. The connections within each layer and between layers were refined according to how well the prediction matched the true answer; for example, if the prediction was wrong, active connections were weakened.
سپس هر تصویر از طریق یک شبکه چهار لایه منتشر شد که در آن پردازش در هر مرحله شامل اصول محاسباتی برگرفته از مطالعات عصبی فیزیولوژیکی و محاسباتی بود. در مرحله VI، فعالسازی ادغام اطلاعات درخشندگی از مجموعه کوچکی از پیکسلها را منعکس میکرد. مراحل بالاتر خروجی مراحل پایینتر را با خروجی مرحله نهایی به عنوان پیشبینی قضاوت مدل در مورد عضویت در دسته شی تصویر شده ترکیب کردند. اتصالات درون هر لایه و بین لایهها با توجه به اینکه چقدر پیش بینی با پاسخ واقعی مطابقت دارد، اصلاح شد. برای مثال، اگر پیشبینی اشتباه بود، اتصالات فعال ضعیف میشدند.
FIGURE 6.18 Layered feedforward networks.
(a) A shallow feedforward network has no hidden layers or one hidden layer. (b) A deep feedforward network has more than one hidden layer. The use of multilayered networks has been a major breakthrough in machine learning and neuroscience, allowing systems to solve complex problems.
شکل ۶.۱۸ شبکههای پیشخوراند لایه لایهای.
(الف) یک شبکه پیشخور کم عمق هیچ لایه پنهان یا یک لایه پنهان ندارد. (ب) یک شبکه پیشخور عمیق بیش از یک لایه پنهان دارد. استفاده از شبکههای چندلایه یک پیشرفت بزرگ در یادگیری ماشین و علوم اعصاب بوده است و به سیستمها اجازه میدهد تا مسائل پیچیده را حل کنند.
FIGURE 6.19 Representations that can be extracted from different layers of a deep network.
Early layers (here, Layers 1 and 2) correspond to features identified in early visual areas (V1-V4). Later layers (here, Layers 3-5) correspond to what you see in cells further along the ventral pathway. These representations emerge naturally when networks are trained to recognize objects.
شکل ۶.۱۹ نمایشهایی که میتوانند از لایههای مختلف یک شبکه عمیق استخراج شوند.
لایههای اولیه (در اینجا، لایههای ۱ و ۲) با ویژگیهای شناساییشده در مناطق بصری اولیه (V1-V4) مطابقت دارند. لایههای بعدی (در اینجا، لایههای ۳-۵) با آنچه در سلولهای بیشتر در امتداد مسیر شکمیمیبینید مطابقت دارد. این نمایشها به طور طبیعی زمانی پدیدار میشوند که شبکهها برای تشخیص اشیا آموزش ببینند.
DiCarlo and his team provided two tests of the model. First, they asked how well the output from different layers in the model compared to neuronal activity at different levels of the ventral pathway. In particular, they showed the same pictures to monkeys while recording from cells in V4 and IT cortex. Interestingly, the output from the third layer of the network correlated strongly with the activity patterns in V4, whereas the output from the fourth layer correlated with activity patterns in the IT cortex. Even though the model entails radical simplifications of the complex interactions that underlie actual neuronal activity, there was a strong correspondence between the artificial and biological systems, providing support for the idea that the biological brain has a layered architecture. We discuss this theory in more detail in Chapter 14.
دی کارلو و تیمش دو آزمایش از این مدل ارائه کردند. ابتدا، آنها پرسیدند که خروجی لایههای مختلف در مدل در مقایسه با فعالیت عصبی در سطوح مختلف مسیر شکمیچقدر خوب است. به طور خاص، آنها همان تصاویر را در حین ضبط از سلولهای V4 و قشر IT به میمونها نشان دادند. جالب توجه است که خروجی از لایه سوم شبکه به شدت با الگوهای فعالیت در V4 همبستگی دارد، در حالی که خروجی از لایه چهارم با الگوهای فعالیت در قشر فناوری اطلاعات ارتباط دارد. اگرچه این مدل مستلزم سادهسازیهای بنیادی از فعل و انفعالات پیچیدهای است که زیربنای فعالیتهای عصبی واقعی است، یک تناظر قوی بین سیستمهای مصنوعی و بیولوژیکی وجود دارد که از این ایده پشتیبانی میکند که مغز بیولوژیکی دارای معماری لایهای است. ما این نظریه را در فصل ۱۴ با جزئیات بیشتری مورد بحث قرار میدهیم.
Second, the researchers looked at the model’s performance on three categorization tasks of increasing difficulty (Figure 6.20a). In the easiest test, the objects were of a similar size and shown in a similar orientation and background. In the harder tests, the objects had more variation in their pose, position, scale, and background. The model’s ability to identify the object’s category was compared to humans doing the same task, as well as to predictions derived from neuronal activity in V4 or IT neurons. As can be seen in Figure 6.20c, categorization accuracy was similar for the model, the IT neurons, and the human observers. Moreover, as one would expect from what we have learned, V4 activity did a reasonably good job in predicting category membership for the easy task, but its performance dropped dramatically on the harder tasks.
دوم، محققان به عملکرد مدل در سه وظیفه طبقه بندی افزایش دشواری نگاه کردند (شکل ۶.20a). در ساده ترین آزمایش، اشیاء دارای اندازه مشابه بودند و در جهت و پس زمینه مشابه نشان داده شدند. در آزمونهای سختتر، اجسام دارای تنوع بیشتری در حالت، موقعیت، مقیاس و پسزمینه خود بودند. توانایی مدل برای شناسایی دسته شی با انسانهایی که همان کار را انجام میدهند و همچنین با پیش بینیهای ناشی از فعالیت عصبی در نورونهای V4 یا IT مقایسه شد. همانطور که در شکل ۶.20c مشاهده میشود، دقت طبقه بندی برای مدل، نورونهای IT و ناظران انسانی مشابه بود. علاوه بر این، همانطور که از آموختههای ما انتظار میرود، فعالیت V4 در پیشبینی عضویت در دسته برای کار آسان کار خوبی انجام داد، اما عملکرد آن در کارهای سختتر به طرز چشمگیری کاهش یافت.
One way to interpret the difference between the V4 and IT predictions is that only the latter achieves object constancy, identifying category membership independent of the actual stimulus. Humans are quite adept in maintaining object constancy-by definition, this is one form of categorization and a simple, multilayered model. with fairly simple processing rules was nearly as good as the human observers. We can well imagine that with more complexity and better learning algorithms, these complex networks might soon surpass human ability to rapidly scan through complex scenes. The airport security officer scanning X-ray images of your luggage is likely to be replaced by artificial intelligence.
یکی از راههای تفسیر تفاوت بین پیشبینیهای V4 و IT این است که فقط پیشبینیهای دومیبه ثبات شی دست مییابد و عضویت دسته را مستقل از محرک واقعی شناسایی میکند. انسانها در حفظ ثبات اشیا بر اساس تعریف کاملاً ماهر هستند، این یکی از اشکال دسته بندی و یک مدل ساده و چند لایه است. با قوانین پردازش نسبتاً ساده تقریباً به خوبی ناظران انسانی بود. ما به خوبی میتوانیم تصور کنیم که با پیچیدگی بیشتر و الگوریتمهای یادگیری بهتر، این شبکههای پیچیده ممکن است به زودی از توانایی انسان برای اسکن سریع صحنههای پیچیده پیشی بگیرند. افسر امنیتی فرودگاه که تصاویر اشعه ایکس از چمدان شما را اسکن میکند احتمالاً با هوش مصنوعی جایگزین میشود.
Top-Down Effects on Object Recognition
اثرات بالا به پایین در تشخیص شی
Up to this point, we have emphasized a bottom-up perspective on processing within the visual system, showing how a multilayered system can combine features into more complex representations. This model appears to nicely capture the flow of information along the ventral pathway. However, it is also important to recognize that information processing is not a one-way, bottom-up street. For example, at Thanksgiving your sister may ask you to pass the potatoes. Your visual system does not meticulously inspect each food platter on the cluttered table to decide whether it contains the desired item. It can readily eliminate unlikely candidates, such as the turkey platter, and focus on the platters that contain a food with a color or consistency associated with potatoes.
تا این مرحله، ما بر دیدگاه از پایین به بالا در پردازش در سیستم بصری تاکید کردهایم، که نشان میدهد چگونه یک سیستم چندلایه میتواند ویژگیها را در نمایشهای پیچیدهتر ترکیب کند. به نظر میرسد این مدل به خوبی جریان اطلاعات را در امتداد مسیر شکمیثبت میکند. با این حال، درک این نکته نیز مهم است که پردازش اطلاعات یک خیابان یک طرفه و از پایین به بالا نیست. برای مثال، در روز شکرگزاری، خواهرتان ممکن است از شما بخواهد که سیب زمینیها را پاس کنید. سیستم بینایی شما به دقت هر بشقاب غذا را روی میز درهم و برهم بررسی نمیکند تا تصمیم بگیرد که آیا حاوی کالای مورد نظر است یا خیر. این میتواند به راحتی کاندیداهای نامحتمل مانند بشقاب بوقلمون را حذف کند و بر روی بشقابهایی متمرکز شود که حاوی مواد غذایی با رنگ یا قوام مرتبط با سیب زمینی هستند.
One model of top-down effects emphasizes that input from the frontal cortex can influence processing along the ventral pathway. In this view, inputs from early visual areas are projected to the frontal lobe. Given their low position in the hierarchy, these representations are quite crude, perhaps just a blurry map of the distribution of objects in the scene—and even here, there may not be clear separation of the parts. The frontal lobe generates predictions about what the scene is, using this early scene analysis and knowledge of the current context. These top- down predictions can then be compared with the bottom- up analysis occurring along the ventral pathway of the temporal cortex, making for faster object recognition by limiting the field of possibilities (Figure 6.21).
یک مدل از اثرات بالا به پایین تأکید میکند که ورودی از قشر پیشانی میتواند بر پردازش در طول مسیر شکمیتأثیر بگذارد. در این دیدگاه، ورودیهای نواحی بصری اولیه به لوب فرونتال فرستاده میشوند. با توجه به موقعیت پایین آنها در سلسله مراتب، این نمایشها کاملاً خام هستند، شاید فقط نقشهای مبهم از توزیع اشیاء در صحنه – و حتی در اینجا، ممکن است جداسازی واضحی از قطعات وجود نداشته باشد. لوب فرونتال با استفاده از این تجزیه و تحلیل صحنه اولیه و دانش از زمینه فعلی، پیشبینیهایی در مورد اینکه صحنه چیست، ایجاد میکند. سپس این پیشبینیهای بالا به پایین را میتوان با تجزیه و تحلیل از پایین به بالا که در امتداد مسیر شکمیقشر گیجگاهی اتفاق میافتد مقایسه کرد و با محدود کردن زمینه احتمالات، تشخیص سریعتر شی را انجام داد (شکل ۶.۲۱).
FIGURE 6.20 Performance results on an object categorization test.
(a) Test images were of eight object categories at three levels of object view variation. (b) Chronically implanted microelectrode arrays recorded the responses of neurons in V4 and IT cortex to about 6,000 images. (c) Neuronal responses from V4 (light-green bars), IT cortex (blue bars), and multilayered network models (red bars) were collected on the same image set and used to train classifiers from which population performance accuracy was evaluated. (The y-axis represents the percentage correct in an eight-way categorization, so chance performance would be 12.5%.) The responses of the human participants (black bars) were collected via psychophysics experiments.
شکل ۶.۲۰ نتایج عملکرد در آزمون دسته بندی اشیا.
(الف) تصاویر آزمایشی از هشت دسته شی در سه سطح تنوع نمای شی بودند. (ب) آرایههای میکروالکترودی کاشته شده مزمن پاسخ نورونها را در V4 و قشر IT به حدود ۶۰۰۰ تصویر ثبت کردند. (ج) پاسخهای عصبی از V4 (نوارهای سبز روشن)، قشر فناوری اطلاعات (نوارهای آبی)، و مدلهای شبکه چندلایه (نوارهای قرمز) در همان مجموعه تصویر جمعآوری شدند و برای آموزش طبقهبندیکنندههایی که دقت عملکرد جمعیت از آنها ارزیابی شد، استفاده شد. (محور y درصد صحیح را در یک طبقه بندی هشت طرفه نشان میدهد، بنابراین عملکرد شانسی ۱۲.۵٪ خواهد بود.) پاسخهای شرکت کنندگان انسانی (نوارهای سیاه) از طریق آزمایشهای روان شناسی جمع آوری شد.
To test this model, Moshe Bar and his colleagues had volunteers perform a visual recognition task while undergoing magnetoencephalography (MEG), a method with exquisite temporal resolution and reasonable spatial resolution. They were interested in comparing the time course of activation in frontal regions to that in recognition-related regions within the temporal cortex. The volunteers were very briefly shown pictures of familiar objects flanked by two masks. The same picture could be presented several times, randomly interspersed with pictures of other objects. Thus, the participants had several opportunities to recognize the object if they failed on earlier brief glimpses.
برای آزمایش این مدل، موشه بار و همکارانش از داوطلبان خواستند هنگام انجام مغناطیسی مغزی (MEG)، یک روش با وضوح زمانی عالی و وضوح فضایی معقول، یک کار تشخیص بصری انجام دهند. آنها علاقه مند به مقایسه دوره زمانی فعال سازی در نواحی فرونتال با نواحی مرتبط با تشخیص در قشر تمپورال بودند. به داوطلبان برای مدت کوتاهی تصاویری از اشیاء آشنا که دو ماسک در کنار آنها قرار داشتند نشان دادند. همان تصویر را میتوان چندین بار ارائه داد و بهطور تصادفی با تصاویری از اشیاء دیگر در هم آمیخت. بنابراین، شرکتکنندگان در صورت شکست در نگاههای اجمالی قبلی، فرصتهای متعددی برای تشخیص شی داشتند.
FIGURE 6.21 A proposed model of top-down facilitation of visual recognition.
In this model, the orbitofrontal cortex makes predictions of objects from partially analyzed visual input and sends them to ventral- stream processing areas to facilitate object recognition.
شکل ۶.۲۱ یک مدل پیشنهادی برای تسهیل تشخیص بصری از بالا به پایین.
در این مدل، قشر اوربیتوفرونتال پیش بینی اشیاء را از ورودی بصری تا حدی تحلیل شده انجام میدهد و آنها را به مناطق پردازش جریان شکمیمیفرستد تا تشخیص اشیا را تسهیل کند.
The MEG response on trials when the object was recognized was compared to trials in which the same object was not recognized. The researchers found that when the object was recognized (versus when it was not), activation occurred in the frontal regions 50 ms earlier than in the regions of the temporal cortex involved with object recognition (Figure 6.22).
پاسخ MEG در کارآزماییها زمانی که شی شناسایی شد با کارآزماییهایی مقایسه شد که در آن شیء مشابه شناسایی نشد. محققان دریافتند که وقتی شی شناسایی شد (در مقایسه با زمانی که شناسایی نشد)، فعال سازی در نواحی جلویی ۵۰ میلی ثانیه زودتر از نواحی قشر گیجگاهی درگیر با تشخیص شی اتفاق میافتد (شکل ۶.۲۲).
Mind Reading: Decoding and Encoding Brain Signals
ذهن خوانی: رمزگشایی و رمزگذاری سیگنالهای مغزی
We have seen various ways in which scientists have explored specialization within the visual cortex by manipulating the input and measuring the response. These observations have led investigators to realize that it should, at least in principle, be possible to analyze the system in the opposite direction (Figure 6.23). That is, we should be able to look at someone’s brain activity and infer what the person is currently seeing (or has recently seen, assuming our measurements are delayed)- a form of mind reading. This idea is referred to as decoding: The brain activity provides the coded message, and the challenge is to decipher it and infer what is being represented.
ما روشهای مختلفی را دیدهایم که در آن دانشمندان با دستکاری ورودی و اندازهگیری پاسخ، تخصص را در قشر بینایی کشف کردهاند. این مشاهدات محققین را به درک این نکته سوق داده است که حداقل در اصل باید بتوان سیستم را در جهت مخالف تجزیه و تحلیل کرد (شکل ۶.۲۳). یعنی، ما باید بتوانیم به فعالیت مغز یک فرد نگاه کنیم و آنچه را که فرد در حال حاضر میبیند (یا اخیراً دیده است، با فرض اینکه اندازهگیریهای ما به تأخیر افتاده است) را استنباط کنیم – نوعی خواندن ذهن. این ایده به عنوان رمزگشایی شناخته میشود: فعالیت مغز پیام رمزگذاری شده را ارائه میدهد و چالش رمزگشایی آن و استنباط چیزی است که نشان داده میشود.
A consideration of the computational challenges of decoding raises two key issues. One is that our ability to decode mental states is limited by our models of how the brain encodes information-that is, how information is represented in different cells or regions of the brain. Developing good hypotheses about the types of information represented in different cortical areas will help us make inferences when we attempt to build a brain decoder. To take an extreme example, if we didn’t know that the occipital lobe was responsive to visual input, it would be very hard to look at the activity in the occipital lobe and make inferences about what the person was currently doing. Similarly, having a good model of what different regions represent-for example, that a high level of activity in V5 is correlated with motion perception- can be a powerful constraint on the predictions we make of what the person is seeing.
در نظر گرفتن چالشهای محاسباتی رمزگشایی دو موضوع کلیدی را مطرح میکند. یکی این است که توانایی ما برای رمزگشایی حالات ذهنی توسط مدلهای ما در مورد نحوه رمزگذاری اطلاعات توسط مغز محدود میشود – یعنی نحوه نمایش اطلاعات در سلولها یا مناطق مختلف مغز. ایجاد فرضیههای خوب در مورد انواع اطلاعات ارائه شده در نواحی مختلف قشر مغز به ما کمک میکند تا زمانی که سعی میکنیم یک رمزگشای مغزی بسازیم استنتاج کنیم. برای مثال افراطی، اگر نمیدانستیم که لوب اکسیپیتال به ورودی بصری پاسخ میدهد، نگاه کردن به فعالیت در لوب پس سری و استنباط در مورد کاری که فرد در حال حاضر انجام میدهد بسیار سخت خواهد بود. به طور مشابه، داشتن یک مدل خوب از آنچه مناطق مختلف نشان میدهند – به عنوان مثال، اینکه سطح بالای فعالیت در V5 با درک حرکت مرتبط است – میتواند یک محدودیت قوی برای پیشبینیهایی باشد که ما از آنچه فرد میبیند انجام میدهیم.
FIGURE 6.22 The frontal lobe aids in object recognition. (a) The estimated cortical activation at different latencies from stimulus onset. Differential activation (recognized versus not recognized) peaked in the left orbitofrontal cortex (OFC) 130 ms from stimulus onset, 50 ms before it peaked in recognition-related regions in the temporal cortex. Yellow indicates the greatest activity. (b) MEG traces, showing the responses to objects. Current and statistical values on the y-axis are presented in absolute, unsigned units. LH = left hemisphere; RH = right hemisphere.
شکل ۶.۲۲ لوب فرونتال به تشخیص اشیا کمک میکند. (الف) تخمین زده شده فعال شدن قشر مغز در زمانهای مختلف از شروع محرک. فعال سازی افتراقی (تشخیص داده شده در مقابل شناسایی نشده) در قشر اوربیتو فرونتال چپ (OFC) 130 میلی ثانیه از شروع محرک به اوج خود رسید، ۵۰ میلی ثانیه قبل از اینکه در مناطق مربوط به تشخیص در قشر تمپورال به اوج خود برسد. زرد نشان دهنده بیشترین فعالیت است. (ب) آثار MEG، نشان دهنده پاسخ به اشیاء. مقادیر جاری و آماری روی محور y به صورت واحدهای مطلق و بدون علامت ارائه شده است. LH = نیمکره چپ؛ RH = نیمکره راست.
The second issue is technical: Our ability to decode will be limited by the resolution of our measurement system. With EEG, we have excellent temporal resolution but poor spatial resolution, both because electrical signals disperse and because we have a limited number of sensors. Spatial resolution is better with fMRI, but here temporal resolution is quite crude. Mind reading is not all that useful if the person has to maintain the same thought for, say, 10 or 20 seconds before we get a good read on her thoughts. Perception is a rapid, fluid process. A good mind-reading system should be able to operate at similar speeds.
موضوع دوم فنی است: توانایی ما برای رمزگشایی با وضوح سیستم اندازه گیری ما محدود خواهد شد. با EEG، وضوح زمانی عالی اما وضوح فضایی ضعیفی داریم، هم به این دلیل که سیگنالهای الکتریکی پراکنده میشوند و هم به دلیل اینکه تعداد محدودی سنسور داریم. وضوح فضایی با fMRI بهتر است، اما در اینجا وضوح زمانی کاملاً خام است. اگر فرد مجبور باشد مثلاً ۱۰ یا ۲۰ ثانیه قبل از اینکه افکار او را خوب مطالعه کنیم، ذهن خوانی چندان مفید نیست. ادراک فرآیندی سریع و روان است. یک سیستم ذهن خوانی خوب باید بتواند با سرعتهای مشابه کار کند.
FIGURE 6.23 Encoding and decoding neural activity.
Encoding refers to the problem of how stimulus features are represented in neural activity. The image is processed by the sensory system, and the scientist wants to predict the resulting BOLD activity. Decoding (or mind reading) refers to the problem of predicting the stimulus that is being viewed when a particular brain state is observed. In fMRI decoding, the BOLD activity is used to predict the stimulus being observed by the participant. Successful encoding and decoding require having an accurate hypothesis of how information is represented in the brain (feature space).
شکل ۶.۲۳ رمزگذاری و رمزگشایی فعالیت عصبی.
رمزگذاری به مسئله چگونگی نمایش ویژگیهای محرک در فعالیت عصبی اشاره دارد. تصویر توسط سیستم حسی پردازش میشود و دانشمند میخواهد فعالیت BOLD حاصل را پیش بینی کند. رمزگشایی (یا ذهن خوانی) به مشکل پیش بینی محرکی اشاره دارد که در هنگام مشاهده یک حالت خاص مغز مشاهده میشود. در رمزگشایی fMRI، فعالیت BOLD برای پیشبینی محرک مشاهده شده توسط شرکتکننده استفاده میشود. رمزگذاری و رمزگشایی موفق مستلزم داشتن یک فرضیه دقیق از نحوه نمایش اطلاعات در مغز (فضای ویژگی) است.
How do we build a complex encoding model that operates at the level of the voxel or EEG electrode? One approach is to start with an educated guess. For example, in the visual system we could start by characterizing voxels in early visual processing areas that have tuning properties similar to what is seen with individual neurons—things like edges, orientation, and size. Keep in mind that each voxel contains hundreds of thousands, if not millions, of neurons, and that the neurons within one voxel will have different tuning profiles (e.g., for line orientation, some will be tuned for horizontal, vertical, or some other angle). Fortunately, having the same tuning profiles isn’t essential. The essential thing is that voxels show detectable differences in their aggregate responses along these dimensions. That is, one voxel might contain more neurons that are tuned to horizontal lines, while another voxel has more neurons tuned to vertical lines.
چگونه یک مدل رمزگذاری پیچیده بسازیم که در سطح الکترود وکسل یا EEG عمل کند؟ یک رویکرد این است که با یک حدس تحصیلی شروع کنید. به عنوان مثال، در سیستم بینایی میتوانیم با مشخص کردن وکسلها در نواحی پردازش بصری اولیه که دارای ویژگیهای تنظیمیمشابه آنچه در نورونهای منفرد دیده میشود، شروع کنیم – چیزهایی مانند لبهها، جهتگیری و اندازه. به خاطر داشته باشید که هر وکسل حاوی صدها هزار، اگر نگوییم میلیونها، نورون است، و نورونهای درون یک وکسل پروفایلهای تنظیم متفاوتی خواهند داشت (به عنوان مثال، برای جهتگیری خط، برخی برای افقی، عمودی یا زاویهای دیگر تنظیم میشوند). خوشبختانه داشتن پروفایلهای تنظیم یکسان ضروری نیست. نکته اساسی این است که وکسلها تفاوتهای قابل تشخیصی را در پاسخهای جمعی خود در طول این ابعاد نشان میدهند. به این معنا که یک وکسل ممکن است حاوی تعداد بیشتری نورون باشد که روی خطوط افقی تنظیم شده اند، در حالی که وکسل دیگر نورونهای بیشتری دارد که روی خطوط عمودی تنظیم شده اند.
Jack Gallant and his colleagues at UC Berkeley set out to build an encoding model based on these ideas (Kay et al., 2008). Recognizing the challenge of characterizing individual voxels, they opted against the standard experimental procedure of testing 15 to 20 naive participants for an hour each. Instead, they had two highly motivated people (ie., two of the authors of the paper) lie in the MRI scanner for many hours, looking repeatedly at a set of 1,750 natural images. To further improve the spatial resolution, the BOLD response was recorded only in areas V1, V2, and V3. From this large data set, the researchers constructed the “receptive field” of each voxel (Figure 6.24).
جک گالانت و همکارانش در دانشگاه کالیفرنیا برکلی تصمیم گرفتند تا یک مدل رمزگذاری بر اساس این ایدهها بسازند (کی و همکاران، ۲۰۰۸). آنها با درک چالش مشخص کردن وکسلهای فردی، روش آزمایشی استاندارد آزمایش ۱۵ تا ۲۰ شرکت کننده ساده لوح را برای هر یک ساعت انتخاب کردند. در عوض، آنها دو نفر با انگیزه بالا (یعنی دو نفر از نویسندگان مقاله) داشتند که ساعتهای زیادی در اسکنر MRI دراز کشیدند و به طور مکرر به مجموعهای از ۱۷۵۰ تصویر طبیعی نگاه کردند. برای بهبود بیشتر وضوح فضایی، پاسخ BOLD فقط در مناطق V1، V2 و V3 ثبت شد. از این مجموعه داده بزرگ، محققان “میدان پذیرنده” هر وکسل را ساختند (شکل ۶.۲۴).
They were then ready for the critical test. The participants were shown a set of 120 new images-images that had not been used to construct the encoding model. The BOLD response in each voxel was measured for each of the 120 images. From these hemodynamic signals, the decoder was asked to reconstruct the image. To test the accuracy of the decoded prediction, the researchers compared the predicted image to the actual image. They also quantified the results by determining the best match between the predicted image and the full set of 120 novel images.
آنها سپس برای آزمون حساس آماده شدند. به شرکت کنندگان مجموعه ای از ۱۲۰ تصویر-تصویر جدید نشان داده شد که برای ساخت مدل رمزگذاری استفاده نشده بود. پاسخ BOLD در هر وکسل برای هر یک از ۱۲۰ تصویر اندازهگیری شد. از این سیگنالهای همودینامیک، از رمزگشا خواسته شد تا تصویر را بازسازی کند. برای آزمایش دقت پیشبینی رمزگشایی شده، محققان تصویر پیشبینیشده را با تصویر واقعی مقایسه کردند. آنها همچنین نتایج را با تعیین بهترین تطابق بین تصویر پیشبینیشده و مجموعه کامل ۱۲۰ تصویر جدید، کمیکردند.
FIGURE 6.24 Using an encoding model to decode brain activity to natural images.
(a) Receptive-field encoding model of voxels in human V1. After the BOLD response to thousands of images is recorded, the receptive field of each voxel in V1 can be characterized by three dimensions: location, orientation, and size. Note that each voxel reflects the activity of millions of neurons, but over the population, there remains some tuning for these dimensions. The heat map on the right side shows the relative response strength for one voxel to stimuli of different sizes (or, technically, spatial frequencies) and orientations. The resulting tuning functions are shown below the heat map. This process is repeated for each voxel to create the full encoding model. (b) Mind reading by decoding fMRI activity to visual images. (1) An image is presented to the participant, and the BOLD response is measured at each voxel. (2) The predicted BOLD response across the set of voxels is calculated for each image in the set. (3) The observed BOLD response from Step 1 is compared to all of the predicted BOLD responses, and the image with the best match is identified. If the match involves the same stimulus as the one shown, then the encoder is successful on that trial (as shown here).
شکل ۶.۲۴ استفاده از یک مدل رمزگذاری برای رمزگشایی فعالیت مغز به تصاویر طبیعی.
(الف) مدل رمزگذاری میدان گیرنده وکسل در V1 انسانی. پس از ثبت پاسخ BOLD به هزاران تصویر، میدان دریافتی هر وکسل در V1 را میتوان با سه بعد مشخص کرد: مکان، جهت و اندازه. توجه داشته باشید که هر وکسل فعالیت میلیونها نورون را منعکس میکند، اما در کل جمعیت، مقداری تنظیم برای این ابعاد وجود دارد. نقشه حرارتی در سمت راست، قدرت پاسخ نسبی یک وکسل به محرکهایی با اندازههای مختلف (یا از نظر فنی، فرکانسهای فضایی) و جهتگیری را نشان میدهد. عملکردهای تنظیم به دست آمده در زیر نقشه حرارتی نشان داده شده است. این فرآیند برای هر وکسل برای ایجاد مدل رمزگذاری کامل تکرار میشود. (ب) ذهن خوانی با رمزگشایی فعالیت fMRI به تصاویر بصری. (۱) یک تصویر به شرکت کننده ارائه میشود و پاسخ BOLD در هر وکسل اندازه گیری میشود. (۲) پاسخ BOLD پیش بینی شده در مجموعه وکسلها برای هر تصویر در مجموعه محاسبه میشود. (۳) پاسخ BOLD مشاهده شده از مرحله ۱ با تمام پاسخهای BOLD پیش بینی شده مقایسه میشود و تصویری که بهترین تطابق را دارد شناسایی میشود. اگر تطابق شامل همان محرکی باشد که نشان داده شده است، رمزگذار در آن آزمایش موفق است (همانطور که در اینجا نشان داده شده است).
FIGURE 6.25 Accuracy of the brain decoder.
Rather than just choosing the best match, the correlation coefficient can be calculated between the measured BOLD response for each image and the predicted BOLD response. For the 120 images, the best predictors almost always matched the actual stimulus, as indicated by the bright colors along the major diagonal.
شکل ۶.۲۵ دقت رمزگشای مغز.
به جای انتخاب بهترین تطابق، ضریب همبستگی را میتوان بین پاسخ BOLD اندازه گیری شده برای هر تصویر و پاسخ BOLD پیش بینی شده محاسبه کرد. برای ۱۲۰ تصویر، بهترین پیشبینیکنندهها تقریباً همیشه با محرک واقعی مطابقت داشتند، همانطور که با رنگهای روشن در امتداد قطر اصلی نشان داده میشود.
The results were stunning (Figure 6.25). For one of the participants, the decoding model was accurate in picking the exact match for 92% of the stimuli. For the other, the decoder was accurate for 72% of the stimuli. If the decoder were acting randomly, an exact match would be expected for only 8% of the stimuli. As the Gallant research team likes to say, the experiment was similar to a magician performing a card trick: “Pick a card (or picture) from the deck, show me the BOLD response to that picture, and I’ll tell you what picture you are looking at.” No sleight of hand involved here-just good clean fMRI data.
نتایج خیره کننده بود (شکل ۶.۲۵). برای یکی از شرکت کنندگان، مدل رمزگشایی در انتخاب تطابق دقیق برای ۹۲٪ از محرکها دقیق بود. برای دیگری، رمزگشا برای ۷۲ درصد از محرکها دقیق بود. اگر رمزگشا به صورت تصادفی عمل میکرد، تنها برای ۸ درصد از محرکها یک تطابق دقیق انتظار میرفت. همانطور که تیم تحقیقاتی گالانت دوست دارد بگوید، آزمایش شبیه به یک شعبده باز بود که یک ترفند کارت را انجام میداد: “یک کارت (یا تصویر) را از روی عرشه انتخاب کنید، پاسخ جسارت به آن تصویر را به من نشان دهید، و من به شما میگویم که به چه تصویری نگاه میکنید.” در اینجا هیچ سهل انگاری وجود ندارد – فقط دادههای fMRI تمیز خوب.
As impressive as this preliminary study might be, we should remain skeptical that it constitutes real mind reading. The stimulation conditions were still highly artificial, owing to the successive presentation of a set of static images. Moreover, the encoding model was quite limited, restricted to representations of relatively simple visual features. An alternative coding scheme should build on our knowledge of how information is represented in higher-order visual areas, areas that are sensitive to more complex properties, such as places and faces. The encoding model here could be based on more than the physical properties of a stimulus. It could also incorporate semantic properties, such as “Does the stimulus contain a fruit?” or “Is a person present?”
هر چقدر هم که این مطالعه مقدماتی تأثیرگذار باشد، باید شک داشته باشیم که این مطالعه ذهنی واقعی را تشکیل میدهد. شرایط تحریک به دلیل ارائه متوالی مجموعه ای از تصاویر استاتیک هنوز بسیار مصنوعی بود. علاوه بر این، مدل رمزگذاری کاملاً محدود بود و محدود به نمایش ویژگیهای بصری نسبتاً ساده بود. یک طرح کدگذاری جایگزین باید بر دانش ما از نحوه نمایش اطلاعات در مناطق بصری درجه بالاتر، مناطقی که به ویژگیهای پیچیده تر، مانند مکانها و چهرهها حساس هستند، بنا شود. مدل رمزگذاری در اینجا میتواند بر اساس بیشتر از ویژگیهای فیزیکی یک محرک باشد. همچنین میتواند دارای ویژگیهای معنایی باشد، مانند “آیا محرک حاوی میوه است؟” یا “آیا شخصی حضور دارد؟”
To build a more comprehensive model, Gallant’s lab combined two representational schemes. For early visual areas like V1, they used a model based on the receptive- field properties (as in Figure 6.24a). For higher visual areas, each voxel was modeled in terms of semantic properties whereby the BOLD response was based on the presence or absence of different features (Figure 6.26). In this way, the researchers sought to develop a general model that could be tested with an infinite set of stimuli, akin to the task that our visual system faces.
برای ساخت یک مدل جامع تر، آزمایشگاه گالانت دو طرح بازنمایی را ترکیب کرد. برای نواحی بصری اولیه مانند V1، آنها از مدلی بر اساس ویژگیهای میدان دریافتی (مانند شکل ۶.24a) استفاده کردند. برای مناطق بصری بالاتر، هر وکسل از نظر ویژگیهای معنایی مدلسازی شد که به موجب آن پاسخ BOLD بر اساس وجود یا عدم وجود ویژگیهای مختلف بود (شکل ۶.۲۶). به این ترتیب، محققان به دنبال ایجاد یک مدل کلی بودند که میتوان آن را با مجموعهای از محرکهای بینهایت آزمایش کرد، شبیه به وظیفهای که سیستم بینایی ما با آن روبروست.
To develop the model, the stimuli were drawn from 6 million natural images, randomly selected from the Internet. This hybrid decoder was accurate in providing appropriate matches (Figure 6.27). It also proved informative in revealing the limitations of models that use only physical properties or only semantic properties (Huth et al., 2016). For example, when the physical model is used exclusively, it does well with information from the early visual areas but poorly with information from the higher visual areas. On the other hand, when the semantic model is used alone, it does well with the higher-order information but not as well with information from the early visual areas. When the two models are combined, the reconstructions (Figure 6.27b), although not completely accurate, reveal the essence of the image and are more accurate than either model alone.
برای توسعه این مدل، محرکها از ۶ میلیون تصویر طبیعی که به طور تصادفی از اینترنت انتخاب شده بودند، استخراج شد. این رمزگشای هیبریدی در ارائه تطابق مناسب دقیق بود (شکل ۶.۲۷). همچنین در آشکار کردن محدودیتهای مدلهایی که فقط از ویژگیهای فیزیکی یا فقط ویژگیهای معنایی استفاده میکنند، آموزنده بود (Huth et al., 2016). به عنوان مثال، زمانی که مدل فیزیکی به طور انحصاری استفاده میشود، با اطلاعات مربوط به نواحی بصری اولیه به خوبی عمل میکند، اما با اطلاعات مناطق بصری بالاتر عملکرد ضعیفی دارد. از سوی دیگر، زمانی که مدل معنایی به تنهایی استفاده میشود، با اطلاعات مرتبه بالاتر خوب عمل میکند، اما با اطلاعات مناطق بصری اولیه به خوبی عمل نمیکند. هنگامیکه این دو مدل با هم ترکیب میشوند، بازسازیها (شکل ۶.27b)، اگرچه کاملاً دقیق نیستند، ماهیت تصویر را آشکار میکنند و از هر مدل به تنهایی دقیق تر هستند.
The next step in this research was to add action to the encoding model. After all, the world and our visual experience are full of things that move. Because action is fast and fMRI is slow, the researchers had to give their encoding model the feature of motion, which is central to many regions of the brain. The test participants returned to the MRI scanner, this time to watch movie clips (Nishimoto et al., 2011).
گام بعدی در این تحقیق افزودن اقدام به مدل رمزگذاری بود. بالاخره دنیا و تجربه بصری ما پر از چیزهایی است که حرکت میکنند. از آنجایی که عمل سریع است و fMRI کند است، محققان مجبور شدند به مدل رمزگذاری خود ویژگی حرکت را بدهند، که در بسیاری از مناطق مغز مرکزی است. شرکت کنندگان در آزمون به اسکنر MRI بازگشتند، این بار برای تماشای کلیپهای فیلم (نیشیموتو و همکاران، ۲۰۱۱).
Reams of data were collected and used to build an elaborate encoding model. Then it was time for the decoding test. The participants watched new movies, and the decoder was used to generate continuous predictions. You can see the results at http://www.youtube.com /user/gallantlabucb. While it is mind-boggling to see the match between the actual, fast-paced movie and the predicted movie, based solely on the (sluggish) fMRI data, it is also informative to consider the obvious mismatches between the two. These mismatches (feedback!) help guide researchers as they construct the next generation of encoding-decoding models.
مجموعهای از دادهها جمعآوری شد و برای ساخت یک مدل رمزگذاری دقیق استفاده شد. سپس نوبت به تست رمزگشایی رسید. شرکتکنندگان فیلمهای جدیدی را تماشا کردند و از رمزگشا برای تولید پیشبینیهای مداوم استفاده شد. میتوانید نتایج را در http://www.youtube.com/user/gallantlabucb ببینید. در حالی که دیدن تطابق بین فیلم واقعی و سریع و فیلم پیشبینیشده، که صرفاً بر اساس دادههای fMRI (آهسته) است، گیجکننده است، در نظر گرفتن عدم تطابق آشکار بین این دو نیز آموزنده است. این عدم تطابقها (بازخورد!) به هدایت محققان در ساختن نسل بعدی مدلهای رمزگذاری-رمزگشایی کمک میکند.
One of the current goals of decoding research is to ask whether these methods can be used to decipher mental activity in the absence of actual sensory input, the ultimate challenge for mind reading. This would seem possible, given that fMRI activation patterns are similar whether people perceive objects or imagine them, even if the level of activity is much stronger in the former condition (e.g., Reddy et al., 2010). “Similar,” though, is a relatively superficial criterion, observed in terms of similar global patterns of activation. A much more challenging problem is to determine whether activation patterns during imagery have sufficient information to predict specific percepts.
یکی از اهداف فعلی تحقیق رمزگشایی این است که بپرسیم آیا میتوان از این روشها برای رمزگشایی فعالیت ذهنی در غیاب ورودی حسی واقعی استفاده کرد که چالش نهایی برای خواندن ذهن است. این امر ممکن به نظر میرسد، با توجه به اینکه الگوهای فعال سازی fMRI خواه افراد اشیاء را درک کنند یا تصور کنند مشابه هستند، حتی اگر سطح فعالیت در شرایط قبلی بسیار قوی تر باشد (به عنوان مثال، ردی و همکاران، ۲۰۱۰). هر چند “مشابه” یک معیار نسبتا سطحی است که از نظر الگوهای جهانی فعال سازی مشابه مشاهده میشود. مشکل بسیار چالش برانگیزتر این است که تعیین کنیم آیا الگوهای فعال سازی در طول تصویرسازی اطلاعات کافی برای پیش بینی ادراکات خاص دارند یا خیر.
FIGURE 6.26 Semantic representation of two voxels. Rather than using basic features such as size and orientation, the encoding model for voxels in higher- order visual areas incorporates semantic properties. The colors indicate the contribution of each feature to the BOLD response: Red indicates that the feature produced a greater-than-average BOLD response; blue indicates that the feature produced a less-than-average BOLD response. The size of each circle Indicates the strength of that effect. The parahippocampal voxel (a) is most activated when the scene contains artifacts such as tools and containers; the precuneus voxel (b) is most activated when the scene contains communicative carnivores.
شکل ۶.۲۶ بازنمایی معنایی دو وکسل. به جای استفاده از ویژگیهای اساسی مانند اندازه و جهت، مدل رمزگذاری برای وکسلها در مناطق بصری درجه بالاتر، ویژگیهای معنایی را در بر میگیرد. رنگها سهم هر ویژگی را در پاسخ BOLD نشان میدهند: قرمز نشان میدهد که این ویژگی یک پاسخ BOLD بیشتر از حد متوسط ایجاد میکند. آبی نشان میدهد که این ویژگی یک پاسخ BOLD کمتر از حد متوسط ایجاد میکند. اندازه هر دایره قدرت آن اثر را نشان میدهد. وکسل پاراهیپوکامپ (a) زمانی بیشتر فعال میشود که صحنه حاوی مصنوعاتی مانند ابزار و ظروف باشد. وکسل precuneus (b) زمانی فعال میشود که صحنه شامل گوشتخواران ارتباطی باشد.
FIGURE 6.27 Visual images using a hybrid encoding model.
(a) Representative natural images (out of a nearly infinite set) that were presented to the model. (b) The reconstructed images, based on a hybrid model of multivoxel responses across multiple visual areas. The model was developed by measurement of the BOLD response to a limited set of stimuli.
شکل ۶.۲۷ تصاویر بصری با استفاده از یک مدل کدگذاری ترکیبی.
(الف) تصاویر طبیعی نماینده (از یک مجموعه تقریبا بی نهایت) که به مدل ارائه شده است. (ب) تصاویر بازسازی شده، بر اساس یک مدل ترکیبی از پاسخهای چندوکسلی در چندین ناحیه بصری. این مدل با اندازه گیری پاسخ BOLD به مجموعه محدودی از محرکها توسعه یافت.
In one study of imagery, an encoding model was first created from representations limited to early-visual- area activities, with voxels sensitive to features such as retinotopic location, spatial frequency, and orientation (Naselaris et al., 2015). To generate this model, BOLD responses were obtained while the participants passively viewed 1,536 works of art. The researchers then asked the participants either to view or to imagine one of five paintings. As expected, the model was extremely accurate in identifying, from fMRI data, which of the five images the person was perceiving. But it also performed well above chance in decoding the imagined images. That is, it was possible to predict what the participant was thinking about, even in the absence of any sensory input!
در یک مطالعه از تصاویر، ابتدا یک مدل رمزگذاری از بازنماییهای محدود به فعالیتهای منطقه بصری اولیه، با وکسلهای حساس به ویژگیهایی مانند مکان رتینوتوپیک، فرکانس فضایی و جهتگیری ایجاد شد (ناسلاریس و همکاران، ۲۰۱۵). برای تولید این مدل، پاسخهای BOLD در حالی که شرکتکنندگان به طور منفعلانه ۱۵۳۶ اثر هنری را مشاهده کردند، به دست آمد. سپس محققان از شرکت کنندگان خواستند یکی از پنج نقاشی را ببینند یا تصور کنند. همانطور که انتظار میرفت، این مدل در تشخیص دادههای fMRI، که از پنج تصویری که شخص دریافت میکرد، بسیار دقیق بود. اما در رمزگشایی تصاویر تصور شده نیز بسیار بالاتر از شانس عمل کرد. یعنی میتوان پیشبینی کرد که شرکتکننده به چه چیزی فکر میکند، حتی در غیاب هر ورودی حسی!
This type of work opens up possibilities to tackle one of the great mysteries of the mind: the nature of dreams. As we’ve all experienced, it is very hard to describe the content of dreams, especially since we have to undergo a radical change in the state of consciousness (i.e., wake up!) to provide these reports. But a good decoder would avoid this problem.
این نوع کار فرصتهایی را برای مقابله با یکی از اسرار بزرگ ذهن باز میکند: ماهیت رویاها. همانطور که همه ما تجربه کردهایم، توصیف محتوای رویاها بسیار سخت است، به خصوص که برای ارائه این گزارشها باید دستخوش تغییری اساسی در وضعیت هوشیاری (یعنی بیدار شدن!) شویم. اما یک رسیور خوب از این مشکل جلوگیری میکند.
As a first step in this direction, Tomoyasu Horikawa and colleagues (2013) built a decoder based on their participants’ BOLD responses to images viewed when awake. Then, while the participants napped, simultaneous EEG and fMRI data were collected. The EEG data were used to indicate when the participants were in early-onset sleep Stage 1 or 2. At these points in time, the participants were awakened and asked to report their current dream (Figure 6.28a). Dream reports from sleep-onset awakenings share the features of dream frequency, length, and content with dream reports from REM sleep awakenings (Oudiette et al., 2012). Reports were taken during the sleep-onset period because it enabled the researchers to gather many observations during repeated awakenings. The dream reports were then compared to predictions generated from the BOLD activity just before the person was awakened. Focusing on a limited set of options (objects, scenes, people), the decoding model was successful in identifying the contents of the dreams (Figure 6.28b).
به عنوان اولین گام در این مسیر، تومویاسو هوریکاوا و همکارانش (۲۰۱۳) یک رمزگشا را بر اساس پاسخهای BOLD شرکت کنندگان خود به تصاویر مشاهده شده در هنگام بیداری ساختند. سپس، در حالی که شرکت کنندگان چرت میزدند، دادههای EEG و fMRI همزمان جمع آوری شد. از دادههای EEG برای نشان دادن زمانی که شرکتکنندگان در مرحله ۱ یا ۲ در خواب اولیه بودند استفاده شد. در این زمانها، شرکتکنندگان از خواب بیدار شدند و از آنها خواسته شد تا خواب فعلی خود را گزارش کنند (شکل ۶.28a). گزارشهای رویایی از بیداریهای شروع خواب، ویژگیهای فراوانی، طول و محتوای رویا را با گزارشهای رویایی از بیداریهای خواب REM مشترک است (Oudiette و همکاران، ۲۰۱۲). گزارشها در طول دوره شروع خواب گرفته شد، زیرا محققان را قادر میسازد تا مشاهدات زیادی را در طول بیداریهای مکرر جمعآوری کنند. سپس گزارشهای رویا با پیشبینیهای ایجاد شده از فعالیت BOLD درست قبل از بیدار شدن فرد مقایسه شد. با تمرکز بر مجموعه محدودی از گزینهها (اشیاء، صحنهها، افراد)، مدل رمزگشایی در شناسایی محتویات رویاها موفق بود (شکل ۶.28b).
While mind reading raises some thorny ethical problems (see Box 6.2), it also has pressing clinical applications. For example, mind reading has the potential to provide a new method of communication for people who have severe neurological conditions and are unable to speak, as we will explore in Chapter 14. And we will see in Chapter 8 that for individuals who are paralyzed or have lost the use of a limb, decoders can be used to control machines via so-called brain-machine interfaces.
در حالی که ذهن خوانی برخی از مشکلات اخلاقی خاردار را ایجاد میکند (به کادر ۶.۲ مراجعه کنید)، همچنین کاربردهای بالینی فوری دارد. به عنوان مثال، ذهن خوانی این پتانسیل را دارد که برای افرادی که دارای بیماریهای عصبی شدید و قادر به صحبت نیستند، روش جدیدی برای ارتباط فراهم کند، همانطور که در فصل ۱۴ بررسی خواهیم کرد. و در فصل ۸ خواهیم دید که برای افرادی که فلج هستند یا استفاده از اندام خود را از دست داده اند، میتوان از رمزگشاها برای کنترل ماشینها از طریق رابطهای به اصطلاح مغز و ماشین استفاده کرد.
FIGURE 6.28 Decoding dreams.
(a) Experimental setup. As participants slept, fMRI and EEG data were acquired. Participants were awakened during sleep Stage 1 or 2 (red dashed line), and they immediately reported the visual activity they had experienced just before awakening. The fMRI data acquired immediately before awakening were used as the input for main decoding analyses. Words that described visual objects or scenes (red letters) were extracted. Then, machine-learning decoders trained on fMRI responses to natural images were used to predict the visual contents of the dream. (b) Accuracy in decoding the content of dream reports, relative to the moment of awakening, with the gray region highlighting the last 9 seconds of sleep. Higher visual cortex (HVC) includes lateral occipital cortex, as well as the fusiform face area and parahippocampal place area (two regions we will discuss in the next section); lower visual cortex (LVC) includes V1, V2, and V3. “All” indicates the decoding performance on a test set including all of the data, whereas the “Selected” set is limited to the items that were reported most frequently.
شکل ۶.۲۸ رمزگشایی رویاها.
(الف) راه اندازی آزمایشی. همانطور که شرکت کنندگان در خواب بودند، دادههای fMRI و EEG به دست آمد. شرکت کنندگان در مرحله ۱ یا ۲ خواب (خط چین قرمز) بیدار شدند و بلافاصله فعالیت بینایی را که درست قبل از بیدار شدن تجربه کرده بودند گزارش کردند. دادههای fMRI بهدستآمده بلافاصله قبل از بیداری به عنوان ورودی برای تحلیلهای رمزگشایی اصلی استفاده شد. کلماتی که اشیاء یا صحنههای بصری را توصیف میکردند (حروف قرمز) استخراج شدند. سپس، رمزگشاهای یادگیری ماشینی آموزش دیده بر روی پاسخهای fMRI به تصاویر طبیعی برای پیش بینی محتوای بصری رویا استفاده شدند. (ب) دقت در رمزگشایی محتوای گزارشهای رویا، نسبت به لحظه بیدار شدن، با منطقه خاکستری که ۹ ثانیه آخر خواب را برجسته میکند. قشر بینایی بالاتر (HVC) شامل قشر اکسیپیتال جانبی، و همچنین ناحیه صورت دوکی شکل و ناحیه محل پاراهیپوکامپ (دو ناحیه ای است که در بخش بعدی به آن خواهیم پرداخت). قشر بینایی پایین (LVC) شامل V1، V2 و V3 است. “همه” عملکرد رمزگشایی را در یک مجموعه آزمایشی شامل تمام دادهها نشان میدهد، در حالی که مجموعه “انتخاب شده” محدود به مواردی است که اغلب گزارش شده اند.
BOX 6.2 \ HOT SCIENCE
A Wild and Crazy Future for Mind Reading
کادر ۶.۲ \ علم داغ
آیندهای وحشی و دیوانهوار برای خواندن ذهن
Mind-reading methods provide a powerful tool for testing theories of perception, where researchers ask whether signals such as the BOLD response can be used to predict what a person is looking at or even imagining. Ongoing research has also demonstrated the extent to which neuroimaging methods can be used to develop functional maps of much more abstract domains of thought. Networks that are engaged when people are making social judgments, deliberating moral dilemmas, or having religious experiences have been identified. Other work has sought to characterize brain activity in atypical populations, such as the response of psychopaths to movies that depict violent behavior. Work in these areas has led to the development of brain maps of moral reasoning, judgment, deception, and emotions.
روشهای ذهنخوانی ابزار قدرتمندی برای آزمایش تئوریهای ادراک فراهم میکنند، جایی که محققان میپرسند آیا میتوان از سیگنالهایی مانند پاسخ BOLD برای پیشبینی آنچه که شخص به آن نگاه میکند یا حتی تصور میکند استفاده کرد یا خیر. تحقیقات در حال انجام همچنین نشان داده است که تا چه حد میتوان از روشهای تصویربرداری عصبی برای توسعه نقشههای عملکردی حوزههای بسیار انتزاعی فکری استفاده کرد. شبکههایی که هنگام قضاوتهای اجتماعی، بررسی معضلات اخلاقی یا داشتن تجربیات مذهبی درگیر هستند، شناسایی شدهاند. کار دیگری به دنبال مشخص کردن فعالیت مغز در جمعیتهای غیر معمول است، مانند واکنش روانپرستان به فیلمهایی که رفتار خشونتآمیز را به تصویر میکشند. کار در این زمینهها منجر به ایجاد نقشههای مغزی از استدلال اخلاقی، قضاوت، فریب و احساسات شده است.
We can envision that, with sophisticated models, the pattern of activity across these maps might reveal an individual’s preferences, attitudes, or thoughts. Mind reading with these goals sounds like the plot of a bad movie-and certainly these ideas, if realized, are brimming with ethical issues. At the core of these concerns is the scenario under which a person’s thoughts could be accurately determined from examination of the activity in that person’s brain in response to various stimuli.
میتوانیم تصور کنیم که با مدلهای پیچیده، الگوی فعالیت در این نقشهها ممکن است ترجیحات، نگرشها یا افکار یک فرد را نشان دهد. ذهن خوانی با این اهداف شبیه طرح یک فیلم بد به نظر میرسد – و مطمئناً این ایدهها، در صورت تحقق، مملو از مسائل اخلاقی هستند. هسته اصلی این نگرانیها سناریویی است که تحت آن میتوان افکار یک فرد را از بررسی فعالیت مغز آن فرد در پاسخ به محرکهای مختلف به طور دقیق تعیین کرد.
What standard would be required to determine that the mind-reading signals were reliable (Illes & Racine, 2005)? Surely we would not want to apply the p = .05 convention that is used in many scientific studies; for example, if we were to use mind-reading methods to determine psychopathic tendencies, we would not accept a misdiagnosis in one out of 20 cases. In addition, we would have to keep in mind that mind reading is inherently correlational.
چه استانداردی برای تعیین قابل اعتماد بودن سیگنالهای ذهن خوان مورد نیاز است (ایلز و راسین، ۲۰۰۵)؟ مطمئناً ما نمیخواهیم قرارداد p = 0.05 را که در بسیاری از مطالعات علمیاستفاده میشود، اعمال کنیم. برای مثال، اگر بخواهیم از روشهای ذهنخوانی برای تعیین گرایشهای روانپریشی استفاده کنیم، از هر ۲۰ مورد، یک تشخیص اشتباه را نمیپذیریم. علاوه بر این، باید در نظر داشته باشیم که ذهن خوانی ذاتاً همبستگی است.
Assuming, however, that such determinations could be made and would be accurate, the issue remains that people believe their thoughts are private and confidential. So, what do we need to consider if it becomes possible to decode people’s thoughts without their consent or against their will? Are there circumstances in which private thoughts should be made public? For example, should a person’s thoughts be admissible in court, just as DNA evidence now can be? Should a jury have access to the thoughts of child molesters, murder defendants, or terrorists or even witnesses to determine whether they are telling the truth or have a false memory? Should interviewers have access to the thoughts of applicants for jobs that involve children or for police or other security work? And who else should have access to this information?
با این حال، با فرض اینکه چنین تصمیماتی میتواند انجام شود و میتواند دقیق باشد، مسئله همچنان این است که مردم معتقدند افکار آنها خصوصی و محرمانه است. بنابراین، اگر رمزگشایی از افکار مردم بدون رضایت آنها یا برخلاف میل آنها ممکن شود، چه چیزی را باید در نظر بگیریم؟ آیا شرایطی وجود دارد که در آن افکار خصوصی باید عمومیشوند؟ به عنوان مثال، آیا افکار یک فرد باید در دادگاه قابل پذیرش باشد، همانطور که اکنون شواهد DNA میتواند باشد؟ آیا هیئت منصفه باید به افکار کودک آزارها، متهمان قتل، یا تروریستها یا حتی شاهدان دسترسی داشته باشد تا تشخیص دهد که آیا آنها حقیقت را میگویند یا حافظه نادرستی دارند؟ آیا مصاحبهکنندگان باید به افکار متقاضیان مشاغلی که شامل کودکان یا پلیس یا سایر کارهای امنیتی است دسترسی داشته باشند؟ و چه کسی باید به این اطلاعات دسترسی داشته باشد؟
TAKE-HOME MESSAGES
پیامهای کلیدی
▪️ People perceive an object as a unified whole, not as an assemblage of bundles of features such as color, shape, and texture.
▪️ مردم یک شی را به عنوان یک کل واحد درک میکنند، نه به عنوان مجموعه ای از دسته ای از ویژگیها مانند رنگ، شکل و بافت.
▪️ The lateral occipital cortex is critical for recognition of an Visual object’s shape.
▪️ قشر اکسیپیتال جانبی برای تشخیص شکل جسم بصری حیاتی است.
▪️ The term grandmother cell has been coined to convey the notion that recognition arises from the activation of neurons that are finely tuned to specific stimuli. Ensemble theories, in contrast, hypothesize that recognition is the result of the collective activation of many neurons.
▪️ اصطلاح سلول مادربزرگ برای انتقال این مفهوم ابداع شده است که تشخیص از فعال شدن نورونهایی که به خوبی با محرکهای خاص تنظیم شده اند، ناشی میشود. در مقابل، نظریههای گروهی فرض میکنند که تشخیص نتیجه فعالسازی جمعی بسیاری از نورونها است.
▪️ Recent advances in artificial intelligence have shown how multilayered neural networks with massive connectivity may be ideal for extracting regularities in the environment-a key computation for recognition and categorization.
▪️ پیشرفتهای اخیر در هوش مصنوعی نشان داده است که چگونه شبکههای عصبی چندلایه با اتصال عظیم ممکن است برای استخراج قوانین در محیط ایده آل باشند – محاسبات کلیدی برای شناسایی و طبقه بندی.
▪️ Object recognition, especially of ambiguous stimuli, appears to be enhanced by top-down processes, including information provided from the frontal cortex based on a fast but crude analysis of the visual input.
▪️ به نظر میرسد که تشخیص اشیاء، به ویژه محرکهای مبهم، با فرآیندهای بالا به پایین، از جمله اطلاعات ارائه شده از قشر پیشانی بر اساس تجزیه و تحلیل سریع اما خام ورودی بینایی، افزایش مییابد.
▪️ Encoding models are used to predict the physiological response, such as the BOLD response, to a stimulus. Decoding models are used in the reverse manner, predicting the stimulus (or mental state) from a physiological response such as the BOLD activity across a set of voxels.
▪️ مدلهای رمزگذاری برای پیش بینی پاسخ فیزیولوژیکی، مانند پاسخ BOLD، به یک محرک استفاده میشود. مدلهای رمزگشایی به صورت معکوس استفاده میشوند و محرک (یا وضعیت ذهنی) را از یک پاسخ فیزیولوژیکی مانند فعالیت BOLD در مجموعهای از وکسلها پیشبینی میکنند.
»» » تمامی کتاب