Conversation
|
Check out this pull request on See visual diffs & provide feedback on Jupyter Notebooks. Powered by ReviewNB |
|
[BN] Translation of Week6-03 lecture |
Atcold
left a comment
There was a problem hiding this comment.
I don't understand what's going on here.
Where is all the LaTeX in 06-1.md?
| --- | ||
| lang-ref: ch.06-1 | ||
| lecturer: Yann LeCun | ||
| title: Applications of Convolutional Network |
|
|
||
| <center> | ||
| <img src="{{site.baseurl}}/images/week06/06-1/8R3v0Dj.png" style="zoom: 30%; background-color:#DCDCDC;"/><br> | ||
| <b>Figure 2:</b> Face detection system |
|
|
||
| ##বিভিন্ন আকারের মুখাবয়বঃ সকল মুখের ছবি ৩০x৩০ পিক্সেলস হতে নাও পারে, সেক্ষেত্রে বিভিন্ন আকারের মুখের ছবি চিহ্নিত হতে না পারে। একটি উপায়ে এই সমস্যাটি উত্তরণ করা যেতে পারে, সেটি হচ্ছে একই চিত্রের বহু মাপের সংস্করণ বের করে। প্রকৃত ডিটেক্টরটি ৩০x৩০ পিক্সেলসের মুখাবয়ব চিহ্নিত করতে পারবে। মডেলটি আসল চিত্রে অপেক্ষাকৃত ছোট আকারের মুখ চিহ্নিত করতে পারবে যদি আনুপাতিক \sqrt 2 গুণক পরিমাণ আসল চিত্রে পরিবর্তন প্রয়োগ করা হয়, যাতে করে ৩০x৩০ পিক্সেলস প্রয়োগের পরবর্তীতে আনুমানিক ২০x20 পিক্সেলসে পরিবর্তিত হয়ে যায়। বড় আকারের মুখ চিহ্নিত করতে আমরা চিত্রের আকার ছোট করে ফেলতে পারি। এই পদ্ধতিটি প্রয়োগ সহজ, যেহেতু প্রয়োগের অর্ধেক অ্যালগোরিদমিক ব্যয় অপরিবর্তিত আসল চিত্রের প্রস্তুতিকরণে পিছে যায়। বাকি সব নেটওয়ার্কের সম্মিলিত প্রয়োগ খরচ অপরিবর্তিত আসল চিত্রের প্রক্রিয়ার খরচের সমান। নেটওয়ার্কের আকার আসল চিত্রের এক পাশের আকারের চতুর্গুন পরিমাণ, সেহেতু একটি চিত্রকে যদি \sqrt 2 গুণক পরিমাণ ছোট করা হয়, প্রয়োজনীয় নেটওয়ার্কের আয়তন দাঁড়াবে আসল নেটওয়ার্কের আকারের তুলনায় দ্বিগুণ ছোট। তাহলে সর্বমোট খরচ দাঁড়ায় ১+১/২+১/৪+১/৮+১/১৬... , ২। একটি বহু সংস্করণের মডেল প্রয়োগ করলে কম্পিউটেশনাল খরচ কেবল দ্বিগুণ হবে। | ||
|
|
||
| ### A multi-scale face detection system |
| </center> | ||
|
|
||
|
|
||
| ### Non-maximum suppression |
|
|
||
| <center> | ||
| <img src="{{site.baseurl}}/images/week06/06-1/5mM7dTT.png" style="zoom: 40%; background-color:#DCDCDC;"/><br> | ||
| <b>Figure 4:</b> CNN for Long Range Adaptive Robot Vision (DARPA LAGR program 2005-2008) |
There was a problem hiding this comment.
Checked all captions and added translation. Let me know if there's anything more left.
| 1. Take the same image, reduce it by the factor of 2 and a factor of 4, separately. | ||
| 2. These two extra rescaled images are fed to **the same ConvNet** (same weights, same kernels) and we get another two sets of Level 2 Features.--> | ||
| 3. **Upsample** these features so that they have the same size as the Level 2 Features of the original image. | ||
| 4. **Stack** the three sets of (upsampled) features together and feed them to a classifier. |
There was a problem hiding this comment.
These should be commented out?
| 1. Take the same image, reduce it by the factor of 2 and a factor of 4, separately. | |
| 2. These two extra rescaled images are fed to **the same ConvNet** (same weights, same kernels) and we get another two sets of Level 2 Features.--> | |
| 3. **Upsample** these features so that they have the same size as the Level 2 Features of the original image. | |
| 4. **Stack** the three sets of (upsampled) features together and feed them to a classifier. | |
| <!-- | |
| 1. Take the same image, reduce it by the factor of 2 and a factor of 4, separately. | |
| 2. These two extra rescaled images are fed to **the same ConvNet** (same weights, same kernels) and we get another two sets of Level 2 Features. | |
| 3. **Upsample** these features so that they have the same size as the Level 2 Features of the original image. | |
| 4. **Stack** the three sets of (upsampled) features together and feed them to a classifier. | |
| --> |
There was a problem hiding this comment.
I have commented out the portion.
| lang-ref: ch.06-2 | ||
| lecturer: Yann LeCun | ||
| title: RNNs, GRUs, LSTMs, Attention, Seq2Seq, and Memory Networks | ||
| authors: Jiayao Liu, Jialing Xu, Zhengyang Bian, Christina Dominguez |
| --- | ||
|
|
||
|
|
||
| ## [Deep Learning Architectures](https://www.youtube.com/watch?v=ycbMGyCPzvE&t=2620s) |
|
|
||
| <!--- **Different Face Size:** Not all faces are 30 $\times$ 30 pixels, so faces of differing sizes may not be detected. One way to handle this issue is to generate multi-scale versions of the same image. The original detector will detect faces around 30 $\times$ 30 pixels. If applying a scale on the image of factor $\sqrt 2$, the model will detect faces that were smaller in the original image since what was 30 $\times$ 30 is now 20 $\times$ 20 pixels roughly. To detect bigger faces, we can downsize the image. This process is inexpensive as half of the expense comes from processing the original non-scaled image. The sum of the expenses of all other networks combined is about the same as processing the original non-scaled image. The size of the network is the square of the size of the image on one side, so if you scale down the image by $\sqrt 2$, the network you need to run is smaller by a factor of 2. So the overall cost is $1+1/2+1/4+1/8+1/16…$, which is 2. Performing a multi-scale model only doubles the computational cost.--> | ||
|
|
||
| ##বিভিন্ন আকারের মুখাবয়বঃ সকল মুখের ছবি ৩০x৩০ পিক্সেলস হতে নাও পারে, সেক্ষেত্রে বিভিন্ন আকারের মুখের ছবি চিহ্নিত হতে না পারে। একটি উপায়ে এই সমস্যাটি উত্তরণ করা যেতে পারে, সেটি হচ্ছে একই চিত্রের বহু মাপের সংস্করণ বের করে। প্রকৃত ডিটেক্টরটি ৩০x৩০ পিক্সেলসের মুখাবয়ব চিহ্নিত করতে পারবে। মডেলটি আসল চিত্রে অপেক্ষাকৃত ছোট আকারের মুখ চিহ্নিত করতে পারবে যদি আনুপাতিক \sqrt 2 গুণক পরিমাণ আসল চিত্রে পরিবর্তন প্রয়োগ করা হয়, যাতে করে ৩০x৩০ পিক্সেলস প্রয়োগের পরবর্তীতে আনুমানিক ২০x20 পিক্সেলসে পরিবর্তিত হয়ে যায়। বড় আকারের মুখ চিহ্নিত করতে আমরা চিত্রের আকার ছোট করে ফেলতে পারি। এই পদ্ধতিটি প্রয়োগ সহজ, যেহেতু প্রয়োগের অর্ধেক অ্যালগোরিদমিক ব্যয় অপরিবর্তিত আসল চিত্রের প্রস্তুতিকরণে পিছে যায়। বাকি সব নেটওয়ার্কের সম্মিলিত প্রয়োগ খরচ অপরিবর্তিত আসল চিত্রের প্রক্রিয়ার খরচের সমান। নেটওয়ার্কের আকার আসল চিত্রের এক পাশের আকারের চতুর্গুন পরিমাণ, সেহেতু একটি চিত্রকে যদি \sqrt 2 গুণক পরিমাণ ছোট করা হয়, প্রয়োজনীয় নেটওয়ার্কের আয়তন দাঁড়াবে আসল নেটওয়ার্কের আকারের তুলনায় দ্বিগুণ ছোট। তাহলে সর্বমোট খরচ দাঁড়ায় ১+১/২+১/৪+১/৮+১/১৬... , ২। একটি বহু সংস্করণের মডেল প্রয়োগ করলে কম্পিউটেশনাল খরচ কেবল দ্বিগুণ হবে। |
There was a problem hiding this comment.
What happened with the LaTeX here???
There was a problem hiding this comment.
I had mistakenly converted the LaTex into Bangla too, modified it back to English.
Atcold
left a comment
There was a problem hiding this comment.
Please, don't leave English leftovers in the translation.
|
|
||
| <center> | ||
| <img src="{{site.baseurl}}/images/week06/06-1/O1IN3JD.png" style="zoom: 40%; background-color:#DCDCDC;"/><br> | ||
| <b>Figure 1:</b> Multiple classifiers on zip code recognition |
There was a problem hiding this comment.
I still see English here and in the captions below.
| --- | ||
|
|
||
|
|
||
| ## [Overview](https://www.youtube.com/watch?v=8cAffg2jaT0&t=21s) |
|
|
||
|
|
||
| ## [Overview](https://www.youtube.com/watch?v=8cAffg2jaT0&t=21s) | ||
| ## সার্বিক পরিদর্শন (https://www.youtube.com/watch?v=8cAffg2jaT0&t=21s) |
There was a problem hiding this comment.
Add [] to the title, so it becomes a link.
| <!--RNN is one type of architecture that we can use to deal with sequences of data. What is a sequence? From the CNN lesson, we learned that a signal can be either 1D, 2D or 3D depending on the domain. The domain is defined by what you are mapping from and what you are mapping to. Handling sequential data is basically dealing with 1D data since the domain is the temporal axis. Nevertheless, you can also use RNN to deal with 2D data, where you have two directions.--> | ||
| আরএনএন হল এক ধরণের আর্কিটেকচার যা আমরা ব্যবহার করতে পারি ডেটা সিক্যুয়েন্সগুলি নিয়ে কাজ করতে। ক্রম কি? সিএনএন পাঠ থেকে আমরা শিখেছি যে ডোমেনের উপর নির্ভর করে একটি সংকেত 1D, 2D বা 3D হতে পারে। আপনি কী থেকে ম্যাপিং করছেন এবং আপনি কী ম্যাপিং করছেন তা দ্বারা ডোমেনটি সংজ্ঞায়িত করা হয়। অনুক্রমিক ডেটা হ্যান্ডলিং মূলত 1D ডেটা নিয়ে কাজ করে যেহেতু ডোমেনটি অস্থায়ী অক্ষ হয়। তবুও, আপনি 2 ডি ডেটা ব্যবহার করতে আরএনএন ব্যবহার করতে পারেন, যেখানে আপনার দুটি দিক রয়েছে। | ||
|
|
||
| ### Vanilla *vs.* Recurrent NN |
There was a problem hiding this comment.
Same, why do we have 2 titles now?
Tasmin153
left a comment
There was a problem hiding this comment.
English leftovers and headers are fixed across all files, sorry for the inconvenience.
| <!--Convolutional neural networks perform well on detection tasks and face detection is no exception. To perform face detection we collect a dataset of images with faces and without faces, on which we train a convolutional net with a window size such as 30 $\times$ 30 pixels and ask the network to tell whether there is a face or not. Once trained, we apply the model to a new image and if there are faces roughly within a 30 $\times$ 30 pixel window, the convolutional net will light up the output at the corresponding locations. However, two problems exist.--> | ||
|
|
||
| ## [মুখাবয়ব সনাক্তকরণ](https://www.youtube.com/watch?v=ycbMGyCPzvE&t=1241s) | ||
| কনভলিউশনাল নিউরাল নেটওয়ার্ক সনাক্তকরণের কাজসমূহ ভালো ভাবে সম্পাদন করতে পারে এবং মুখাবয়ব সনাক্তকরণ এর আওতার বাইরে নয়। কাজটি সম্পন্ন করার জন্য আমরা মুখমণ্ডল সহ এবং মুখমণ্ডল ছাড়া স্থিরচিত্রের একটি ডেটাসেট সংগ্রহ করেছি, যেটার ওপর আমরা কনভলিউশনাল নেট ট্রেইন করব একটি নিরীক্ষণ পরিধি দিয়ে যার আয়তন হবে 30 $\times 30 পিক্সেলস এবং নেটওয়ার্কটিকে প্রশ্ন করা হবে পরীক্ষণিয় স্থিরচিত্রে মুখাবয়ব আছে কি নেই এর উত্তর দিতে। একবার ট্রেইনিং সম্পন্ন করার পর আমরা মডেলটিকে নতুন স্থিরচিত্রের উপর প্রয়োগ করব এবং যদি একটি 30 $\times 30 পিক্সেল পরিধির মধ্যে মুখাবয়বের উপস্থিতি থাকে সেক্ষেত্রে কনভলিউশনাল নেটটি সংশ্লিষ্ট স্থানে আউটপুটটিকে চিহ্নিত করে দিবে। তবে, এখানে দুটো সমস্যা আছেঃ |
There was a problem hiding this comment.
Did you use automatic translation?
The LaTeX is broken here as well.
Also, we need someone who does speak Bangla to review this PR.
There was a problem hiding this comment.
No I haven't used automatic translation, I just didn't check with rendered version until today, my bad!
I have contacted Khalid Saifullah personally to see if he is available to review.
| <!--To be specific, $z_t$ is a gating vector that determines how much of the past information should be passed along to the future. It applies a sigmoid function to the sum of two linear layers and a bias over the input $x_t$ and the previous state $h_{t-1}$. $z_t$ contains coefficients between 0 and 1 as a result of applying sigmoid. The final output state $h_t$ is a convex combination of $h_{t-1}$ and $\phi_h(W_hx_t + U_h(r_t\odot h_{t-1}) + b_h)$ via $z_t$. If the coefficient is 1, the current unit output is just a copy of the previous state and ignores the input (which is the default behaviour). If it is less than one, then it takes into account some new information from the input.--> | ||
| সুনির্দিষ্টভাবে বলতে গেলে, $z_t হল একটি গেটিং ভেক্টর যা নির্ধারণ করে যে অতীতের তথ্যগুলির কতটা ভবিষ্যতে পাঠাতে হবে। এটি দুটি লিনিয়ার স্তর এবং একটি ইনপুট $x_t$ এর উপর আপতিত বায়াসের সমষ্টি এবং পূর্ববর্তী স্টেট $h_{ t-1} এর জন্য একটি সিগময়েড ফাংশন প্রয়োগ করে। সিগময়েড প্রয়োগের ফলে $z_t$ এর সহগ 0 এবং 1 এর মধ্যে অবস্থিত। চূড়ান্ত আউটপুট স্টেট $h_t$ হল $h_{t-1}$ এবং $\phi_h(W_hx_t+ U_h(r_t\odot h_{t-1}) + b_h এর উত্তল সংমিশ্রণ $z_t$ এর মাধ্যমে। যদি সহগটি 1 হয়, বর্তমান ইউনিট আউটপুটটি পূর্ববর্তী স্টেটের কেবল একটি অনুলিপি এবং ইনপুটটিকে উপেক্ষা করে (এটি পূর্বনির্ধারিত আচরণ)। যদি এটির চেয়ে কম হয়, তবে এটি ইনপুট থেকে কিছু নতুন তথ্য গ্রহণ করে। | ||
| <!--The reset gate $r_t$ is used to decide how much of the past information to forget. In the new memory content $\phi_h(W_hx_t + U_h(r_t\odot h_{t-1}) + b_h)$, if the coefficient in $r_t$ is 0, then it stores none of the information from the past. If at the same time $z_t$ is 0, then the system is completely reset since $h_t$ would only look at the input.--> | ||
| রিসেট গেট $r_t$ অতীতের তথ্যকে কতটা ভুলে যেতে হবে তার সিদ্ধান্ত নিতে ব্যবহৃত হয়। নতুন মেমরি কনটেন্টে $phi_h(W_hx_t + U_h (r_t \ odot h_ {t-1}) + b_h)$, যদি $r_t$ এর সহগ 0 হয় তবে এটি অতীতের কোনও তথ্যই সঞ্চয় করে না। যদি একই সময়ে $z_t$ এর মাণ 0 হয়, তবে সিস্টেমটি পুরোপুরি পুনরায় সেট করা হয় যেহেতু $h_t$ কেবল ইনপুটকে দেখবে। |
There was a problem hiding this comment.
Broken LaTeX.
How is it that the math is constantly broken?
Did you check the rendered version of this PR?
| $$ | ||
|
|
||
| <!--When performing RNN on the first batch, firstly, we feed $x[1] = [a\ g\ m\ s]$ into RNN and force the output to be $y[1] = [b\ h\ n\ t]$. The hidden representation $h[1]$ will be sent forward into next time step to help the RNN predict $y[2]$ from $x[2]$. After sending $h[T-1]$ to the final set of $x[T]$ and $y[T]$, we cut gradient propagation process for both $h[T]$ and $h[0]$ so that gradients will not propagate infinitely(.detach() in Pytorch). The whole process is shown in figure below.--> | ||
| প্রথম ব্যাচে আরএনএন করার সময়, প্রথমত, আমরা আরএনএন-তে $x[1] = [a\ g\ m\s]$ ব্যবহার করি এবং আউটপুটকে $y [1] = [b\ h\n\ t]$ হতে বাধ্য করি। $x[2]$ থেকে $y[2]$ কে আরএনএন দ্বারা পূর্বাভাসে সহায়তা করার জন্য হিডেন উপস্থাপনা $h[1]$ টিকে পরবর্তী সময় ধাপে প্রেরণ করা হবে। $x[T]$ এবং $y[T]$ এর চূড়ান্ত সেটে $h[T-1]$ প্রেরণের পরে, আমরা $ h[T]$ এবং $h[0]$ উভয়ের জন্য গ্র্যাডিয়েন্ট প্রোপাগেশন প্রক্রিয়াটি কেটে দিলাম যাতে করে গ্র্যাডিয়েন্ট গুলো অসম্পূর্ণভাবে প্রোপাগেট করবে না (.detach () in Pytorch) । পুরো প্রক্রিয়াটি নীচের চিত্রে দেখানো হয়েছে। |
There was a problem hiding this comment.
More broken math?
Please, render your contribution and make sure it actually renders properly.
There was a problem hiding this comment.
Rendered and checked, I hope it's correct now.
|
Broken math fixes done, checked in rendered version this time. |
Translation of week-6 lecture-2.