31.Ñá´ ×¢µèÏØ (Corpus) (NEXT-CHAPTER PREV-CHAPTER CONTENTS)

31.1  Ñá´-×¢µèÏØ (corpus) ³èÍÚ Øâ 
31.2  Ñá´-×¢µèÏØ ³Ú ¨ÈÍåµ 
31.3  Ñá´ ×¢µèÏØ ³Ú ¨ÄÚØÏÁ 



31.1 Ñá´-×¢µèÏØ (corpus) ³èÍÚ Øâ ([31.2] [UP])

Ñá´-×¢µèÏØ ³Û×Ü ËÚÖÚ ÌᢠÑá´å¢ ÍÚ ÈÝ×èÂ³å¢ ³Ú (ÍÚ ¨Æ³á ¤¢Õå¢ ³Ú)
Ë¢¿ÚÏ Øâ. Íá Ñá´ ³Û×Ü ÔÛÕáÖ ÔÛÖÍ, Ñá´³ ÍÚ ³ÚÑ ¥ÄÛ ×á עʢÅÛ 
Øå ׳Âá Øâ¢. ¨ÄÚØÏÁ ³á ÑÛÍá ÈèÏá̸ÆèÄ ÄèÔÚÏÚ ÑÛ´Û Ñá´å¢ 
Ô ÈÝ×èÂ³å¢ (ÍÚ ¨Æ³á ¤¢Õå¢) ³á ×¢µèÏØ ³å ÈèÏá̸ÆèÄ Ñá´-×¢µèÏØ
³ØÚ ºÚ ׳ÂÚ Øâ. ¦×Ü ÈèϳÚÏ ÔèÍÚ³ÏÁ ×á עʢÅÛ Ñá´å¢ Ô ÈÝ×è³å¢
³á ¤¢Õå¢ ³á ×¢µèÏØ ³å ÔèÍÚ³ÏÁ Ñá´-×¢µèÏØ ³Ø ׳Âá Øâ¢.

¬³ ÈèϳÚÏ ×á ÍØ ¥ÕÚ ³Ü ºÚÂÜ Øâ ³Û Ñá´-×¢µèÏØ Ìᢠ×ÌèÌÛÑÛÂ
×Ú̵èÏÜ ¨× ÔÛÖÍ, Ñá´³ ¦ÂèÍÚÄÛ ³Ü ÈèÏÂÛÆÛÅÛ ØåµÜ.
¨ÄÚØÏÁÚÏèÃ, ×ÌÚ¸ÚÏ ÈÂèÏå¢ ³á Ñá´-×¢µèÏØ Ìᢠ×ÌèÌÛÑÛ ¤¢Õ ¦× ÈèϳÚÏ
×á ¸ÝÆá ºÚÍᢵᢠºÛ××á ¨×ÌᢠÈèϸÑÛ ×ÌÚ¸ÚÏ ÈÂèÏå¢ ³Ú
¨ÈÍݳè ÈèÏÂÛÆÛÅÛÂèÔ ØåµÚ. ¤Â£ Ñá´ ×¢µèÏØ ÊÆÚÆá ÔÚÑá ³å ×Ú̵èÏÜ
³Ú ×ÚÔÅÚÆÜ ×á ¸ÍÆ ³ÏÆÚ È¿ÂÚ Øâ.

ÍÄÛ Ñá´-×¢µèÏØ ³ÌèÈèÍÞ½Ï ÈÏ ¨ÈÑÊèÅ Øå Âå ¨×á ³ÌèÈèÍÞ½ÏܳßÂ
Ñá´-×¢µèÏØ ³ØÂá Øâ¢. ÍØÚ¡ ØÌ ³áÔÑ ¦×Ü ÈÏ ¸Ïè¸Ú ³Ïᢵá, ¤Â£
Ñá´-×¢µèÏØ ×á ØÌÚÏÚ ¤ËÛÈèÏÚÍ ³ÌèÈèÍÞ½Ïܳß Ñá´-×¢µèÏØ ØÜ ØåµÚ.



31.2 Ñá´-×¢µèÏØ ³Ú ¨ÈÍåµ ([31.3] [31.1] [UP])

Ñá´-×¢µèÏØ ³Ú ÈèÏÌÝ´ ¨ÈÍåµ ËÚÖÚ ³Ü ºÚƳÚÏÜ ÈèÏÚÈè ³ÏÆá,
¦×³Ú ÔÛÕèÑáÖÁ Ô ÕåÅ ³ÏÆá ÌᢠØåÂÚ Øâ. ¨ÄÚØÏÁ ³á ÂæÏ ÈÏ
ÍÄÛ ØÌ ØÛÆèÄÜ ³á ³Û×Ü Ñá´-×¢µèÏØ ³Ú ¨ÈÍåµ ³Ï³á ¨×ÌᢠÈèÏÍݳè 
×ËÜ ÕÊèÄå¢ ³Ü ×Þ¸Ü
ÊÆÚ ÑᢠÂå ØÌᢠÍØ ÈÂÚ Ñµ ׳ÂÚ ³Û ¦×Ìᢠ³æÆ ×á ÕÊèÄ
¥Âá Øâ¢. ÍÄÛ ×Úà ÌᢠÍØ ËÜ ÈèÏÄÏèÕÛ ³Ï Äᢠ³Û ÈèÏÂèÍá³ ÕÊèÄ
³ÛÂÆÜ ÊÚÏ ¥ÍÚ Øâ, Âå ¦×³å ÕÊèÄ frequency ×Þ¸Ü
³ØÚ ºÚ ׳ÂÚ Øâ. ¦× ÈèϳÚÏ ³Ü ×Þ¸Ü ÈÚ¾èÍ ÈÝ×èÂ³å¢ ³å
ÊÆÚÆá Ìᢠ¤Âè͢ ×ØÚͳ ØåÂÜ Øâ, ³èÍå¢³Û ¦Æ³Ü ×ØÚÍÂÚ ×á
ÈÝ×è³ ÊÆÚÂá ×ÌÍ 
¦× ÊÚ ³Ú ÅèÍÚÆ Ï´Ú ºÚ ׳ÂÚ Øâ ³Û ¤ÅÛ³ ÈèÏÍåµ Ìá¢
¥Æá ÔÚÑá ÕÊèÄ ÈØÑá ×Û´ÚÍá ºÚÍá¢.

¦× ÈèϳÚÏ ×á ÍÄÛ ÕÊèÄ-³åÕ ÊÆÚÆá ³á ÑÛÍá ³Û×Ü ÕÊèÄ
³á ÈèϸÑÆ ³å Äá´ÆÚ Øâ Âå Ñá´-×¢µèÏØ Ìᢠ×á ¨Æ ÔÚ³èÍå¢ ³å
ÆÛ³ÚÑ ³Ï Äá´Ú ºÚ ׳ÂÚ Øâ ºÛÆÌᢠÔØ ÕÊèÄ ÈèÏÍݳèÂ
ØÝ¥ Øâ. ¦× ÈèϳÚÏ ×á ÕÊèÄ ³á ËÛÆèÆ-ËÛÆèÆ ¤ÏèÃå¢ ³Ú 
¤ÅèÍÍÆ ³ÛÍÚ ºÚ ׳ÂÚ Øâ.

¬³ ¤ÆèÍ ¤ÆÝÈèÏÍåµ ³á ÑÛÍá, Ñá´-×¢µèÏØ Ìᢠºå ÕÊèÄ
ÈÏ×èÈÏ ×Úà Ìᢠ¥Âá Ø⢠¨Æ³å ºÚÆÆá ³á ÑÛÍá, ÕÊèÄ-¤ÆݳèÏÌ (word sequence) 
³Ü ×Þ¸Ü ÊÆÚÍÜ ºÚ ׳ÂÜ Øâ. ¦×³á ¤ÂÛÏÛ³è ¦Æ ¤ÆݳèÏÌå¢ ³Ü
frequency ËÜ ÆÛ³ÚÑÜ ºÚ ׳ÂÜ Øâ.
¦×³Ü ×ØÚÍÂÚ ×á ËÚÖÚ ×¢×ÚÅÆ ×¢Ê¢ÅÜ
¤Æá³ ÕåÅ ³ÚÏèÍ ³ÛÍá ºÚ ×³Âá Øâ¢.

³ÌèÈèÍÞ½Ïܳß ØåÆá ³á ³ÚÏÁ Ñá´-×¢µèÏØ Ìᢠ¨ÈÏå³è ³ÚÏèÍ ¥×ÚÆÜ
×á ³ÛÍá ºÚ ×³Âá Øâ¢. ³ÌèÈèÍÞ½Ï ÈèÏåµèÏÚÌ ³Ü ×ØÚÍÂÚ ×á Íá ×ËÜ
×Þ¸ÛÍÚ¡, ÌÚÆÔÜÍ Õ³èÂÛ ´Ïè¸ ³ÛÍá ÊÛÆÚ ØÜ ÂâÍÚÏ ³Ü ºÚ ׳ÂÜ Øâ¢.
ÍØÜ¢ ÆØÜ¢ ³Û×Ü ÔÛÕáÖ ÈèϳÚÏ ³Ü ×Þ¸Ü ³å ¥ÔÕèͳÂÚ ¤ÆÝ×ÚÏ
ÂâÍÚÏ ³ÛÍÚ ºÚ ׳ÂÚ Øâ.



31.3 Ñá´ ×¢µèÏØ ³Ú ¨ÄÚØÏÁ ([31.2] [UP])

ØÛÆèÄÜ ³Ú ¬³ 30 ÑÚ´ ÕÊèÄå¢ ³Ú Ñá´ ×¢µèÏØ ¥¦.¥¦.½Ü.
ÄÛÑèÑÜ ÄèÔÚÏÚ ËÚÏ ×ϳÚÏ ³á ¦Ñâ³è½èÏåÆÛ³ ÔÛËÚµ ³Ü ÔÛÂèÂÜÍ
×ØÚÍÂÚ ×á ÂâÍÚÏ ³ÛÍÚ µÍÚ Øâ.

³ÝÑ Ñá´ :- 1307

ÔÛÖÍÚÆÝ×ÚÏ Ñá´Ú-ºå´Ú :- 

ÆÌÞÆÚ Æܸá ÄÛÍÚ ºÚ ÏØÚ Øâ. ¦××á ÈÂÚ ¸ÑÂÚ Øâ ³Û
Ñá´ ×¢µèÏØ ÌᢠËÛÆèÆ-ËÛÆèÆ ÔÛÖÍå¢ Ô ¨È-ÔÛÖÍå¢ Ìᢠ³ÛÂÆá Ñá´ ÕÚÌÛÑ Øâ¢, 
ÂÃÚ ¨ÆÌᢠ³ÛÂÆá ÕÊèÄ ¦ÂèÍÚÄÛ Øâ¢.

   Classification Subject  word%     Bytes    Words   Lines Texts
  I             Aesthetics (   )
  I.a           Literature (42%)   6409013  1271802  130541   575
  I.a.1              Novel ( 6%)    760707   155142   12740    70
  I.a.2        Short story ( 6%)    812655   170681   15238    77
  I.a.3             Essays ( 6%)    843369   162762   12668    72
  I.a.4          Criticism ( 4%)    573731   106614   14497    43
  I.a.5             Humour ( 3%)    333247    66582    5412    28
  I.a.6           Children ( 5%)    752108   153112   14881    77
     ...
  I.b            Fine Arts ( 4%)    506763    95629    9135    40
     ...
  II       Social Sciences (   )
  II.1           Sociology ( 3%)    418884    78441    6519    31
  II.2         Linguistics ( 3%)    369413    66160    6138    29
  II.3          Psychology ( 3%)    382456    72361    7387    30
     ...
  III      Natural, Physic (   )
     ...
  III.8          Chemistry ( 1%)    145152    26152    2536     9
  III.14          Ayurveda ( 2%)    206707    37676    3537    15
     ...
  IV              Commerce ( 3%)    418665    72782    7237    30
     ...
  V     Official and Media (27%)   4274211   811681   72431   328
     ...
  VI           Translated  ( 3%)    432930    87233    9048    34
     ...

×Ì×è Ñá´ ×¢µèÏØ Ìᢠ³ÝÑ ÕÊèÄ :- 30,97,668

³ÝÑ ËÛÆèÆ ÕÊèÄ :-          1,20,277

ËÛÆèÆ ÕÊèÄ frequency ³á ¥ÅÚÏ ÈÏ:- 

ÈØÑá 20 ×ÏèÔÚÅÛ³ ÈèÏÍݳè ÕÊèÄ Æܸá
ÄÛÍá µÍá Øâ¢, frequency ³á ×ÚÃ. ÍØÚ¡ frequency ×á ÂÚÂèÈÏèÍ ÍØ Øâ ³Û ÔØ
ÕÊèÄ ×¢ÈÞÏèÁ Ñá´-×¢µèÏØ Ìᢠ³ÛÂÆÜ ÊÚÏ ÈèÏÍݳè ØÝ¥ Øâ. ¨ÄÚØÏÁ ³á ÂæÏ ÈÏ
'³á' ÕÊèÄ 1,03,216 ÊÚÏ ÈèÏÍåµ Ìᢠ¥ÍÚ Øâ.

  103216 ³á
  87459 Øâ
  81128 퇢
  70685 ³Ü
  52507 ×á
  51630 ±Ï
  47541 ³Ú
  43075 ³å
  32438 Øâ¢
  29251 ÈÏ
  28067 ËÜ
  26270 ÆØÜ¢
  24800 ³Û
  23185 ¬³
  22507 ØÜ
  20525 ÃÚ
  20370 Âå
  20033 Øå
  19144 Æá
  17025 ÍØ

¬³ Ñá´ ³Ú ¨ÄÚØÏÁ :-

¬³ Ñá´ ³Ú ¤¢Õ ÆÌÞÆá ³á ÂæÏ ÈÏ ÄÛÍÚ µÍÚ Øâ. ÕÝÏÞ ÌᢠÑᢴ ³Ú ÔÛÖÍ,
¨ÈÔÛÖÍ, Ñá´³ ³Ú ÆÚÌ, ÈÝ×è³ ³Ú ÆÚÌ, ÈèϳÚÕ³ ³Ú ÆÚÌ, ¦ÂèÍÚÄÛ ³á ÊÚÄ
ÄÜ µÍÜ Øâ ÈßÖè¾ ×¢. ºå ³Û Ñá´ ×¢µèÏØ ÌᢠÕÚÌÛÑ Øâ.

  
  
  
  
  <1984>
  
  
  <122-129>
  <2200>
  
  
  <+ ÕÚÌ ³á ×Ú ʺá ³ ³å§ ÔÛÕáÖ ÊÚ ÆØÜ¢ ØÝ§ê ¨× ×ÌÍ Â³ ÄÛÆ ÊØÝ ³Ý¹
  Ôâ×Ú ØÜ ÃÚ, ºâ×á ÄÛÆ ÕÛÕÛÏ ³Ü ³ØÚÆÜ ¥ÏÌèË ØåÆá ³á ÈÞÏèÔ ØÝ¥ ³ÏÂá Ãáê
  ¨¾Ü Âå ¤ÆºÚÆá ³å§ ÅÝÆ µÝƵÝÆÚ ÏØÜ ÃÜê ʸè¸å¢ ³å ÆØÑÚÍÚ, Äå ¶¢½á ¨ÆèØá¢
  ÈÀéÚÍÚ ±Ï Éâ×ÑÚ ³ÛÍÚ ³Û ³Ý¹ ËÜ Øå ³Ì-×á-³Ì Äå ¶¢½á ¨ÆèØᢠÈÀéÚ-~©¡µÜê ÌÛ×áºé
  ¬¢¿Ñá ×á ÈÞ¹Ú ³Û ¨Æ³á ʸè¸á ³Û× ×è³ÞÑ ÌᢠÈÀéÂá Øâ¢ê ¬³ ÄÛÆ ºÚ³Ï Äá´ ¥©¡µÜê
  Ñá´Ú ³á ÈÛÂÚºÜ ³å Ìâ¢Æá ³Ý¹ ºÑèÄÜ ¥Æá ³á ÑÛ¬ ³ØÚ ÃÚê ÔØ ¥¾ ʺá ÑÚ¦ÊèÏáÏÜ
  ÊÆèÄ ³ÏÔÚ³Ï ¥Âá Øâ¢, ÈÏÆèÂÝ ÕÚÌ ÔØ ×ÚÀéá ¹£ ʺá ØÜ ¥ µ¬ Ãáê ¥Âá ØÜ ¨ÆèØå¢Æá
  ÈÞ¹Ú, 'ÕÛÕÛÏ ¥ÍÚ ÃÚ?' ºÚÆÂÜ ØÞ¡ ³Û ¨ÆèØå¢Æá ÊØÝ ×ÚÅÚÏÁ-×Ú ÈèÏÕèÆ ³ÛÍÚ ÃÚ,
     ... 


Index Anusaaraka HOME PAGE